編輯:桃子 袁榭 拉燕
【新智元導(dǎo)讀】近日,斯坦福大學(xué)研究團(tuán)隊(duì)把人類(lèi)DNA測(cè)序的時(shí)間縮短至5小時(shí)2分鐘,重新定義了人類(lèi)基因組測(cè)序速度!
DNA測(cè)序時(shí)間減半,還創(chuàng)下了最新吉尼斯世界紀(jì)錄!
近日,斯坦福大學(xué)研究團(tuán)隊(duì)完成了利用人工智能計(jì)算加速工作流程的「DNA巨量測(cè)序」技術(shù)。
最新研究已于1月12發(fā)表在《新英格蘭醫(yī)學(xué)雜志》上。
論文地址:https://www.nejm.org/doi/full/10.1056/NEJMc2112090
此研究中處理速度最快的病例樣本僅用了5小時(shí)2分鐘就完成測(cè)序,從樣本送達(dá)實(shí)驗(yàn)室到診斷的時(shí)間是7小時(shí)18分鐘。
此前的基因診斷速度世界記錄是14小時(shí)。
最快DNA測(cè)序:用時(shí)5h
為什么說(shuō)這是一項(xiàng)重大突破?
這么說(shuō)吧,基因組測(cè)序是為了讓醫(yī)生能夠看到病人完整的DNA組成。
從眼睛顏色到遺傳性疾病的這些關(guān)鍵信息對(duì)于病人疾病的診斷非常重要。一旦醫(yī)生知道了特定的基因突變,他們就可以制定精準(zhǔn)的治療計(jì)劃。
因此,為了加速患者治療進(jìn)程,醫(yī)生就得選擇和時(shí)間賽跑。
如果測(cè)序基因組的速度越快,患者離開(kāi)ICU的速度就越快。
與之同時(shí),患者需要的測(cè)試次數(shù)減少,康復(fù)的速度變快,還有花在昂貴醫(yī)療上的費(fèi)用也會(huì)縮減。
要知道,之前的DNA測(cè)序診斷時(shí)間最快的記錄是雷迪兒童醫(yī)院創(chuàng)下的14小時(shí),已堪稱(chēng)神速。而斯坦福大學(xué)此次的紀(jì)錄又較之快了近倍。
研究項(xiàng)目負(fù)責(zé)人尤安·阿什利教授稱(chēng),「當(dāng)下大多數(shù)醫(yī)師提到給患者基因測(cè)序、拿到結(jié)果,數(shù)周內(nèi)就算快了?!?/span>
這項(xiàng)研究由斯坦福大學(xué)醫(yī)學(xué)院醫(yī)學(xué)、遺傳學(xué)和生物醫(yī)學(xué)數(shù)據(jù)科學(xué)教授尤安·阿什利博士領(lǐng)導(dǎo),與 英偉達(dá)、谷歌等機(jī)構(gòu)合作。
在這項(xiàng)研究中,研究小組在斯坦福大學(xué)醫(yī)院的重癥監(jiān)護(hù)病房中對(duì)未確診的患者進(jìn)行了加速基因組測(cè)序技術(shù)的測(cè)試。
從2020年12月—2021年5月,共招募了12名患者參加測(cè)試。其基因組測(cè)序流程如下:
超快速基因組測(cè)序流程
在12個(gè)提供基因樣本的病患中,有5個(gè)是當(dāng)天拿到結(jié)果,其他的都是病因非基因性質(zhì)。斯坦福研究團(tuán)隊(duì)42%的確診率高于病因難以發(fā)現(xiàn)的30%疑難病確證率。
最初,研究人員在5名患者中獲得了初步的基因診斷,從血樣送到實(shí)驗(yàn)室到最初診斷的最短時(shí)間是7小時(shí)18分鐘。
同時(shí),5名患者在基因診斷治療后得到了迅速的恢復(fù)。
上端深色塊區(qū)域代表5名最先診斷出結(jié)果的患者,患者11用時(shí)最短
測(cè)試對(duì)象中包括一名3個(gè)月大的癲癇新生兒,病因在例行的醫(yī)院儀器檢測(cè)中無(wú)法發(fā)現(xiàn)。研究團(tuán)隊(duì)在接到樣本的8小時(shí)25分鐘之內(nèi)發(fā)現(xiàn)了致病的基因異常,而同時(shí)送交普通基因測(cè)序機(jī)構(gòu)的結(jié)果是在兩周后才能得出。
還有一名13歲的心衰竭患者,其癥狀曾被誤診為新冠肺炎。研究團(tuán)隊(duì)也在數(shù)小時(shí)內(nèi)標(biāo)定了導(dǎo)致其心肌異常的基因變異,讓他在21天內(nèi)換上了健康的移植心臟。
論文作者之一、博士后約翰·果津斯基在個(gè)人推特上說(shuō),「這將完全改變危重病人確診遺傳病的現(xiàn)有方式,為醫(yī)護(hù)業(yè)帶來(lái)以前只有夢(mèng)見(jiàn)的新標(biāo)準(zhǔn)?!?/span>
成本低至3萬(wàn)
在確定患者1的診斷之后,科學(xué)家便更新了生物信息學(xué)框架,將原始信號(hào)數(shù)據(jù)實(shí)時(shí)傳輸?shù)皆拼鎯?chǔ)中,并將數(shù)據(jù)分布到多臺(tái)云計(jì)算機(jī)上,以實(shí)現(xiàn)接近實(shí)時(shí)的樣本呼叫和對(duì)齊。
這一步將測(cè)序后運(yùn)行時(shí)間減少了93% 。
在有的病例樣本處理過(guò)程中,研究團(tuán)隊(duì)的平均基因測(cè)序速度達(dá)到了每分鐘1.8G數(shù)據(jù)的速度,也就是1分鐘45秒內(nèi)測(cè)完一個(gè)人體基因組,這是前所未有的速度。
12名患者診斷過(guò)程每個(gè)階段花費(fèi)的時(shí)間
提速需要更新硬件。斯坦福大學(xué)的測(cè)序小組使用了牛津納米孔技術(shù)公司制造的一種新機(jī)器,該機(jī)器帶48個(gè)測(cè)序單元,也稱(chēng)為流動(dòng)槽。
斯坦福研究團(tuán)隊(duì)的新方法是在使用新分析機(jī)時(shí),用所有流動(dòng)槽同時(shí)處理同一個(gè)病患的樣本。
這種極限運(yùn)行方法獲得了大成效。老實(shí)說(shuō)成效差點(diǎn)太大。每小時(shí)173-236G的數(shù)據(jù)量、94%的比對(duì)認(rèn)定率、最高超過(guò)60倍的顯子組覆蓋度(對(duì)顯性常染色體數(shù)據(jù)的讀取次數(shù)),增強(qiáng)到讓處理數(shù)據(jù)的電腦不堪負(fù)荷。
斯坦福大學(xué)研究生 Sneha Goenka 為此找到了一個(gè)快速的解決方案。這個(gè)方案放棄傳統(tǒng)的全用本地測(cè)序芯片處理數(shù)據(jù)的辦法,直接將編譯好的數(shù)據(jù)存入基于英偉達(dá) Tensor Core GPU與谷歌云的存儲(chǔ)系統(tǒng)。
利用云計(jì)算系統(tǒng),算力可以被放大,并在數(shù)據(jù)中進(jìn)行實(shí)時(shí)篩選。
然后研究者使用英偉達(dá)的Clara Parabricks架構(gòu),獨(dú)立運(yùn)行為此定制的特殊決策樹(shù)算法,以掃描輸入的樣本基因代碼中,是否有病原體特征、可能導(dǎo)致疾病的遺傳異常特征,并為之標(biāo)出權(quán)重。
英偉達(dá)的Clara Parabricks架構(gòu)是以GPU加速運(yùn)行的谷歌PEPPER-Margin-DeepVariant管線版本。PEPPER-Margin-DeepVariant管線由谷歌與加州大學(xué)桑塔克魯茲分校聯(lián)合開(kāi)發(fā),利用遞歸神經(jīng)網(wǎng)絡(luò)算法分析基因測(cè)序數(shù)據(jù)。
決策樹(shù)算法過(guò)程
最后研究者將病患樣本的基因異常對(duì)照致病基因的公開(kāi)數(shù)據(jù)庫(kù),得出診斷。
因?yàn)檐浻布脑鰪?qiáng),研究團(tuán)隊(duì)還選用了以前更花錢(qián)且更艱難的長(zhǎng)讀測(cè)序法。
傳統(tǒng)的基因測(cè)序?qū)颖净蚍智谐尚《危缓笤贉y(cè)定每段里的DNA堿基對(duì)。如此方式可以在舊技術(shù)限制下降低成本與工時(shí),但容易誤測(cè)或漏測(cè)在長(zhǎng)段DNA序列中才能完整呈現(xiàn)的變異。
長(zhǎng)讀測(cè)序不需要過(guò)分切割DNA,同時(shí)測(cè)定1萬(wàn)到10萬(wàn)個(gè)堿基對(duì)之間的DNA長(zhǎng)序列,能在提高測(cè)序準(zhǔn)確度的同時(shí),提供更多基因變異的細(xì)節(jié)數(shù)據(jù)。
在之前的舊技術(shù)限制下,長(zhǎng)讀測(cè)序的成本遠(yuǎn)高于傳統(tǒng)測(cè)序。
現(xiàn)在速度提升了,精度增加了,那么這次測(cè)試究竟花了多少錢(qián)呢?
科學(xué)家估計(jì)了使用方法的成本,包括DNA提取、文庫(kù)制備、測(cè)序和計(jì)算,發(fā)現(xiàn)這些成本在4971美元—7318美元之間(約3萬(wàn)—4.6萬(wàn)人民幣),遠(yuǎn)低于之前的預(yù)期。
隨著基因組測(cè)序技術(shù)不斷進(jìn)步,測(cè)序成本以「超摩爾速度」直線下降。
斯坦福研究者稱(chēng),此技術(shù)將能在試點(diǎn)的斯坦福醫(yī)院與斯坦福大學(xué)露西爾·帕卡德兒童醫(yī)院達(dá)到加護(hù)病房周轉(zhuǎn)率提高到10小時(shí)以下的成果。若達(dá)到預(yù)期將試圖更廣泛鋪開(kāi)應(yīng)用。
4代基因測(cè)序技術(shù)
基因組測(cè)序技術(shù)的發(fā)展,最早可以追溯到1977年,此后經(jīng)過(guò)了40多年的發(fā)展。
基因組測(cè)序技術(shù)發(fā)展史|圖源:網(wǎng)絡(luò)
提到DNA測(cè)序,就不得不提到影響力巨大的「人類(lèi)基因組計(jì)劃」。
關(guān)注我們往期文章的讀者應(yīng)該有印象,僅在職一年的美國(guó)科學(xué)顧問(wèn)蘭德,他的最大成就可能就是繪制了人類(lèi)基因組圖譜,推動(dòng)了人類(lèi)基因組計(jì)劃的發(fā)展。
其實(shí),從上世紀(jì)90年代初起,學(xué)界就開(kāi)始涉足「人類(lèi)基因組計(jì)劃」。
人類(lèi)基因組計(jì)劃可謂是世界范圍內(nèi)規(guī)模最大的科學(xué)巨型工程之一了。
其宗旨就是測(cè)定組成人類(lèi)染色體中所包含的六十億對(duì)組成的核苷酸序列,從而繪制人類(lèi)基因組圖譜,并且辨識(shí)其載有的基因及其序列,達(dá)到破譯人類(lèi)遺傳信息的最終目的。
1990年,人類(lèi)基因組計(jì)劃由美國(guó)能源部和國(guó)家衛(wèi)生研究院投資,預(yù)期在15年內(nèi)完成。
而后,為了協(xié)調(diào)各國(guó)人類(lèi)基因組研究,1988年在維克多·馬克庫(kù)斯克等科學(xué)家的倡導(dǎo)下,國(guó)際人類(lèi)基因組組織宣告成立。
DNA測(cè)序技術(shù)的發(fā)展經(jīng)歷了4次比較重大的飛躍。
第一代:鏈終止法
1975年,弗雷德里克·桑格(Frederick Sanger)等人提出了鏈終止法,標(biāo)志學(xué)者第一代測(cè)序技術(shù)誕生。
他們測(cè)定了第一個(gè)基因組序列,全長(zhǎng)5375個(gè)堿基的噬菌體X174。自此,人類(lèi)獲得了窺探生命遺傳密碼的能力。
第一代測(cè)序技術(shù)的優(yōu)勢(shì)在于測(cè)序讀長(zhǎng)可達(dá)1000bp,準(zhǔn)確性高達(dá)99.999%,但因測(cè)序成本高、時(shí)間久和通量低等缺點(diǎn),嚴(yán)重影響了其真正大規(guī)模的應(yīng)用。
第二代:高通量測(cè)序
第二代高通量測(cè)序是對(duì)上一代桑格測(cè)序的革命性變革,一次可以對(duì)幾十萬(wàn)到幾百萬(wàn)條DNA分子進(jìn)行序列測(cè)定,在有一些文獻(xiàn)中將高通量測(cè)稱(chēng)為「下一代的測(cè)序技術(shù)」。
第二代測(cè)序技術(shù)除了大大降低測(cè)序成本以外,還大幅提高了測(cè)序速度,并且保持了高準(zhǔn)確性。
第一代測(cè)序技術(shù)完成一個(gè)人類(lèi)基因組的測(cè)序需要3年時(shí)間,而使用二代測(cè)序技術(shù)則僅僅需要1周時(shí)間。
DNA之父詹姆斯·沃森(James Watson)在不到兩年、花費(fèi)僅200萬(wàn)美元的情況下,獲得了世界上首份個(gè)人基因組圖譜。
在之后,科學(xué)家看到在此方向上發(fā)展基因測(cè)序技術(shù)大有可為,于是繼續(xù)進(jìn)行創(chuàng)新,發(fā)明了第三代單分子測(cè)序技術(shù)。
第三代:?jiǎn)畏肿訉?shí)時(shí)DNA測(cè)序
以PacBio公司的SMRT技術(shù)和Oxford Nanopore Technologies公司的「納米孔單分子技術(shù)」為代表的新一代測(cè)序技術(shù)被稱(chēng)為第三代測(cè)序技術(shù)。
PacBio公司儀器
單分子測(cè)序技術(shù),不需要經(jīng)過(guò)PCR擴(kuò)增,實(shí)現(xiàn)了對(duì)每一條DNA分子的單獨(dú)測(cè)序。第三代測(cè)序技術(shù)也叫從頭測(cè)序技術(shù),即單分子實(shí)時(shí)DNA測(cè)序。
第四代:核苷酸測(cè)序
第四代測(cè)序技術(shù)的基本標(biāo)志是不經(jīng)過(guò)cDNA (以RNA為模版合成的互補(bǔ)DNA),無(wú)PCR擴(kuò)增,而直接測(cè)定單分子RNA序列,以及確定單分子RNA上的修飾核苷酸位點(diǎn)。
第一代測(cè)序技術(shù)的出現(xiàn)讓人類(lèi)獲得了探索生命遺傳本質(zhì)的能力,讓生命科學(xué)的研究進(jìn)入了基因組研究時(shí)代。
到至今為止的40多年的時(shí)間,基因測(cè)序技術(shù)從第一代到第四代的已經(jīng)得到了非常大的發(fā)展。
未來(lái),解碼DNA時(shí)間的序列的嘗試還會(huì)繼續(xù)…
參考資料:
https://www.zdnet.com/article/stanford-uni-nvidia-use-ai-computing-to-cut-dna-sequencing-down-to-five-hours/
版權(quán)聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻(xiàn),該文觀點(diǎn)僅代表作者本人。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容, 請(qǐng)發(fā)送郵件至 舉報(bào),一經(jīng)查實(shí),本站將立刻刪除。