自基因組學(xué)技術(shù)問世以來,測序與分析一直是基因組學(xué)技術(shù)中最主要的兩個環(huán)節(jié)。實際上,與繁重的測序工作相比,基因組的分析也同樣復(fù)雜,需要耗費(fèi)大量時間。
然而,隨著近年來基因組學(xué)技術(shù)發(fā)展突飛猛進(jìn),這種狀況正在逐步改變。
日前,中國農(nóng)業(yè)科學(xué)院深圳農(nóng)業(yè)基因組研究所阮玨團(tuán)隊在《自然·方法學(xué)》上發(fā)表了第三代測序數(shù)據(jù)組裝算法Wtdbg,極大提高三代測序數(shù)據(jù)的分析效率,與今年4月發(fā)表在《自然·生物技術(shù)》上的Flye算法相比,分析速度提升了5倍,并首次將測序數(shù)據(jù)分析時間降低到少于測序數(shù)據(jù)產(chǎn)出時間。
基因組的測序與分析
DNA測序技術(shù)成熟于上世紀(jì)70年代中后期,1990年人類基因組計劃的提出,將基因組測序技術(shù)逐步由實驗室邁入商業(yè)化階段;到2004年人類基因組計劃完成時,第二代基因組測序技術(shù)已經(jīng)相對成熟,開始大規(guī)模商業(yè)化應(yīng)用;2013年,單分子等第三代測序技術(shù)出現(xiàn),也預(yù)示著測序技術(shù)應(yīng)用更廣,測序的成本越低。
“如今,完成一個人的全基因組測序是普通家庭都可以負(fù)擔(dān)起費(fèi)用的‘平常’事情了。以三代測序為例,完成個人全基因組測序僅需1天時間、費(fèi)用低于5萬元。”論文作者、中國農(nóng)業(yè)科學(xué)院深圳農(nóng)業(yè)基因組研究所研究員阮玨告訴經(jīng)濟(jì)日報記者。
在測序技術(shù)日新月異的同時,分析技術(shù)也在共同成長。以人類基因組組裝為例,在2014年需要消耗50萬個CPU小時,且只能在超大計算機(jī)集群上進(jìn)行。因而,以全基因組組裝方式對群體進(jìn)行測序分析已經(jīng)成為生物醫(yī)學(xué)研究的趨勢。
關(guān)鍵鑰匙:模糊布魯因圖
Wtdbg算法的開發(fā)得益于一個新的組裝圖理論——模糊布魯因圖的提出。模糊布魯因圖借鑒了德布魯因圖的思想,將測序數(shù)據(jù)切分為固定長度的短串,再從短串構(gòu)建出的圖上恢復(fù)出全基因組序列。
上世紀(jì)90年代,德布魯因圖被引入基因組組裝領(lǐng)域,其以速度優(yōu)勢常用于第二代測序數(shù)據(jù)的組裝分析,但因測序噪音極高,從未成功應(yīng)用在第三代測序數(shù)據(jù)。
2013年起,阮玨和美國哈佛醫(yī)學(xué)院的博士李恒在德布魯因圖基礎(chǔ)上,設(shè)計出一個新的組裝圖理論——模糊布魯因圖。通過重新對短串進(jìn)行定義,它能夠容忍高噪音數(shù)據(jù),并隨后對生成組裝圖和恢復(fù)基因組序列做了大量相應(yīng)的重構(gòu),使其兼具高效率和高容錯的優(yōu)點(diǎn)。
不斷進(jìn)化的新算法
近年來,生物信息學(xué)領(lǐng)域的科學(xué)家們致力于改變這種數(shù)據(jù)產(chǎn)出速度遠(yuǎn)高于數(shù)據(jù)分析速度的尷尬狀況,不斷開發(fā)出更高效的組裝分析算法。
2013年,阮玨與李恒合作開始了測序數(shù)據(jù)分析方法如組裝算法的開發(fā),力求推動測序數(shù)據(jù)的分析速度更快、分析質(zhì)量更高。2016年,他們的研究結(jié)束,并將研究成果Wtdbg對所有人免費(fèi)開放使用。3年來,這項成果不僅被幾十篇學(xué)術(shù)論文引用,還被國內(nèi)多家基因測序分析公司作為主要組裝分析工具,并且在2019年世界大學(xué)生超算競賽中作為性能測試賽題。
“我們收到大量反饋,不僅有助修訂算法軟件中的漏洞,還帶來了新想法和思路。算法需要不斷在實踐中完善,只有通過更多實際應(yīng)用,我們才能更有效調(diào)整改進(jìn)這套算法。目前的算法與2016年相比已經(jīng)是2.0版本,而更高版本的算法于今年初也開始了研究。”阮玨告訴記者。
關(guān)鍵詞:
責(zé)任編輯:Rex_01