蜜桃传播传媒|欧美精品久久久久久久一区二区|91干炮视频|国产高清自拍一区|麻豆映画在线观看视频传媒www|巨乳美乳影院|日日干夜夜拍|177.sk 163.sk黑料不打烊|小视频福利|91爱看视频,广州爱豆文化传媒,人人爱人人看,91传媒制片厂苹果下载

MENU

新聞中心

當(dāng)前位置: 首頁» 新聞中心» 媒體報道

【小柯生命】重磅,!中國科學(xué)家研發(fā)新的全基因組組裝算法

2019-12-11 12:00:00來源:

【字體:

  

北京時間12月10日0時,《自然—方法學(xué)》在線發(fā)表了第一個能夠跟上基因組測序產(chǎn)生速度的組裝算法,。

    

這篇論文只有兩位作者,,他們是中國農(nóng)業(yè)科學(xué)院農(nóng)業(yè)基因組研究所阮玨博士,,與美國哈佛大學(xué)醫(yī)學(xué)院李恒博士,。

    

該新的第三代測序數(shù)據(jù)組裝算法,,被他們稱為Wtdbg,。
 
 
 
 
十年前,,Illumina基因組測序技術(shù)進(jìn)入市場時,前所未有的龐大數(shù)據(jù)量,,淘汰了較早開發(fā)的測序分析工具,。
 
歷史總是重演。
 
如今,,第三代測序技術(shù),,已經(jīng)達(dá)到低成本群體測序規(guī)模的臨界點(diǎn)。
 
 
 

    三代測序的尷尬

 
20年前,,破譯人類遺傳密碼還是極具挑戰(zhàn)的大科學(xué)工程,。
 
當(dāng)時,人類基因組測序計劃,,與曼哈頓原子彈計劃,、阿波羅計劃,并稱為三大科學(xué)計劃,。
 
如今,,完成一個人的全基因組測序,已經(jīng)是普通實(shí)驗(yàn)室,、甚至家庭都可以負(fù)擔(dān)起費(fèi)用的“平?!笔虑椤?/span>
 
用第三代測序技術(shù)完成個體全基因組測序僅需一天時間,,費(fèi)用也已經(jīng)低于5萬元,。
 
2011年,PacBio公司正式宣布三代單分子測序開始商業(yè)化,。
 
相比于二代測序每個序列的幾百堿基對測序讀長,,三代測序的平均讀長達(dá)到了幾萬堿基對,最長可以達(dá)到數(shù)百萬堿基對,。
 
西北工業(yè)大學(xué)生態(tài)環(huán)境學(xué)院教授邱強(qiáng)告訴《中國科學(xué)報》,,這一技術(shù)出現(xiàn)時,科研人員期待利用它填補(bǔ)基因組序列中高重復(fù)高雜合的區(qū)域,,挑戰(zhàn)高難度的基因組,。
 
然而,人們迅速發(fā)現(xiàn),,這一新技術(shù)的普及和應(yīng)用遇到了很大的困難,。
 
“這主要由兩個原因所導(dǎo)致,。第一,三代測序的成本在初期要遠(yuǎn)高于二代測序,;第二,,由于三代測序錯誤率較高,此前用于第二代基因組測序的組裝方法紛紛失效,,缺乏有效率的組裝工具,,特別是PacBio官方推出的falcon方法,消耗資源極多,?!?/span>
 
邱強(qiáng)介紹,數(shù)年后,,Ont公司推出納米孔測序技術(shù),,市場競爭逐漸拉低了第三代測序的成本。
 
在基因組組裝方面,,盡管已經(jīng)出現(xiàn)了canu,、marvel等多個組裝軟件,“但組裝仍然是一個十分費(fèi)時費(fèi)力的過程,,一個哺乳動物基因組的組裝時間要以數(shù)周來計算”,。
 
以人類基因組組裝為例,在2014年需要消耗50萬個CPU小時,,只能在超大計算機(jī)集群上進(jìn)行,。
 
“這種情況下,同時對大量個體進(jìn)行組裝分析是難以想象的,?!钡F(xiàn)實(shí)是,“以全基因組組裝方式對群體進(jìn)行測序分析,,已經(jīng)成為生物醫(yī)學(xué)研究的趨勢”,,阮玨說。
 
 

    首次:數(shù)據(jù)分析比數(shù)據(jù)產(chǎn)生更快

 
 
 
“wtdbg和即將推出的工具,,可能會從根本上改變當(dāng)前測序數(shù)據(jù)分析的實(shí)踐,。”阮玨說,。
 
此前,,“數(shù)據(jù)產(chǎn)出速度遠(yuǎn)高于數(shù)據(jù)分析速度?!?/span>
 
因此,,近年來,生物信息學(xué)領(lǐng)域的科學(xué)家群體致力于改變這種尷尬狀況,不斷開發(fā)出更高效的組裝分析算法,。
 
例如,,繼falcon、canu等算法之后,,2019年4月,,美國加利福尼亞大學(xué)圣地亞哥分校NIH計算質(zhì)譜中心主任Pavel A. Pevzner在《自然—生物技術(shù)》上發(fā)表了Flye算法,其速度遠(yuǎn)高于falcon,、canu,。
 
阮玨和李恒正式發(fā)表的第三代測序數(shù)據(jù)組裝算法wtdbg,,比之Flye算法,,分析速度提升了5倍,也首次讓數(shù)據(jù)分析時間少于數(shù)據(jù)產(chǎn)出時間,。
 
西北工業(yè)大學(xué)生態(tài)環(huán)境學(xué)院的科學(xué)家,,已經(jīng)用wtdbg組裝了十多個哺乳動物基因組。
 
西北工業(yè)大學(xué)教授陳壘說:“我們用過falcon和canu等組裝方法,,相比較而言,,wtdbg組裝運(yùn)算時間最快,占用資源少,,能節(jié)省大量時間,。組裝出的基因組連續(xù)性很高,組裝質(zhì)量均符合現(xiàn)在主流的基因組評估,?!?/span>
 
特別是,對超大型基因組的組裝,,wtdbg應(yīng)該是目前為數(shù)不多的可以高效使用的組裝軟件,。
 
“對于人類基因組數(shù)據(jù),wtdbg比已發(fā)布的工具快幾十倍,,同時實(shí)現(xiàn)了相當(dāng)?shù)倪B續(xù)性和準(zhǔn)確性,。它代表了算法上的重大進(jìn)步,并為將來群體規(guī)模的組裝分析鋪平道路,?!比瞰k說。
 
 

    模糊布魯因圖問世

    

 
上世紀(jì)90年代,,Pavel A. Pevzner將德布魯因圖(de BruijnGraph,,德布魯因圖是一個展示符號序列之間重疊關(guān)系的有方向的圖)引入了基因組組裝領(lǐng)域。
 
阮玨介紹,,由于第二代測序錯誤率低,,大部分短串(k-mer)是正確的,相同的短串間可以利用德布魯因圖的原理合并起來構(gòu)成組裝圖,。
 
但三代測序數(shù)據(jù)的錯誤率非常高,,如果還是使用短串k-mer的話,,大部分短串帶有測序錯誤,不可以合并起來,。
 
因此,,德布魯因圖從未成功應(yīng)用在第三代測序數(shù)據(jù)。
 
突破性的方法基于突破性的理論基礎(chǔ),。
 
2013年開始,,阮玨和李恒著手解決三代測序組裝的問題,分別開發(fā)的SMARTdenovo和Miniasm在領(lǐng)域內(nèi)均有較好的表現(xiàn),。
 
隨后在德布魯因圖基礎(chǔ)上,,設(shè)計出一個新的組裝圖理論——模糊布魯因圖(Fuzzy Bruijn Graph)。
 
他們重新定義了“短串”,,將測序數(shù)據(jù)切分為固定長度的新型短串k-bin,,k-bin比k-mer的長度更長。
 
“新設(shè)計的模糊布魯因圖能夠容忍高噪音數(shù)據(jù),,并隨后對生成組裝圖與恢復(fù)基因組序列做了大量相應(yīng)的重構(gòu),,使其兼具高效率和高容錯的優(yōu)點(diǎn)?!比瞰k說,。
 
“一般軟件組裝第三代測序數(shù)據(jù)的思路是,先對測序數(shù)據(jù)進(jìn)行比對糾錯,,再進(jìn)行基因組序列的構(gòu)建,。”邱強(qiáng)說,,wtdbg則直接進(jìn)行基因組組裝,,避免了需要提前糾錯的耗時步驟,直接得到一個相對可靠的組裝結(jié)果,。
 
組裝費(fèi)時費(fèi)力這一問題的真正改善,,正是由阮玨和李恒所研發(fā)的wtdbg算法開始。
 
課題組中,,wtdbg算法得到了廣泛使用,,極大提高工作效率。
 
不僅如此,,他們還與阮玨進(jìn)行了深入溝通,,對超大基因組組裝進(jìn)行了優(yōu)化,“我們得以獲取基因組大小40G左右的高質(zhì)量基因組序列”,。
 
 
 

    公眾參與下的技術(shù)改進(jìn)

 
2016年,,為了讓基因組測序領(lǐng)域可以及時使用新技術(shù),阮玨和李恒將wtdbg研究成果對所有人免費(fèi)開放使用。
 
3年來,,wtdbg不僅被幾十篇學(xué)術(shù)論文引用,,還被國內(nèi)多家基因組測序分析公司作為主要組裝分析工具,并且在2019年世界大學(xué)生超算競賽中做為性能測試賽題,。
 
“我們通過郵件,、GitHub網(wǎng)站等方式收到大量反饋,這些反饋不僅幫助我們修訂算法軟件中的漏洞,,還給我們帶來新的想法和思路,。換個角度來講,現(xiàn)在發(fā)表的論文已經(jīng)經(jīng)歷了3年多的‘公眾審稿’,,感謝多年來參與和關(guān)注wtdbg開發(fā)的同行,。”阮玨說,。
 
邱強(qiáng)認(rèn)為,,wtdbg算法不僅相對于更早的falcon、canu等算法具有效率和準(zhǔn)確性的優(yōu)勢,,相比此后出現(xiàn)的flye等組裝算法也具有更好的可靠性?!?/span>
 
這一研究成果代表我國在基因組算法領(lǐng)域具有不輸于國際甚至引領(lǐng)國際的實(shí)力,,也代表了我國科技發(fā)展的軟實(shí)力”。
 
現(xiàn)在,,科學(xué)家們可以使用全基因組組裝的方式,,對大群體開展研究了。
 
論文信息:
http://doi.org/10.1038/s41592-019-0669-3

TOP TOP