蜜桃传播传媒|欧美精品久久久久久久一区二区|91干炮视频|国产高清自拍一区|麻豆映画在线观看视频传媒www|巨乳美乳影院|日日干夜夜拍|177.sk 163.sk黑料不打烊|小视频福利|91爱看视频,广州爱豆文化传媒,人人爱人人看,91传媒制片厂苹果下载

MENU

新聞中心

當(dāng)前位置: 首頁» 新聞中心» 科研進展

基因組所提出DNA數(shù)字存儲糾錯新技術(shù)

2023-09-07 09:59:34

【字體:

  


9月2日,基因組所阮玨課題組和潘瑋華課題組在《國家科學(xué)評論(National Science Review)》期刊上發(fā)表了題為“Improving Error-correcting Capability in DNA Digital Storage via Soft-decision Decoding”的研究論文,該研究首次利用構(gòu)建的DNA數(shù)字存儲中的精確錯誤模型融入糾錯碼解碼,實現(xiàn)了DNA數(shù)字存儲技術(shù)中的軟判決譯碼。該研究突破了先前研究中僅采用硬判決譯碼的糾錯能力上限,使糾錯數(shù)量提高至硬判決的2倍,對DNA數(shù)字存儲的未來發(fā)展具有重要意義。特別是應(yīng)用在便攜設(shè)備的高錯誤率環(huán)境下,以及真正實現(xiàn)超大規(guī)模數(shù)據(jù)存儲(如BrontoByte規(guī)模),起了推動發(fā)展的作用。


大數(shù)據(jù)時代下傳統(tǒng)的以磁、光、電等為介質(zhì)的存儲設(shè)備已經(jīng)無法滿足海量數(shù)據(jù)存儲的需求。DNA數(shù)字存儲以其存儲密度高(EB/g),存儲壽命長(百萬年)且維護成本低的優(yōu)勢,被視為一種具有潛力的存儲技術(shù)和應(yīng)對數(shù)據(jù)存儲增長挑戰(zhàn)的新機遇。然而,相較于傳統(tǒng)存儲,DNA數(shù)字存儲過程中錯誤率較高,錯誤類型多樣,為數(shù)據(jù)的準確恢復(fù)帶來了挑戰(zhàn)。前人研究普遍將測序錯誤視為隨機錯誤,只能實現(xiàn)硬判決糾錯,導(dǎo)致糾錯能力受限于引入的冗余信息。然而,DNA的合成和測序存在錯誤偏好性,若將其合理利用能有效提升糾錯效率。該研究探索了DNA存儲過程中的錯誤偏好性,構(gòu)建出錯誤預(yù)測模型,輔助現(xiàn)有糾錯技術(shù),并加入一系列創(chuàng)新的糾錯策略,成功打破了冗余對糾錯能力的限制,開發(fā)了軟判決譯碼軟件Derrick。


研究團隊在編碼時,采用該領(lǐng)域最常用的RS糾錯碼和CRC64校驗碼。在解碼階段,通過對測序序列做多序列比對,便捷地建立了錯誤預(yù)測模型,具體而言,根據(jù)多序列比對中每個堿基在多條序列上的支持度,作為堿基的可信度,可信度越低則該堿基更可能是錯誤的堿基。與硬判決解碼時每一單位錯誤需要消耗2單位的邏輯冗余相比,在軟判決糾錯中,預(yù)測出錯誤位置將糾錯所需的邏輯冗余降低一半,進一步地預(yù)測出錯誤位置的真值將直接進行糾正,從而消耗的邏輯冗余為0。因此,理論上能將糾錯能力提升至信息極限。由于錯誤預(yù)測集包含著假陽性,Derrick通過迭代搜索直到解碼成功或者超時。此外,Derrick還包含每次解碼成功后的移位算法,以應(yīng)對DNA存儲中特殊的插入和刪除錯誤。因為插入和刪除若不及時修正,會導(dǎo)致序列中堿基位置偏移,之后的信息可能大片段出錯,移位算法有效解決這個問題。為了進一步校驗糾錯后的數(shù)據(jù),采用了CRC64校驗和回溯算法。這是因為RS糾錯也可能存在假陰性情況,通過CRC64校驗可以檢測到此類錯誤,并通過回溯算法進行錯誤識別,直到再次解碼成功或超時。這一系列創(chuàng)新的策略實現(xiàn)了高效且魯棒(robust)的軟判決譯碼(圖1)。



圖1 Derrick糾錯算法的示意概覽


該研究在濕試驗中成功存儲了5.2MB的信息。在文件讀取過程中,采用了Derrick解碼方案,實際糾錯數(shù)量相較于硬判決方式提升了兩倍。實現(xiàn)100%信息恢復(fù)所需的測序深度僅為4×(應(yīng)用Illumina測序)和8×(應(yīng)用Nanopore測序),信息密度達到1.56 bit/bp。綜合考慮測序成本和信息密度的優(yōu)勢,該研究達到了此領(lǐng)域最高水平(見圖2)。進一步進行統(tǒng)計預(yù)測的結(jié)果顯示,相較于硬判決方式,Derrick將無損存儲容量提升了近5個數(shù)量級。為了進一步測試在更多文件類型上的效果,研究團隊使用了一個包含視頻、圖片、軟件等多種文件類型的數(shù)據(jù)集,總計11.7MB,進行了編碼、模擬合成和PacBio CLR測序,以及解碼的試驗。通過進行11種不同碼率的測試試驗,結(jié)果均展示了Derrick的優(yōu)越性能,同時為設(shè)計DNA存儲試驗時選擇適合當(dāng)前數(shù)據(jù)量和錯誤率的碼率提供了詳細指導(dǎo)。


圖2 | 比較信息密度和測序冗余


Derrick為實現(xiàn)高存儲容量和抗高錯誤率的數(shù)據(jù)存儲提供了新的見解和解決方案。此外,該研究是對應(yīng)用在DNA數(shù)字存儲上糾錯技術(shù)從原理上研發(fā)進行的改進,以往研究中的糾錯方法都可以加入新提出的軟判決策略大幅提升糾錯能力。Derrick軟件免費開放使用:https://github.com/wushigang2/derrick。


基因組所阮玨研究員和潘瑋華研究員為該論文通訊作者。基因組所博士畢業(yè)生丁璐璐、科研助理伍世剛、客座碩士畢業(yè)生侯志浩為該論文共同第一作者。該研究得到了國家重點研發(fā)計劃、國家自然科學(xué)基金、深圳市科技創(chuàng)新委員會和中國農(nóng)業(yè)科學(xué)院科技創(chuàng)新工程的資助與支持。


原文鏈接https://doi.org/10.1093/nsr/nwad229




TOP TOP