蜜桃传播传媒|欧美精品久久久久久久一区二区|91干炮视频|国产高清自拍一区|麻豆映画在线观看视频传媒www|巨乳美乳影院|日日干夜夜拍|177.sk 163.sk黑料不打烊|小视频福利|91爱看视频,广州爱豆文化传媒,人人爱人人看,91传媒制片厂苹果下载

MENU

新聞中心

當(dāng)前位置: 首頁» 新聞中心» 科研進(jìn)展

基因組注釋的發(fā)展歷程:從傳統(tǒng)到創(chuàng)新

2024-06-14 12:05:38來源:

【字體:

  


近日,,中國農(nóng)業(yè)科學(xué)院深圳農(nóng)業(yè)基因組研究所(嶺南現(xiàn)代農(nóng)業(yè)科學(xué)與技術(shù)廣東省實(shí)驗(yàn)室深圳分中心)張興坦課題組在《生物信息學(xué)簡報(bào)(Briefings in Bioinformatics)》上發(fā)表了題為“From Tradition to Innovation: conventional and deep learning frameworks in genome annotation(從傳統(tǒng)到創(chuàng)新:基因組注釋中的傳統(tǒng)和深度學(xué)習(xí)框架)”的綜述論文,,介紹了傳統(tǒng)的基因組注釋方法以及缺點(diǎn),并概述了基因組注釋中深度學(xué)習(xí)框架的進(jìn)展,,包括原理,、模型和方法,,對深度學(xué)習(xí)在基因組注釋中的應(yīng)用提供了一個(gè)入門指導(dǎo)。



基因組注釋是通過應(yīng)用生物信息學(xué)方法和工具,,識別基因組序列上的各種元素,,包括編碼基因、非編碼RNA,、轉(zhuǎn)座子等重復(fù)序列和調(diào)控元件等,,并推斷它們的生物學(xué)功能。傳統(tǒng)的基因組注釋方法,,如基于雜交技術(shù)或濕實(shí)驗(yàn)方法,,嚴(yán)重依賴操作者的經(jīng)驗(yàn)和技術(shù),成本較高且應(yīng)用有限。早期的生物信息學(xué)算法和軟件(如Blast2GO,、InterProScan和GeneMark等)主要采用淺層學(xué)習(xí)技術(shù),,處理高通量數(shù)據(jù)的能力有限。


深度學(xué)習(xí),,作為機(jī)器學(xué)習(xí)的重要分支,,包括輸入層、多個(gè)隱藏層和輸出層,。對于基因組序列這樣高維且異構(gòu)的數(shù)據(jù),,傳統(tǒng)的特征提取方法可能會因?yàn)閿?shù)據(jù)復(fù)雜性而顯得力不從心。深度學(xué)習(xí)模型通過構(gòu)建多個(gè)隱藏層,,學(xué)習(xí)大量樣本數(shù)據(jù)的內(nèi)在規(guī)律和潛在表示,,同時(shí)保留數(shù)據(jù)中的關(guān)鍵信息,如圖1所示,。首先,,原始測序數(shù)據(jù)經(jīng)過特征編碼(如one-hot編碼、詞嵌入,、k-mer計(jì)數(shù)等方式)轉(zhuǎn)換成深度學(xué)習(xí)模型的輸入表示,,深度學(xué)習(xí)通過逐層處理、特征轉(zhuǎn)換以及增加復(fù)雜性三個(gè)關(guān)鍵步驟對輸入數(shù)據(jù)進(jìn)行非線性建模,,自適應(yīng)地發(fā)現(xiàn)數(shù)據(jù)中的復(fù)雜模式和關(guān)聯(lián),,無需手動(dòng)設(shè)計(jì),便于后續(xù)地預(yù)測和分類任務(wù),,形成端到端的模型,。


圖1.基因注釋中的深度學(xué)習(xí)工作流程,。深度學(xué)習(xí)模型的輸入數(shù)據(jù)是原始序列數(shù)據(jù),,這些數(shù)據(jù)是通過基因組測序獲得的短讀取序列,在序列拼接和組裝后得到,。在輸入到深度學(xué)習(xí)模型之前,,它首先進(jìn)行特征編碼,然后輸入到由多個(gè)隱藏層構(gòu)建的深度學(xué)習(xí)網(wǎng)絡(luò)中,。深度學(xué)習(xí)網(wǎng)絡(luò)通過多個(gè)隱藏層從輸入數(shù)據(jù)中提取潛在特征,,用于后續(xù)基因組組件的分類和預(yù)測。


文章進(jìn)一步討論了深度學(xué)習(xí)在轉(zhuǎn)座子元件(TE),、蛋白質(zhì)編碼基因,、功能注釋、調(diào)控元件和結(jié)構(gòu)變異檢測等基因組注釋領(lǐng)域的應(yīng)用,,為生物信息學(xué)研究和基因組學(xué)領(lǐng)域的發(fā)展注入了新的活力,。


轉(zhuǎn)座子元件是基因組中最常見的重復(fù)序列,通過利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)等技術(shù),研究人員能夠更準(zhǔn)確地識別和分類不同類型的轉(zhuǎn)座子,,大大提高了注釋的準(zhǔn)確性和效率,。例如,DeepTE工具利用CNN從序列數(shù)據(jù)中提取特征,,實(shí)現(xiàn)了對植物,、后種動(dòng)物和真菌TE的準(zhǔn)確分類,為基因組注釋提供了有力支持,。


由于真核基因組的復(fù)雜性和多樣性,,傳統(tǒng)的機(jī)器學(xué)習(xí)方法難以完全捕捉到編碼區(qū)域的特征。然而,,深度學(xué)習(xí)模型能夠?qū)⒒蛐蛄杏成涞礁呔S特征空間,,從而更好地識別外顯子和內(nèi)含子,并準(zhǔn)確預(yù)測剪接位點(diǎn),。這為我們更深入地理解蛋白質(zhì)編碼的結(jié)構(gòu)和功能提供了新的途徑,。


功能注釋是基因組學(xué)研究中的關(guān)鍵環(huán)節(jié),傳統(tǒng)的基因功能注釋方法往往受限于離散的數(shù)據(jù)和手動(dòng)處理過程,,而深度學(xué)習(xí)技術(shù)則能夠從大量生物數(shù)據(jù)中學(xué)習(xí),,并推斷基因和生物功能之間的相互作用。例如,,Gene2vec利用深度學(xué)習(xí)模型將基因表達(dá)數(shù)據(jù)轉(zhuǎn)換為文本,,預(yù)測未知基因的功能。這種方法在多個(gè)物種的基因注釋任務(wù)中表現(xiàn)出了良好的效果,,為基因功能研究提供了新的思路,。


此外,深度學(xué)習(xí)技術(shù)在識別啟動(dòng)子,、增強(qiáng)子等調(diào)控元件,、檢測結(jié)構(gòu)變異等方面同樣展現(xiàn)出了強(qiáng)大的應(yīng)用潛力,正在推動(dòng)基因組學(xué)研究邁向新的高度,。隨著技術(shù)的不斷發(fā)展和數(shù)據(jù)的不斷積累,,我們相信深度學(xué)習(xí)將繼續(xù)發(fā)揮重要作用,為研究人員理解基因組的結(jié)構(gòu),、功能和調(diào)控提供更深入的見解,。


基因組所實(shí)習(xí)生陳兆佳為論文第一作者,基因組所張興坦研究員為論文通訊作者,。該項(xiàng)目得到國家重點(diǎn)研發(fā)計(jì)劃,、深圳市基礎(chǔ)研究任務(wù)、國家自然科學(xué)基因項(xiàng)目資助,。


原文鏈接:https://doi.org/10.1093/bib/bbae138


TOP TOP