蜜桃传播传媒|欧美精品久久久久久久一区二区|91干炮视频|国产高清自拍一区|麻豆映画在线观看视频传媒www|巨乳美乳影院|日日干夜夜拍|177.sk 163.sk黑料不打烊|小视频福利|91爱看视频,广州爱豆文化传媒,人人爱人人看,91传媒制片厂苹果下载

MENU

新聞中心

當(dāng)前位置: 首頁» 新聞中心» 科研進(jìn)展

基因組注釋的發(fā)展歷程:從傳統(tǒng)到創(chuàng)新

2024-06-14 12:05:38

【字體:

  


近日,中國農(nóng)業(yè)科學(xué)院深圳農(nóng)業(yè)基因組研究所(嶺南現(xiàn)代農(nóng)業(yè)科學(xué)與技術(shù)廣東省實(shí)驗(yàn)室深圳分中心)張興坦課題組在《生物信息學(xué)簡報(bào)(Briefings in Bioinformatics)》上發(fā)表了題為“From Tradition to Innovation: conventional and deep learning frameworks in genome annotation(從傳統(tǒng)到創(chuàng)新:基因組注釋中的傳統(tǒng)和深度學(xué)習(xí)框架)”的綜述論文,介紹了傳統(tǒng)的基因組注釋方法以及缺點(diǎn),并概述了基因組注釋中深度學(xué)習(xí)框架的進(jìn)展,包括原理、模型和方法,對(duì)深度學(xué)習(xí)在基因組注釋中的應(yīng)用提供了一個(gè)入門指導(dǎo)。



基因組注釋是通過應(yīng)用生物信息學(xué)方法和工具,識(shí)別基因組序列上的各種元素,包括編碼基因、非編碼RNA、轉(zhuǎn)座子等重復(fù)序列和調(diào)控元件等,并推斷它們的生物學(xué)功能。傳統(tǒng)的基因組注釋方法,如基于雜交技術(shù)或濕實(shí)驗(yàn)方法,嚴(yán)重依賴操作者的經(jīng)驗(yàn)和技術(shù),成本較高且應(yīng)用有限。早期的生物信息學(xué)算法和軟件(如Blast2GO、InterProScan和GeneMark等)主要采用淺層學(xué)習(xí)技術(shù),處理高通量數(shù)據(jù)的能力有限。


深度學(xué)習(xí),作為機(jī)器學(xué)習(xí)的重要分支,包括輸入層、多個(gè)隱藏層和輸出層。對(duì)于基因組序列這樣高維且異構(gòu)的數(shù)據(jù),傳統(tǒng)的特征提取方法可能會(huì)因?yàn)閿?shù)據(jù)復(fù)雜性而顯得力不從心。深度學(xué)習(xí)模型通過構(gòu)建多個(gè)隱藏層,學(xué)習(xí)大量樣本數(shù)據(jù)的內(nèi)在規(guī)律和潛在表示,同時(shí)保留數(shù)據(jù)中的關(guān)鍵信息,如圖1所示。首先,原始測序數(shù)據(jù)經(jīng)過特征編碼(如one-hot編碼、詞嵌入、k-mer計(jì)數(shù)等方式)轉(zhuǎn)換成深度學(xué)習(xí)模型的輸入表示,深度學(xué)習(xí)通過逐層處理、特征轉(zhuǎn)換以及增加復(fù)雜性三個(gè)關(guān)鍵步驟對(duì)輸入數(shù)據(jù)進(jìn)行非線性建模,自適應(yīng)地發(fā)現(xiàn)數(shù)據(jù)中的復(fù)雜模式和關(guān)聯(lián),無需手動(dòng)設(shè)計(jì),便于后續(xù)地預(yù)測和分類任務(wù),形成端到端的模型。


圖1.基因注釋中的深度學(xué)習(xí)工作流程。深度學(xué)習(xí)模型的輸入數(shù)據(jù)是原始序列數(shù)據(jù),這些數(shù)據(jù)是通過基因組測序獲得的短讀取序列,在序列拼接和組裝后得到。在輸入到深度學(xué)習(xí)模型之前,它首先進(jìn)行特征編碼,然后輸入到由多個(gè)隱藏層構(gòu)建的深度學(xué)習(xí)網(wǎng)絡(luò)中。深度學(xué)習(xí)網(wǎng)絡(luò)通過多個(gè)隱藏層從輸入數(shù)據(jù)中提取潛在特征,用于后續(xù)基因組組件的分類和預(yù)測。


文章進(jìn)一步討論了深度學(xué)習(xí)在轉(zhuǎn)座子元件(TE)、蛋白質(zhì)編碼基因、功能注釋、調(diào)控元件和結(jié)構(gòu)變異檢測等基因組注釋領(lǐng)域的應(yīng)用,為生物信息學(xué)研究和基因組學(xué)領(lǐng)域的發(fā)展注入了新的活力。


轉(zhuǎn)座子元件是基因組中最常見的重復(fù)序列,通過利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)等技術(shù),研究人員能夠更準(zhǔn)確地識(shí)別和分類不同類型的轉(zhuǎn)座子,大大提高了注釋的準(zhǔn)確性和效率。例如,DeepTE工具利用CNN從序列數(shù)據(jù)中提取特征,實(shí)現(xiàn)了對(duì)植物、后種動(dòng)物和真菌TE的準(zhǔn)確分類,為基因組注釋提供了有力支持。


由于真核基因組的復(fù)雜性和多樣性,傳統(tǒng)的機(jī)器學(xué)習(xí)方法難以完全捕捉到編碼區(qū)域的特征。然而,深度學(xué)習(xí)模型能夠?qū)⒒蛐蛄杏成涞礁呔S特征空間,從而更好地識(shí)別外顯子和內(nèi)含子,并準(zhǔn)確預(yù)測剪接位點(diǎn)。這為我們更深入地理解蛋白質(zhì)編碼的結(jié)構(gòu)和功能提供了新的途徑。


功能注釋是基因組學(xué)研究中的關(guān)鍵環(huán)節(jié),傳統(tǒng)的基因功能注釋方法往往受限于離散的數(shù)據(jù)和手動(dòng)處理過程,而深度學(xué)習(xí)技術(shù)則能夠從大量生物數(shù)據(jù)中學(xué)習(xí),并推斷基因和生物功能之間的相互作用。例如,Gene2vec利用深度學(xué)習(xí)模型將基因表達(dá)數(shù)據(jù)轉(zhuǎn)換為文本,預(yù)測未知基因的功能。這種方法在多個(gè)物種的基因注釋任務(wù)中表現(xiàn)出了良好的效果,為基因功能研究提供了新的思路。


此外,深度學(xué)習(xí)技術(shù)在識(shí)別啟動(dòng)子、增強(qiáng)子等調(diào)控元件、檢測結(jié)構(gòu)變異等方面同樣展現(xiàn)出了強(qiáng)大的應(yīng)用潛力,正在推動(dòng)基因組學(xué)研究邁向新的高度。隨著技術(shù)的不斷發(fā)展和數(shù)據(jù)的不斷積累,我們相信深度學(xué)習(xí)將繼續(xù)發(fā)揮重要作用,為研究人員理解基因組的結(jié)構(gòu)、功能和調(diào)控提供更深入的見解。


基因組所實(shí)習(xí)生陳兆佳為論文第一作者,基因組所張興坦研究員為論文通訊作者。該項(xiàng)目得到國家重點(diǎn)研發(fā)計(jì)劃、深圳市基礎(chǔ)研究任務(wù)、國家自然科學(xué)基因項(xiàng)目資助。


原文鏈接:https://doi.org/10.1093/bib/bbae138


TOP TOP