蜜桃传播传媒|欧美精品久久久久久久一区二区|91干炮视频|国产高清自拍一区|麻豆映画在线观看视频传媒www|巨乳美乳影院|日日干夜夜拍|177.sk 163.sk黑料不打烊|小视频福利|91爱看视频,广州爱豆文化传媒,人人爱人人看,91传媒制片厂苹果下载

MENU

新聞中心

當前位置: 首頁» 新聞中心» 科研進展

Bioinformatics | 基因組所易會廣課題組開發(fā)基于sketching技術(shù)的系統(tǒng)發(fā)育分析Python包

2024-10-14 05:18:00來源:

【字體:

  

近日,,中國農(nóng)業(yè)科學院深圳農(nóng)業(yè)基因組研究所(嶺南現(xiàn)代農(nóng)業(yè)科學與技術(shù)廣東省實驗室深圳分中心)易會廣課題組《生物信息學(Bioinformatics)》上發(fā)表了題為“Kssdtree:一個基于sketching技術(shù)的系統(tǒng)發(fā)育分析交互式Python包(Kssdtree: an interactive Python package for phylogenetic analysis based on sketching technique )”的論文,,該研究開發(fā)了一個基于sketching技術(shù)的Python包用于系統(tǒng)發(fā)育分析,能夠準確和快速的構(gòu)建系統(tǒng)發(fā)育樹。



新一代測序技術(shù)的出現(xiàn)顯著增加了基因組數(shù)據(jù)的體量和多樣性,,對分析方法提出了更高的效率要求,,傳統(tǒng)的系統(tǒng)發(fā)育分析方法依賴于序列比對工具(如BLAST,、CLUSTAL和MUSCLE),,非常耗時,耗資源,;盡管非比對方法(如co-phylog和AAF)提供了快速處理數(shù)十個細菌基因組的能力,,但在處理大規(guī)模細菌基因組或中等規(guī)模的大型真核基因組時仍然面臨挑戰(zhàn);最近,,基于sketching技術(shù)成為實時,、大規(guī)模系統(tǒng)發(fā)育分析的一種有前景的解決方案。然而,,現(xiàn)有的基于sketching的系統(tǒng)發(fā)育工具(如Mashtree)存在缺陷,,包括平臺限制,、缺乏可視化和固有的距離估計偏差,,這些限制共同阻礙了分析的便利和效率。


因此,,研究人員開發(fā)了一個基于sketching的系統(tǒng)發(fā)育分析Python包Kssdtree,,有效地解決了平臺限制、可視化以及距離估計偏差問題,。Kssdtree為特定類型的系統(tǒng)發(fā)育分析提供了三種不同的流程(圖1) :常規(guī)流程,、參考減法流程和基于GTDB的系統(tǒng)發(fā)育定位流程常規(guī)流程提供了通用系統(tǒng)基因組發(fā)育分析,。參考減法流程設計用于種內(nèi)基因組聚類分析,。基于GTDB的系統(tǒng)發(fā)育定位流程允許從GTDB數(shù)據(jù)庫中檢索最相似的基因組,并使用檢索到的基因組與查詢基因組一起執(zhí)行系統(tǒng)發(fā)育分析,。



圖1 | Kssdtree工作流程


研究對比了Kssdtree和其他基于sketching的方法(Mashtree,、BinDash+NJ/DNJ、 SourMash+NJ/DNJ)的準確性和時間效率,。研究收集了真實和模擬的基準測試數(shù)據(jù)集,。真實數(shù)據(jù)集包括29個大腸桿菌/志賀氏菌基因組(ES29),、25個魚類線粒體基因組(FM25)和14個植物物種(P14)。模擬數(shù)據(jù)集由ALF模擬工具產(chǎn)生的200個物種組成,。此外,,使用DWGSIM測序數(shù)據(jù)模擬工具生成四個數(shù)據(jù)集的未組裝的原始測序數(shù)據(jù)。為了對運行時間效率進行基準測試,,從最新的NCBI細菌RefSeq數(shù)據(jù)庫中隨機抽取1000,、5000和10000個細菌基因組,分別表示為BACT1000,、BACT5000和BACT10000,。Kssdtree在綜合基準測試數(shù)據(jù)集的準確性和時間效率方面表現(xiàn)出卓越的性能,超越了其他基于sketching的工具,。


研究對種內(nèi)系統(tǒng)基因組分析進行基準分析,,從最近發(fā)表的人類泛基因組參考文獻中下載了43個相對完整的人類基因組。結(jié)果表明,,其他基于sketching的方法傾向于基于性別對基因組進行聚類,。這是因為人類基因組之間的差異主要來自性染色體,而這些方法不支持參考減法操作,。相反,,Kssdtree能夠進行草圖減法操作,在距離計算和樹構(gòu)建之前,,從單個基因組草圖中減去參考草圖(包括性染色體),。這種方法允許Kssdtree根據(jù)種群明確地組織基因組,而不考慮性別影響(圖2),。



圖2 | 比較不同方法構(gòu)建的43個人類基因組系統(tǒng)發(fā)育樹


研究還使用大腸彎曲桿菌的組裝基因組和未組裝的原始reads來測試基于GTDB的Kssdtree系統(tǒng)發(fā)育定位,。Kssdtree基于檢索到的最相似基因組的分類,正確地識別了查詢基因組的起源物種,。查詢基因組與GTDB中最相似的基因組之間的系統(tǒng)發(fā)育關(guān)系(圖3),,使我們能夠使用GTDB數(shù)據(jù)庫確定查詢基因組在原核生命樹中的系統(tǒng)發(fā)育位置。




圖3 | Kssdtree對Campylobacter coli物種的組裝基因組GCF_001228905.1和原始測序Run SRR27387500進行系統(tǒng)發(fā)育定位分析


值得注意的是,,Kssdtree提供了諸如多平臺支持(Windows,、Linux和MacOS)、樹可視化,、種內(nèi)系統(tǒng)發(fā)育分析基于GTDB的系統(tǒng)發(fā)育定位分析等關(guān)鍵優(yōu)勢,,顯著提高了系統(tǒng)發(fā)育研究的范圍和深度。


基因組所與太原理工大學聯(lián)培碩士楊航論文第一作者,,基因組所易會廣副研究員,、太原理工大學鄭文教授和陳澤華教授為論文的共同通訊作者?;蚪M所與太原理工大學聯(lián)培碩士暢佳星,,基因組所易會廣課題組科研助理盧曉欣,、常青(已離職)參與了該研究。該項目得到深圳市基礎研究機構(gòu),、深圳市基礎研究計劃,、深圳市博士后出站科研資助和深圳市大鵬新區(qū)博士后出站科研資助。


原文鏈接:https://doi.org/10.1093/bioinformatics/btae566



TOP TOP