蜜桃传播传媒|欧美精品久久久久久久一区二区|91干炮视频|国产高清自拍一区|麻豆映画在线观看视频传媒www|巨乳美乳影院|日日干夜夜拍|177.sk 163.sk黑料不打烊|小视频福利|91爱看视频,广州爱豆文化传媒,人人爱人人看,91传媒制片厂苹果下载

MENU

新聞中心

當前位置: 首頁» 新聞中心» 科研進展

Bioinformatics | 基因組所易會廣課題組開發(fā)基于sketching技術的系統(tǒng)發(fā)育分析Python包

2024-10-14 05:18:00

【字體:

  

近日,中國農業(yè)科學院深圳農業(yè)基因組研究所(嶺南現(xiàn)代農業(yè)科學與技術廣東省實驗室深圳分中心)易會廣課題組《生物信息學(Bioinformatics)》上發(fā)表了題為“Kssdtree:一個基于sketching技術的系統(tǒng)發(fā)育分析交互式Python包(Kssdtree: an interactive Python package for phylogenetic analysis based on sketching technique )”的論文,該研究開發(fā)了一個基于sketching技術的Python包用于系統(tǒng)發(fā)育分析,能夠準確和快速的構建系統(tǒng)發(fā)育樹。



新一代測序技術的出現(xiàn)顯著增加了基因組數(shù)據(jù)的體量和多樣性,對分析方法提出了更高的效率要求,傳統(tǒng)的系統(tǒng)發(fā)育分析方法依賴于序列比對工具(如BLAST、CLUSTAL和MUSCLE),非常耗時,耗資源;盡管非比對方法(如co-phylog和AAF)提供了快速處理數(shù)十個細菌基因組的能力,但在處理大規(guī)模細菌基因組或中等規(guī)模的大型真核基因組時仍然面臨挑戰(zhàn);最近,基于sketching技術成為實時、大規(guī)模系統(tǒng)發(fā)育分析的一種有前景的解決方案。然而,現(xiàn)有的基于sketching的系統(tǒng)發(fā)育工具(如Mashtree)存在缺陷,包括平臺限制、缺乏可視化和固有的距離估計偏差,這些限制共同阻礙了分析的便利和效率。


因此,研究人員開發(fā)了一個基于sketching的系統(tǒng)發(fā)育分析Python包Kssdtree,有效地解決了平臺限制、可視化以及距離估計偏差問題。Kssdtree為特定類型的系統(tǒng)發(fā)育分析提供了三種不同的流程(圖1) :常規(guī)流程、參考減法流程和基于GTDB的系統(tǒng)發(fā)育定位流程常規(guī)流程提供了通用系統(tǒng)基因組發(fā)育分析。參考減法流程設計用于種內基因組聚類分析。基于GTDB的系統(tǒng)發(fā)育定位流程允許從GTDB數(shù)據(jù)庫中檢索最相似的基因組,并使用檢索到的基因組與查詢基因組一起執(zhí)行系統(tǒng)發(fā)育分析。



圖1 | Kssdtree工作流程


研究對比了Kssdtree和其他基于sketching的方法(Mashtree、BinDash+NJ/DNJ、 SourMash+NJ/DNJ)的準確性和時間效率。研究收集了真實和模擬的基準測試數(shù)據(jù)集。真實數(shù)據(jù)集包括29個大腸桿菌/志賀氏菌基因組(ES29)、25個魚類線粒體基因組(FM25)和14個植物物種(P14)。模擬數(shù)據(jù)集由ALF模擬工具產生的200個物種組成。此外,使用DWGSIM測序數(shù)據(jù)模擬工具生成四個數(shù)據(jù)集的未組裝的原始測序數(shù)據(jù)。為了對運行時間效率進行基準測試,從最新的NCBI細菌RefSeq數(shù)據(jù)庫中隨機抽取1000、5000和10000個細菌基因組,分別表示為BACT1000、BACT5000和BACT10000。Kssdtree在綜合基準測試數(shù)據(jù)集的準確性和時間效率方面表現(xiàn)出卓越的性能,超越了其他基于sketching的工具。


研究對種內系統(tǒng)基因組分析進行基準分析,從最近發(fā)表的人類泛基因組參考文獻中下載了43個相對完整的人類基因組。結果表明,其他基于sketching的方法傾向于基于性別對基因組進行聚類。這是因為人類基因組之間的差異主要來自性染色體,而這些方法不支持參考減法操作。相反,Kssdtree能夠進行草圖減法操作,在距離計算和樹構建之前,從單個基因組草圖中減去參考草圖(包括性染色體)。這種方法允許Kssdtree根據(jù)種群明確地組織基因組,而不考慮性別影響(圖2)。



圖2 | 比較不同方法構建的43個人類基因組系統(tǒng)發(fā)育樹


研究還使用大腸彎曲桿菌的組裝基因組和未組裝的原始reads來測試基于GTDB的Kssdtree系統(tǒng)發(fā)育定位。Kssdtree基于檢索到的最相似基因組的分類,正確地識別了查詢基因組的起源物種。查詢基因組與GTDB中最相似的基因組之間的系統(tǒng)發(fā)育關系(圖3),使我們能夠使用GTDB數(shù)據(jù)庫確定查詢基因組在原核生命樹中的系統(tǒng)發(fā)育位置。




圖3 | Kssdtree對Campylobacter coli物種的組裝基因組GCF_001228905.1和原始測序Run SRR27387500進行系統(tǒng)發(fā)育定位分析


值得注意的是,Kssdtree提供了諸如多平臺支持(Windows、Linux和MacOS)、樹可視化、種內系統(tǒng)發(fā)育分析基于GTDB的系統(tǒng)發(fā)育定位分析等關鍵優(yōu)勢,顯著提高了系統(tǒng)發(fā)育研究的范圍和深度。


基因組所與太原理工大學聯(lián)培碩士楊航論文第一作者,基因組所易會廣副研究員、太原理工大學鄭文教授和陳澤華教授為論文的共同通訊作者。基因組所與太原理工大學聯(lián)培碩士暢佳星,基因組所易會廣課題組科研助理盧曉欣、常青(已離職)參與了該研究。該項目得到深圳市基礎研究機構、深圳市基礎研究計劃、深圳市博士后出站科研資助和深圳市大鵬新區(qū)博士后出站科研資助。


原文鏈接:https://doi.org/10.1093/bioinformatics/btae566



TOP TOP