蜜桃传播传媒|欧美精品久久久久久久一区二区|91干炮视频|国产高清自拍一区|麻豆映画在线观看视频传媒www|巨乳美乳影院|日日干夜夜拍|177.sk 163.sk黑料不打烊|小视频福利|91爱看视频,广州爱豆文化传媒,人人爱人人看,91传媒制片厂苹果下载

MENU

新聞中心

當前位置: 首頁» 新聞中心» 科研進展

Patterns | 基因組所紀宏超團隊聯(lián)合哈爾濱工程大學提出了天然產物生物合成路徑規(guī)劃的新方法

2025-05-12 02:37:00來源:

【字體:

  

2025年4月30日,Cell Press出版集團數(shù)據(jù)科學期刊《模式(Patterns)》在線發(fā)表了中國農業(yè)科學院深圳農業(yè)基因組研究所(嶺南現(xiàn)代農業(yè)科學與技術廣東省實驗室深圳分中心)紀宏超團隊的研究論文,題為“Graph-Sequence Enhanced Transformer for Template-Free Prediction of Natural Product Biosynthesis”。研究提出了一種基于圖增強Transformer模型用于天然產物生物合成路徑規(guī)劃的方法。



天然產物是由生物體合成的有機分子,通常從自然界中的動物、植物或微生物中提取,廣泛應用于化學和生物醫(yī)學等多個領域,尤其在藥物發(fā)現(xiàn)與開發(fā)中發(fā)揮著至關重要的作用。然而,天然產物的提取與合成過程仍面臨諸多技術挑戰(zhàn),尤其是超過90%的天然產物生物合成途徑尚未被充分解析,這極大地限制了其深入研究與實際應用。因此,開展天然產物的逆合成預測具有重要意義。逆合成預測中的機器學習研究通常分為兩個方向:單步逆合成預測和多步逆合成路徑規(guī)劃。單步逆合成預測旨在將目標產物分解為一組反應物,而多步逆合成路徑規(guī)劃則涉及使用搜索算法找到目標分子通往從可購買化合物分子的路徑。


由于產物SMILES序列到反應物SMILES序列的預測過程可以類比為兩個字符串之間的翻譯任務,目前主流的無模板單步逆反應預測方法普遍將該任務建模為序列到序列的機器翻譯問題。然而,此類模型在處理SMILES序列時,往往難以有效利用和挖掘分子的拓撲結構信息,從而限制了對分子反應機制的深層次建模。盡管已有部分研究嘗試融合SMILES序列與分子圖信息,但多數(shù)方法仍將兩者割裂對待,難以實現(xiàn)真正意義上的協(xié)同建模。


針對上述問題,該研究基于SMILES序列與分子結構之間的一一映射關系,構建了SMILES序列對應的圖結構,并在Transformer編碼器中引入圖神經網絡,提出了單步逆合成預測模型GSETransformer。該模型以SMILES序列及其圖結構為聯(lián)合輸入:其中,圖神經網絡處理圖結構信息,融合拓撲結構信息改善局部交互;Transformer的多頭自注意力機制則用于建模序列中的全局依賴關系。兩者結合,使得模型在處理具有拓撲結構的復雜序列數(shù)據(jù)時,能夠提供更強大的特征提取能力。此外,為進一步增強模型性能,該研究引入了根對齊的數(shù)據(jù)增強策略,進一步提升了模型的魯棒性與泛化能力。實驗結果表明,GSETransformer在生物反應數(shù)據(jù)集Biochem-Plus和有機反應數(shù)據(jù)集USPTO-50K上均取得了領先性能,驗證了所提方法在逆合成預測任務中的優(yōu)越性與泛化性。


圖1 | GSETransformer用于天然產物逆合成預測工作流程及架構


為進一步實現(xiàn)天然產物的多步逆合成規(guī)劃并評估GSETransformer在該任務上的性能,該研究采用Retro*搜索算法,進行了多步逆合成規(guī)劃的實現(xiàn)與評估。最后,為方便研究人員一站式開展天然產物的逆合成分析及評估,該研究基于QT框架開發(fā)了一款集成化、跨平臺且用戶友好的圖形用戶界面軟件。該軟件集成了上述的逆合成預測算法,以及先進的酶預測算法和ADMET預測算法,支持用戶在統(tǒng)一的平臺上高效完成生物合成路徑的探索與藥物特性的全面評估,大幅提升天然產物研發(fā)的高效性與實用性。


圖2 | 合成路線規(guī)劃軟件GUI界面


該研究由中國農業(yè)科學院深圳農業(yè)基因組研究所(嶺南現(xiàn)代農業(yè)科學與技術廣東省實驗室深圳分中心)和哈爾濱工程大學合作完成,哈爾濱工程大學叢山副教授、哈爾濱工程大學與中國農業(yè)科學院深圳農業(yè)基因組研究所聯(lián)合培養(yǎng)碩士研究生張萌為本文共同第一作者,中國農業(yè)科學院深圳農業(yè)基因組研究所紀宏超研究員為本文通訊作者。


該研究獲得國家重點研發(fā)計劃項目、國家自然科學基金項目等項目的支持。


原文鏈接:https://www.sciencedirect.com/science/article/pii/S2666389925001072

TOP TOP