昆明植物所拓展AI輔助天然產(chǎn)物研究技術(shù)取得新進(jìn)展
天然產(chǎn)物是來源于微生物、植物和動物的一類結(jié)構(gòu)高度多樣的化學(xué)物質(zhì),在新藥發(fā)現(xiàn)、化學(xué)生態(tài)和代謝組學(xué)等領(lǐng)域研究中占據(jù)重要地位。盡管實驗室自動化以及分離鑒定技術(shù)的快速發(fā)展顯著提升了天然產(chǎn)物的發(fā)現(xiàn)效率,但其結(jié)構(gòu)解析仍然高度依賴人工經(jīng)驗和多維譜學(xué)驗證,過程復(fù)雜、周期漫長,已逐漸成為制約天然產(chǎn)物研究與應(yīng)用開發(fā)的關(guān)鍵瓶頸。
中國科學(xué)院昆明植物研究所植物化學(xué)與天然藥物全國重點是實驗室邱明華研究團(tuán)隊近年來持續(xù)聚焦于基于深度學(xué)習(xí)方法的天然產(chǎn)物結(jié)構(gòu)與活性研究。在前期工作中,團(tuán)隊系統(tǒng)梳理并深入討論了機(jī)器學(xué)習(xí)輔助光譜解析在天然產(chǎn)物研究中的一系列前沿技術(shù)(Natural Product Reports, 2023, 40, 1735-1753),為該領(lǐng)域的進(jìn)一步發(fā)展奠定了有價值的理論框架和方法基礎(chǔ)。
核磁共振(NMR)是天然產(chǎn)物結(jié)構(gòu)鑒定中最重要的分析工具之一。然而,NMR 譜圖的結(jié)構(gòu)注釋通常高度依賴成本高昂的實驗數(shù)據(jù)。盡管近年來基于量子化學(xué)計算或者人工智能算法生成的虛擬NMR數(shù)據(jù)在一定程度上擴(kuò)展了數(shù)據(jù)庫規(guī)模,但基于虛擬數(shù)據(jù)庫的結(jié)構(gòu)注釋準(zhǔn)確率仍然有限。為解決這一問題,研究團(tuán)隊近期提出了一種新的工具 VirMolAnalyte(https://www.virmolanalyte.top/),可在無實驗數(shù)據(jù)依賴下,實現(xiàn)對 13C DEPT NMR 譜圖的高質(zhì)量結(jié)構(gòu)注釋。


圖1 基于 13C DEPT NMR的注釋天然產(chǎn)物化學(xué)結(jié)構(gòu)新工具VirMolAnalyte的思路
VirMolAnalyte 利用深度神經(jīng)網(wǎng)絡(luò)從 13C DEPT NMR 譜中提取分子指紋信息,并結(jié)合“篩選–評估”(filter–evaluator)策略開展多維 in silico 數(shù)據(jù)庫檢索。其核心思想在于改進(jìn)了基于化學(xué)位移匹配的搜索算法,同時將基于深度神經(jīng)網(wǎng)絡(luò)預(yù)測的分子指紋信息融合到化學(xué)位移檢索過程中,從而顯著提升基于虛擬數(shù)據(jù)庫的準(zhǔn)確率。在DB6123數(shù)據(jù)集上的評估結(jié)果表明,該融合策略的Top 1準(zhǔn)確率達(dá)到 94.2%,明顯優(yōu)于傳統(tǒng)的化學(xué)位移搜索方法。
在此基礎(chǔ)上,研究團(tuán)隊整合了 COCONUT、CMAUP v1.0、PMhub、HMDB、NPAtlas 和 FooDB 等多個涵蓋植物、人體、微生物的代謝產(chǎn)物及藥物來源的結(jié)構(gòu)數(shù)據(jù)庫,構(gòu)建了一個包含約 60 萬個天然產(chǎn)物結(jié)構(gòu)的綜合多維信息數(shù)據(jù)庫MMDB。在基于MMDB的結(jié)構(gòu)注釋任務(wù)中,VirMolAnalyte 仍取得了超過90.0%的Top 1結(jié)構(gòu)注釋準(zhǔn)確率,表明該融合策略在大規(guī)模復(fù)雜數(shù)據(jù)庫場景下具有良好的泛化能力。另外,為驗證 VirMolAnalyte 在新天然產(chǎn)物結(jié)構(gòu)解析中的應(yīng)用潛力,研究團(tuán)隊將其用于分析來源于阿拉比卡咖啡(Coffea arabica L.)果皮的一種未知代謝物。檢索結(jié)果未匹配到已知化合物,但成功識別出與咖啡二萜類相關(guān)的關(guān)鍵結(jié)構(gòu)單元,提示其包含三環(huán)醚和五元內(nèi)酯等結(jié)構(gòu)特征。結(jié)合二維 NMR 數(shù)據(jù)及后續(xù)構(gòu)型分析,最終確認(rèn)該化合物為一種罕見的螺環(huán)型咖啡二萜類新化合物,初步表明 VirMolAnalyte 能夠為新穎天然產(chǎn)物的初期結(jié)構(gòu)推測和確證提供有效線索。
VirMolAnalyte 工具彌補(bǔ)了NMR數(shù)據(jù)在化合物初期結(jié)構(gòu)鑒定階段缺乏高質(zhì)量虛擬數(shù)據(jù)庫注釋方法的空白,為后續(xù)精細(xì)結(jié)構(gòu)解析提供方向指引,有助于提升天然產(chǎn)物研究和新藥發(fā)現(xiàn)的前期效率。相關(guān)研究工作在線發(fā)表于Analytical Chemistry (2025, 97, 51, 28181-28191)。中國科學(xué)院昆明植物所邱明華研究員為通訊作者,胡貴林博士后和Jameel Hizam Alafifi博士為論文共同第一作者,研究工作獲云南省科技重點專項(202003AD150006)、重大專項(202305AH340005),中國科學(xué)院B類先導(dǎo)專項(XDB1230201),國家自然科學(xué)基金青年基金項目(82504632),國家博士后研究人員計劃(GZC20232766)等項目資助。


圖2 基于“篩選-評估”策略的 VirMolAnalyte。(a) NMR2FP-DNN 模型的訓(xùn)練流程,用于從13C DEPT NMR 譜中預(yù)測分子指紋;(b) VirMolAnalyte 中各評估器的基本原理;(c) VirMolAnalyte 的整體工作流程:NMR2FP-DNN 根據(jù)輸入的13C DEPT NMR 數(shù)據(jù)預(yù)測 PubChem 分子指紋,預(yù)測指紋與化學(xué)位移信息共同作為輸入,通過“篩選–評估”策略在 in silico 數(shù)據(jù)庫中完成結(jié)構(gòu)注釋。


圖3 VirMolAnalyte 工具基于 MMDB 數(shù)據(jù)庫的天然產(chǎn)物結(jié)構(gòu)注釋

| 版權(quán)聲明: 1.依據(jù)《服務(wù)條款》,本網(wǎng)頁發(fā)布的原創(chuàng)作品,版權(quán)歸發(fā)布者(即注冊用戶)所有;本網(wǎng)頁發(fā)布的轉(zhuǎn)載作品,由發(fā)布者按照互聯(lián)網(wǎng)精神進(jìn)行分享,遵守相關(guān)法律法規(guī),無商業(yè)獲利行為,無版權(quán)糾紛。 2.本網(wǎng)頁是第三方信息存儲空間,阿酷公司是網(wǎng)絡(luò)服務(wù)提供者,服務(wù)對象為注冊用戶。該項服務(wù)免費,阿酷公司不向注冊用戶收取任何費用。 名稱:阿酷(北京)科技發(fā)展有限公司 聯(lián)系人:李女士,QQ468780427 網(wǎng)絡(luò)地址:www.arkoo.com 3.本網(wǎng)頁參與各方的所有行為,完全遵守《信息網(wǎng)絡(luò)傳播權(quán)保護(hù)條例》。如有侵權(quán)行為,請權(quán)利人通知阿酷公司,阿酷公司將根據(jù)本條例第二十二條規(guī)定刪除侵權(quán)作品。 |
m.quanpro.cn