AI病毒進化預測新突破,北大團隊進化啟發通用預測框架登Nature子刊
編輯 |ScienceAI
在自然界,物種多樣性與生物體內承載功能的蛋白質相互約束,這是因為蛋白質作為功能的載體決定了生物的性狀,而這些性狀經過選擇壓力篩選后形成了當下的物種多樣性分布。從達爾文進化論角度來看,所有的進化都是基因適應環境的效應。
受此啟發,北京大學信息工程學院田永鴻教授、陳杰副教授指導博士生聶志偉、碩士生劉旭東基于進化論視角重新審視病毒進化預測難題,提出了解決病毒進化兩大本質問題的跨病毒類型、跨毒株類型的通用進化預測模型,為疫苗、藥物的快速主動更新以及提高人類對于新發病毒感染的響應速度提供了強大工具,支撐和加速對于物種復雜進化機制的探索。
該研究以「A unified evolution-driven deep learning framework for virus variation driver prediction」為題于2025年1月17日正式發表在《Nature Machine Intelligence》上。
論文鏈接:https://www.nature.com/articles/s42256-024-00966-9
研究亮點?
(1)探討了如何定制化蛋白質語言模型以適配進化預測任務,提出了定制化預訓練策略和數據集,為蛋白質語言模型預訓練與下游任務之間的權衡提供了研究新視角;
(2)從進化論角度凝練了病毒進化的兩大本質問題,從而通過「微弱突變放大」和「稀少有益突變挖掘」兩個創新設計實現了跨病毒類型和跨毒株類型的通用預測,實現了 Science 和 AI 架構的高度融合;
(3)突變所處相互作用網絡的全面重建模塊(包含動態粒度注意力機制以挖掘 motif 模式)以及提出的多任務焦點損失函數適用于蛋白質通用體系,可進一步拓展用于各類蛋白質性質預測及蛋白質定向進化;
(4)實現了不同尺度的病毒進化預測,未來可與疫苗和蛋白類藥物設計流程相結合,有望顯著提升設計效率和設計可控度。
進化啟發的通用預測框架
突變是病毒進化的基石,不同病毒的具體進化歷程各有其獨特性,但是其共性在于最終的進化結果中幾乎都是有害突變占據大多數。
從整個進展尺度來看,即使有害突變與有益突變的比例會隨物種和環境不同而有所區別,但是有害突變被認為總是遠多于有益突變,即有益突變是病毒蛋白進化適應度空間中的極小子集。
很自然地,有害突變的高發性使得同一個變異株內難以共存較多的突變,即一個變異株所具有的突變數量與原始型相比往往較少,僅有少數位點會發生突變。
因此,研究團隊將上述病毒進化軌跡凝練為病毒進化的兩大本質特點:「少數位點突變」(Few-site mutations)和「稀少有益突變」(Rare beneficial mutations)。
這兩大進化特點導致了明顯的建模難題,「少數位點突變」引起的分子內相互作用網絡的變化相對比較微弱,這使得神經網絡直接捕獲是極其困難的,而「稀少有益突變」在數據層面造成了極其嚴重的正負樣本不平衡問題,這對于精準預測對于病毒生存至關重要的稀少有益突變造成了巨大挑戰。
圖 1:E2VD 模型架構。(來源:論文)
為此,研究團隊提出了進化驅動的病毒變異驅動力預測框架 E2VD(圖 1),通過「微弱突變放大」和「稀少有益突變挖掘」兩個創新設計實現了跨病毒類型和跨毒株類型的統一預測。
核心組件包括面向病毒進化的定制化蛋白質大語言模型(國產 AI 超算「鵬城云腦 II」256 張 NPU 支撐訓練)、突變所處相互作用網絡的全面重建模塊(包含動態粒度注意力機制以挖掘 motif 模式)以及提出的多任務焦點損失函數。
進化模式的精準捕獲
以SARS-CoV-2 的三類關鍵病毒進化驅動力預測任務為例,團隊首先比較了面向進化場景的定制化蛋白質語言與主流蛋白質語言模型的預測表現。
結果表明,團隊定制化的蛋白質語言模型以最少的 340M 模型參數量實現了最佳的預測表現,甚至超越了參數量為其 44 倍的 ESM2-15B 的效果,這進一步證明了定制化的預訓練數據集和訓練策略的有效性。
隨后,團隊在各類關鍵病毒進化驅動力預測任務下比較了 E2VD 與主流方法,結果表明 E2VD 顯著且全面超越其他方法,性能提升在 7%-21% 不等。
E2VD 被大量消融實驗證明了對于病毒進化模式的精準捕獲,包括對于不同類型突變的精準區分以及對稀少有益突變的精準挖掘。
團隊提出的多任務焦點損失函數被證明顯著改善了預測表現,將 Accurate從57.41% 提升至 91.11%,將 Recall從15.56% 提升至 96.30%。
在與真實世界變異毒株對應的稀少有益突變預測實驗設置下,E2VD 將稀少有益突變的預測精度從 13% 提升至 80%,實現了跨越式精度提升。
圖 2:E2VD 對于突變類型的區分和稀少有益突變的精準挖掘。(來源:論文)
跨病毒類型和跨毒株的泛化性能
E2VD 在跨越病毒類型和毒株類型時展現出強大的泛化能力。研究團隊提出魯棒且避免實驗批次效應影響的突變所致病毒適應度變化評估指標,并以此評估了模型在同病毒類型的不同毒株之間以及不同病毒類型之間的泛化表現,在新冠病毒、寨卡病毒、流感病毒以及艾滋病病毒上展現出理想的泛化能力,始終超越其他方法,未來可進一步拓展至更多傳染性病毒。
圖 3:E2VD 跨病毒類型和跨毒株的泛化性能。(來源:論文)
多尺度進化趨勢預測
E2VD 可用于靈活定制化組合以實現不同尺度的進化趨勢預測。首先,E2VD 可用于解釋大流行內部進化軌跡,揭示毒株流行度背后隱藏的分子機制;其次,搭配虛擬深度突變掃描流程,E2VD 可實現潛在高風險突變的精準預測,達到 80% 的命中率。
除此之外,E2VD 實現了對于大流行尺度的宏觀進化軌跡預測,重現了病毒在真實世界中的進化路線,對病毒進化機制的解讀提供理論性支撐。
圖 4:E2VD 解釋大流行內部進化軌跡以及預測潛在高風險突變。(來源:論文)
總結與展望
該研究以進化論的視角重新審視病毒進化預測問題,發展了跨病毒類型和跨毒株的通用進化預測框架,有助于破解物種復雜的進化機制,提高人類對于新發病毒感染的響應速度。憑借優越的預測表現和強大的泛化性,研究團隊下一步計劃將 E2VD 與疫苗和蛋白類藥物設計流程相結合,以期提升設計效率和設計可控度。
自 2022 年起,北京大學田永鴻教授領銜的團隊即著眼于 AI for Life Science 的研究,發展系列生命科學基礎模型并開展廣泛的下游任務探索。
前期工作提名 2022 年度戈登貝爾特別獎,與美國阿貢國家實驗室、橡樹嶺國家實驗室團隊在世界舞臺上角逐這一超級計算機領域的國際最高獎項,展現了中國人工智能在計算集群(國產 AI 超算鵬城云腦 II)和科研創新領域的國際頂尖水平。
除此之外,團隊先后獲得 2023 年度廣東省科學技術獎科技進步獎特等獎、首屆「祖沖之獎——人工智能前沿創新獎年度重大成果獎」以及國家數據局 2024 年「數據要素×」大賽廣東省一等獎、全國二等獎等榮譽。
論文鏈接:https://www.nature.com/articles/s42256-024-00966-9
入圍戈登貝爾特別獎新聞鏈接:https://news.pku.edu.cn/jxky/90d276ae5f8441849fd04372fd872154.htm
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。