AI驅動的模擬科學家,涉及生理學、生物物理學、物理化學和量子力學多個領域,登Nature子刊
編輯 | 蘿卜皮
大型語言模型(LLM)是一種人工智能系統,以自然語言的形式封裝大量知識。這些系統擅長許多復雜任務,包括創意寫作、講故事、翻譯、問答、總結和計算機代碼生成。
盡管 LLM 已在自然科學領域得到初步應用,但其推動科學發現的潛力仍未得到充分開發。
在最新的研究中,澳大利亞莫納什大學(Monash University)的研究團隊提出了 LLM4SD,這是一個框架,旨在通過綜合文獻中的知識和從科學數據中推斷知識,利用 LLM 推動分子特性預測中的科學發現。
LLM 通過從科學文獻中提取關鍵信息(如分子量與溶解度的關系)并識別分子數據中的模式(如含鹵素分子更易穿透血腦屏障),將分子轉化為可解釋的特征向量。再結合隨機森林等模型,LLM4SD 在分子特性預測任務中表現優異。
該研究以「Large language models for scientific discovery in molecular property prediction」為題,于 2025 年 2 月 25 日發布在《Nature Machine Intelligence》。

LLM 是在大量文本語料庫上進行訓練的,其中包括大量科學文獻。BioBert、SciBERT、Med-PALM 和 Galactica 等著名模型都是專門針對科學領域量身定制的。同時,像 Falcon 這樣的通用 LLM 在其預訓練中整合了大量科學文獻,包括 arXiv 和 Wikipedia 等來源。
科學家已經證明了這些系統獲得了深刻的能力來解釋和操縱用于描述分子的形式科學語言、SMILES 字符串,以及在其解釋中應用來自科學文獻的信息的能力。
莫納什大學的研究團隊提出了一種科學發現流程 LLM4SD(Large Language Model 4 Scientific Discovery),旨在解決復雜的分子特性預測任務。LLM4SD 通過執行兩個主要任務來發揮作用:從現有文獻中合成知識并通過觀察實驗數據推斷知識。

圖示:分子預測流程中的 LLM4SD。(來源:論文)
LLM4SD 通過指定規則來從 SMILES 字符串中導出與預測目標特征相關的特征。其中一些規則是從 LLM 編碼的科學文獻中綜合而來的。其他特征則從 SMILES 字符串訓練集推斷而來,每個字符串都標有相關類別或屬性值。然后可以使用基于規則的特征從訓練數據中學習標準機器學習模型。

圖示:探究 LLM4SD 的組成部分。(來源:論文)
具體而言,首先,LLM4SD 根據其預訓練文獻檢索已知規則來預測分子特性,例如分子量低于 500 Da 的分子更有可能通過血腦屏障 (BBB)。其次,利用對 SMILES 符號和化學知識的理解,LLM4SD 從實驗數據中識別模式,例如含有鹵素的分子更有可能通過 BBB。然后使用這些規則為每個分子創建可解釋的特征向量。
「就像 ChatGPT 寫論文或解決數學問題一樣,我們的 LLM4SD 工具會閱讀數十年的科學文獻并分析實驗室數據來預測分子的行為方式,從而回答諸如『這種藥物能穿過大腦的保護屏障嗎?』或『這種化合物會溶于水嗎?』」論文的共同一作 Yizhen Zheng 說。
「除了優于目前像『黑匣子』一樣運行的驗證工具之外,該系統還可以使用簡單的規則解釋其分析過程、預測和結果,這可以幫助科學家信任并根據其見解采取行動?!顾a充道。

圖示:LLM4SD 與四個領域的基線之間的比較。(來源:論文)
通過使用這些向量訓練可解釋的機器學習模型,研究人員表示 LLM4SD 在由斯坦福 PANDE 小組整理的MoleculeNet數據集中的 58 個基準任務中實現了分子特性預測的當前最佳水平。這些任務涵蓋分類和回歸,涉及四個領域:生理學、生物物理學、物理化學和量子力學。

圖示:LLM 規則下的文獻綜述和統計分析。(來源:論文)
作者之一 Jiaxin Ju 表示:「LLM4SD 并非取代傳統的機器學習模型,而是通過綜合知識和生成可解釋的解釋來增強它們?!?/p>
「這種方法確保了人工智能驅動的預測仍然可靠,并且可供不同科學學科的研究人員使用?!构餐髡?Huan Yee Koh 補充道
該研究的共同通訊作者、莫納什大學信息技術學院的 Geoffrey I. Webb 教授表示,LLM 可以準確地模仿從文獻中綜合提煉知識和通過解釋數據提出假設的關鍵科學發現技能。
LLM4SD 工具的表現優于目前用于執行這些任務的最先進的科學工具;例如,它在預測材料設計關鍵的量子特性方面的準確率提高了 48%。
雖然取得了這些令人欣喜的成果,研究人員也承認科學發現領域廣闊而復雜;這項研究還只是觸及了表面。盡管如此,LLM4SD 取得的進展為更深入的探索鋪平了道路,預示著一個人工智能驅動的洞察力與人類智慧交織在一起以糾正當前科學生產力下降的時代的到來。
Webb 教授表示:「我們已經完全進入了生成人工智能時代,我們需要盡可能利用它來推動科學發展,同時確保我們以合乎道德的方式發展它?!?/p>
「該工具有可能使藥物發現過程更容易、更快、更準確,并成為世界各地各個領域科學家的強大研究支持。」論文的共同通訊作者 Shirui Pan 教授表示。
「像 LLM4SD 這樣的模型可以快速綜合數十年的先驗知識,然后轉而發現數據中可能未被廣泛報道的新模式?!筆an 教授說,「我們認為這是加快研發進程及其他方面的關鍵進展。」
展望未來,科學家們對人工智能作為未來科學發現、革命性流程和加速突破的關鍵所發揮的潛在作用持樂觀態度。
論文鏈接:https://www.nature.com/articles/s42256-025-00994-z
相關報道:https://techxplore.com/news/2025-02-simulating-scientists-tool-ai-powered.html
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。