首頁 > AI資訊 > 最新資訊 > LLM學習原子「結構語言」,生成未知化合物的晶體結構,登Nature子刊

LLM學習原子「結構語言」,生成未知化合物的晶體結構,登Nature子刊

新火種    2024-12-11

圖片

編輯 | 蘿卜皮

生成合理的晶體結構通常是預測材料化學成分及其性質的第一步,但當前大多數預測方法計算成本高,制約了創新進程。通過使用優質生成的候選結構來預測晶體結構,可以突破這一瓶頸。

在最新的研究中,英國雷丁大學(University of Reading)的研究人員介紹了 CrystaLLM,這是一種基于晶體學信息文件 (CIF) 格式的自回歸大型語言建模 (LLM) 的多功能晶體結構生成方法。

CrystaLLM 經過數百萬個 CIF 文件的訓練,專注于通過文本對晶體結構進行建模,它可以為訓練中未涉及的各種無機化合物生成合理的晶體結構。

這種方法挑戰了傳統的晶體表示,并展示了 LLM 學習有效晶體化學模型的潛力,這將加速材料科學的發現和創新。

該研究以「Crystal structure generation with autoregressive large language modeling」為題,于 2024 年 12 月 6 日發布在《Nature Communications》。

圖片

在材料科學的計算機輔助發現過程中,晶體結構預測(CSP)方法常用于探索化學系統中的新材料。這類方法旨在通過特定的物理條件推導出給定化學成分的基態晶體結構。

CSP 通常依賴于高計算開銷的從頭計算技術,其中通過生成候選結構來優化搜索過程。隨著機器學習和數據科學技術的進步,生成模型,如自動編碼器和生成對抗網絡,已被應用于晶體結構的生成。

雖然大語言模型(LLM)在自然語言處理和化學成分生成中取得了顯著成果,但是訓練 LLM 來生成晶體結構的文本表示仍然是一個相對較新的探索領域。

CrystaLLM

雷丁大學的研究團隊報告了專門為晶體生成而設計的 LLM —— CrystaLLM 。該模型專門針對無機晶體結構的文本表示進行訓練,特別是晶體學信息文件 (CIF) 格式,而不是僅僅依賴于自然語言語料庫或化學成分。

Luis M. Antunes 在雷丁大學攻讀博士學位期間主導了這項研究,他說:「預測晶體結構就像解決一個復雜的多維拼圖,而拼圖碎片是隱藏的。預測晶體結構需要大量的計算能力來測試無數種可能的原子排列。」

這種方法基于兩個猜想:

首先,符號序列(即標記)是許多預測任務(包括涉及化學結構的任務)的適當表示方式。其次,LLM 不僅學習標記的條件概率分布,還可能通過自回歸預訓練學習一個有效的世界模型,即目標現象的因果過程。

近期的研究表明,經過棋盤游戲訓練的 LLM 能夠追蹤棋盤狀態并表示領域特定的抽象概念。由此可推測,經過訓練的模型也許能學習晶體結構中隱含的化學性質,并借鑒原子世界的模型生成未知結構。

CrystaLLM 是一個基于 Transformer 的 CIF 文件格式的解碼器專用語言模型,在數百萬個 CIF 文件的語料庫上進行自回歸訓練。該模型不是在從 CIF 文件得出的結構表示上進行訓練,而是直接在 CIF 文件的標準化和標記化文本內容上進行訓練。

圖片

圖示:CIF 文件的大型語言建模。(來源:論文)

在訓練期間,模型會從 CIF 文件語料庫中獲取一系列標記,并負責預測每個給定標記后面的標記。模型訓練完成后,便可用它來生成新的 CIF 文件,條件是某些起始標記序列。生成 CIF 文件涉及從模型中反復采樣標記,并對累積的生成內容進行調節,直到達到終止條件。

經測試,CrystaLLM 成功生成了逼真的晶體結構,甚至對于以前從未見過的材料也是如此。

目前的晶體結構生成方法通常依賴預定義模板,在空間群約束下通過程序化或機器學習輔助的原子替換和晶胞調整來生成結構,并通過調整替換概率和范圍來提高結構多樣性。與此不同,CrystaLLM 通過自回歸訓練吸收隱式模板,自動選擇適合給定組合物的模板。

圖片

圖示:各種無機化合物的生成結構。(來源:論文)

此外,該模型還能自動調整晶胞參數,以適應晶胞中的原子,并根據訓練過程中未顯式遇到的模板生成新結構。與最近報道的基于擴散的晶體生成方法(如 CDVAE 和 DiffCSP)相比,CrystaLLM 不僅在多個方面優于現有基準,還在靈活性(如對稱性輸入)和微調潛力方面展現出額外優勢。

「CrystaLLM 通過研究數百萬種已知的晶體結構來理解模式并預測新的模式,從而取得了突破,就像一個專業的解謎者,他能識別出獲勝的模式,而不是嘗試每一個可能的舉動。」Antunes 說。

圖片

圖示:無條件生成的新結構。(來源:論文)

局限性

目前該方法仍有幾個局限性。

首先,數據集中的任何結構都沒有位點占有無序性(分數位點占有率)。因此,CrystaLLM 無法生成無序結構,并且可能無法成功生成暗示無序結構的晶胞組成和空間群組合的結構。

另一個限制是數據集的 CIF 文件并非全部使用同一級別的理論創建。訓練集來自使用不同設置、函數等的 DFT 源的組合,在某些情況下,這可能會使模型難以學習細胞組成和詳細結構之間的一致關系。

未來工作

盡管如此,研究人員表示,他們相信 CrystaLLM 將成為晶體結構生成的有用工具,晶體結構生成正迅速成為大規模材料發現和材料信息學的關鍵步驟。該團隊計劃探索微調模型以用于物理性質預測任務,例如預測晶格熱導率,因為實驗數據相對稀缺。

該模型的架構使其能夠針對基于成分或基于結構的預測任務進行微調。這意味著 CrystaLLM 可能成為通用材料信息學模型的基礎,該模型可用于生成任務,并針對需要成分或結構的屬性預測任務進行微調。

如果該模型能夠將其所學到的有關原子世界的知識轉移到這些各種預測問題中,那么它可能被證明是一種與材料化學的許多方面相關的相當靈活的工具。

論文鏈接:https://www.nature.com/articles/s41467-024-54639-7

相關內容:https://www.eurekalert.org/news-releases/1067087
相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章