首頁 > AI資訊 > 最新資訊 > OpenLAM|深度勢能預訓練大模型DPA-2發布

OpenLAM|深度勢能預訓練大模型DPA-2發布

新火種    2024-01-04

在邁向通用大原子模型(Large Atomic Model,LAM)的征途上,深度勢能核心開發者團隊面向社區,發起 OpenLAM 大原子模型計劃。

OpenLAM 的口號是“征服元素周期表!”,希望通過建立開源開放的圍繞微尺度大模型的生態,為微觀科學研究提供新的基礎設施,并推動材料、能源、生物制藥等領域微尺度工業設計的變革。

經過北京科學智能研究院、深勢科技、北京應用物理與計算數學研究所等 29 家單位的 42 位合作者的通力協作,深度勢能團隊近日面向社區發布了深度勢能預訓練大模型 DPA-2,將成為 OpenLAM 大原子模型計劃的重要載體?;?DPA-2 的微調/蒸餾/應用自動化流程也于同期面向社區全面開放,打通了面向各類實際應用的最后一公里。

相關文章[1]以《DPA-2: Towards a universal large atomic model for molecular and material simulation》為題,在arXiv上預發表。

面向豐富的下游任務,微調 DPA-2“大模型”所需的數據量整體相比過去減少了 1-2 個數量級;同時,進一步蒸餾、壓縮得到的深度勢能“小模型”可以保持過去模型的精度和效率。相比于去年發布的 DPA-1,DPA-2 在模型架構顯著更新的同時,最大的特點在于采用了多任務訓練的策略,從而可以同時學習計算設置不同、標簽類型不同的各類數據集。由此產生的模型在下游任務上顯示出極強的 few-shot 乃至 zero-shot 遷移的能力,顯著超越過去的方案。目前用于訓練 DPA-2 模型的數據集已覆蓋了半導體、鈣鈦礦、合金、表面催化、正極材料、固態電解質、有機分子等多類體系。

圖1 DPA-2 提出的多任務預訓練、微調、蒸餾全流程示意圖

“大原子模型計劃(OpenLAM)”為進一步打破數據壁壘,拓寬原子層面各方面的應用,為開源開放的科學計算生態共建打開了新的思路。作為一項開放式的協作計劃,建立一個開放且面向應用的模型評估系統也格外重要。面向社區該計劃將定期進行模型更新與評估報告發布、定期更新發布領域應用與評估工作流,同時開展比賽、培訓交流,與領域開發者協作推動建立供預訓練與評估的數據集等。這將是 OpenLAM 計劃在 2024 年的重點。

以下為關于 DPA-2 的詳細介紹。

1 DPA-2 項目背景

機器學習勢函數在材料科學、計算物理等領域應用廣泛,并取得了較大成果。然而,面對一個新的復雜體系,要獲得可用的、較為完備的勢函數模型,科學家們基本上仍然需要獲取大量計算數據并從頭開始訓練模型。隨著電子結構數據的積累,開始有工作關注“通用”的勢能函數模型,比如 DPA-1,Gemnet-OC,Equiformer-V2,M3GNet 等,并有部分工作將其應用到“預訓練+微調”的范式上來,從而節省新體系的數據生產成本。

但是這些模型還沒有做到通用,主要有以下幾方面的問題:

(1)模型要求產生預訓練數據的方式(比如泛函、DFT 計算的參數設置等)必須嚴格一致,這極大地限制了訓練數據的來源范圍,使得大部分模型都只能局限在單一數據集或統一生產的數據庫中,數據量受到限制,從而也導致模型泛化能力不足。

(2)模型結構本身的遷移能力不足,預訓練之后在下游體系上的微調效果有限;

(3)部分模型本身不滿足基本的物理性質,比如保守性(即輸出受力必須嚴格是輸出能量關于輸入坐標的負梯度)、連續性(模型輸出必須關于輸入二階連續)等,從而無法用于真正應用體系的模擬中,再加上部分模型參數規模龐大,進一步限制了應用的發展。

要實現真正意義上的 LAM 通用大原子模型,以上的問題是必須要被解決的。

2 多任務預訓練

為此,參考 LLM 的發展理念,在提出新模型結構的同時,DPA-2 首先提出了一套多任務預訓練(Multi-task Training)框架,可以在不同標注的數據上同時進行訓練,得到統一的預訓練模型,如上圖1(a)所示。DPA-2 可以通過共享大部分網絡參數、不同數據集使用不同 head 的方式,在任意多種來源的數據集上同時進行多任務訓練,相比使用單一來源數據訓練的模型,極大地擴展了其泛化能力和應用范圍。但與此同時,多任務的模型參數量并沒有本質的增加,這也導致在訓練上可能會更為困難。原文中采用了更為科學的采樣訓練方式,結果表明多任務模型在不同數據集上的精度,和單獨訓練的模型精度非常接近甚至更高,這也表明了這種訓練方式的可行性。

3 下游數據集微調

在預訓練結束后,文中采用了圖1(b)中的方式在下游數據上進行微調?!邦A訓練+微調”范式的核心要求是下游數據集上的遷移能力,即在經過預訓練之后,在下游的數據集上,能用盡可能少的數據達到滿意的精度。為了測試這一點,文中在各種不同下游數據集上,對 DPA-2 預訓練之后的模型進行了遷移能力的測試,部分結果如圖2所示:

圖2 DPA-2 多任務預訓練后在下游體系微調的表現

圖中橫坐標是所用數據量,縱坐標是能量和受力的收斂誤差??梢钥吹?,在多任務預訓練后,DPA-2 微調代表的深綠色線,要遠遠低于從頭訓練的深藍色線,在大多數體系上,多任務預訓練后的模型僅用很少樣本(few-shot)、甚至完全不用下游數據(zero-shot)就已經達到了實際應用中可用的精度。平均來看,基于多任務預訓練獲得的 DPA-2 模型,在各個下游體系能節省 90% 以上的數據。

4 模型蒸餾和應用測試

為了追求預訓練模型框架的泛化能力,模型參數規??隙〞絹碓酱?,從而影響推理性能,導致模型難以被用于真實場景。為了解決這個問題,文中也提出了模型蒸餾的方式,如圖1(c)所示。在下游體系上少量數據微調結束后的模型,可以被叫做Teacher模型,用它去教更簡單、輕量的Student模型(比如 DPA-1,DeepPot-SE 等),期望能使其在特定下游體系擁有接近 Teacher 模型的精度,同時相比 Teacher Model有接近兩個量級的效率提升,從而可以被用于大規模、高效率的應用模擬中。文中具體采用的是類似主動學習的方式用 Teacher 模型去探索數據空間,并代替量子力學方法來做新數據的標注,從而高效地將知識蒸餾到更簡單的 Student 模型中,文中 Teacher 和 Student 的精度對比也證明了蒸餾方案的可行性。

回到勢能函數本身,其最終必然是應用導向。為了測試模型的可靠性,文中還在多種體系上進行了實際模擬和性質測試,如圖3所示:

圖3 DPA-2蒸餾后的模型在下游體系中的應用測試

上圖測試了蒸餾后的模型在水上的徑向分布函數(Radial Distribution Function)、固態電解質上的擴散系數(Diffusion Constant)和鈣鈦礦鐵電固溶體上晶格常數(Lattice Constant)隨溫度的變化等性質的復現。對比原來的模型,使用預訓練后微調、蒸餾的方式,在三個體系上分別僅使用了原來 0.25%、1.01% 和 7.86% 的數據,證明了整套流程的可靠性。

5 其他模型框架的對比

文中還將 DPA-2 的模型結構和其他模型,如 Gemnet-OC (GNO)、Equiformer-V2 (EFV2)、Nequip、Allegro 進行了對比,在傳統單數據訓練的意義下,公平比較了模型結構本身的能力,如下表所示:

表1 DPA-2 模型結構相比其他模型的精度對比

(batchsize=1, 1 million steps)

可以看到,相比其他模型來說,DPA-2 在各個應用數據集上的表現要更為穩定。

6 總結

DPA-2 的提出是我們邁向“通用大原子模型”的重要一步。通過在多種數據集上的大規模多任務預訓練,DPA-2 在各種下游應用體系展現出顯著的遷移能力,極大地減少了所需數據量,從而很大程度上降低數據生產的成本。另一方面,DPA-2 也強調,建立一個開放且面向應用的模型評估系統是非常重要的。

在走向大原子模型時代的過程中,開源開放將是必然的主題。

相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章