將引發(fā)電子結(jié)構(gòu)計算變革,機器學(xué)習(xí)精確模擬超10萬個原子的大型材料系統(tǒng)
編輯|綠蘿
物質(zhì)中電子的排列(稱為電子結(jié)構(gòu))在藥物設(shè)計和能量存儲等基礎(chǔ)研究和應(yīng)用研究中發(fā)揮著至關(guān)重要的作用。不同應(yīng)用的建模和模擬主要依賴于密度泛函理論(DFT),它已成為預(yù)測物質(zhì)電子結(jié)構(gòu)的主要方法。
雖然 DFT 計算非常有用,但其計算尺度限制了它們只能用于小型系統(tǒng)。
近日,來自德國 Helmholtz-Zentrum Dresden-Rossendorf(HZDR)研究所的高級系統(tǒng)理解中心 (CASUS) 和美國桑迪亞國家實驗室的研究人員開發(fā)了一種基于機器學(xué)習(xí)的電子結(jié)構(gòu)預(yù)測模擬方法——材料學(xué)習(xí)算法(Materials Learning Algorithms,MALA),用于預(yù)測任何長度尺度上的電子結(jié)構(gòu)。
MALA 通過將機器學(xué)習(xí)與物理算法相結(jié)合,為小型系統(tǒng)提供超過 1,000 倍的加速。其可以在 DFT 計算不可行的規(guī)模上進行預(yù)測,能夠精確模擬超過 100,000 個原子的大型系統(tǒng),優(yōu)于傳統(tǒng)方法。這項創(chuàng)新將徹底改變應(yīng)用研究,并且與高性能計算系統(tǒng)高度兼容。
論文的通訊作者、CASUS 的 Attila Cangi 表示:「我們認(rèn)為 MALA 將引發(fā)電子結(jié)構(gòu)計算的變革,因為我們現(xiàn)在有一種方法可以以前所未有的速度模擬更大的系統(tǒng)。」
該研究以「Predicting electronic structures at any length scale with machine learning」為題,于 2023 年 6 月 27 日發(fā)布在《npj Computational Materials》上。
電子作為重要的基本粒子。它們彼此之間以及與原子核之間的量子力學(xué)相互作用,產(chǎn)生了化學(xué)和材料科學(xué)中觀察到的多種現(xiàn)象。了解和控制物質(zhì)的電子結(jié)構(gòu)可以深入了解分子的反應(yīng)性、行星內(nèi)的結(jié)構(gòu)和能量傳輸以及材料失效的機制。
計算建模和模擬、高性能計算越來越多地用來解決科學(xué)挑戰(zhàn)。然而,由于缺乏將高精度與跨不同長度和時間尺度的可擴展性結(jié)合起來的預(yù)測建模技術(shù),實現(xiàn)量子精度的真實模擬存在障礙。
經(jīng)典原子模擬方法可以處理大型復(fù)雜系統(tǒng),但其對量子電子結(jié)構(gòu)的忽略限制了其適用性。相反,不依賴于經(jīng)驗建模和參數(shù)擬合(第一原理方法)等假設(shè)的模擬方法提供了高保真度,但計算要求較高。例如,DFT 是一種廣泛使用的第一原理方法,DFT 研究對象通常包含多個電子,而粒子數(shù)大于等于三個的力學(xué)模型是無法精確求解的。從而將其預(yù)測能力限制在小尺度上。
基于深度學(xué)習(xí)的混合方法
研究人員團隊現(xiàn)在提出了一種新穎的模擬方法,稱為 MALA 軟件堆棧。在計算機科學(xué)中,軟件堆棧是算法和軟件組件的集合,它們組合在一起創(chuàng)建用于解決特定問題的軟件應(yīng)用程序。
MALA 的各個步驟如圖 1 所示。它們包括結(jié)合雙譜描述符的計算來編碼原子密度、訓(xùn)練和評估神經(jīng)網(wǎng)絡(luò)來預(yù)測 LDOS,最后將 LDOS 后處理為物理可觀測值。整個工作流程作為 MALA 軟件包端到端實現(xiàn),研究使用流行的開源軟件包的接口,即 LAMMPS(描述符計算)、PyTorch(神經(jīng)網(wǎng)絡(luò)訓(xùn)練和推理) 和 Quantum ESPRESSO(將電子結(jié)構(gòu)數(shù)據(jù)后處理為可觀測值)。
MALA 的主要開發(fā)人員、CASUS 的博士生 Lenz Fiedler 解釋說:「MALA 將機器學(xué)習(xí)與基于物理的方法相結(jié)合來預(yù)測材料的電子結(jié)構(gòu)。它采用了一種混合方法,利用一種稱為深度學(xué)習(xí)的既定機器學(xué)習(xí)方法來準(zhǔn)確預(yù)測局部量,并輔以物理算法來計算感興趣的全局量。」
MALA 軟件堆棧將空間中原子的排列作為輸入,并生成稱為雙譜分量的指紋,對笛卡爾網(wǎng)格點周圍原子的空間排列進行編碼。MALA 中的機器學(xué)習(xí)模型經(jīng)過訓(xùn)練,可以根據(jù)該原子鄰域預(yù)測電子結(jié)構(gòu)。MALA 的一個顯著優(yōu)勢是其機器學(xué)習(xí)模型能夠獨立于系統(tǒng)規(guī)模,使其能夠根據(jù)小型系統(tǒng)的數(shù)據(jù)進行訓(xùn)練,并在任何規(guī)模上部署。
精確模擬超 100,000 個原子的大型系統(tǒng)
研究人員通過計算包含超過 100,000 個原子的材料樣本的電子結(jié)構(gòu)來證明其工作流程的有效性。
研究人員對 131,072 個原子系統(tǒng)的 ML 預(yù)測在 150 個標(biāo)準(zhǔn) CPU 上僅需要 48 分鐘。MALA 能夠在超過 100,000 個原子的大規(guī)模電子結(jié)構(gòu)中進行精確計算。所提出的 ML 工作流程的計算成本比傳統(tǒng)的 DFT 計算低幾個數(shù)量級,其規(guī)模為?~?N^3。
Cangi 解釋道:「隨著系統(tǒng)規(guī)模的增大和涉及的原子數(shù)量的增加,DFT 計算變得不切實際,而 MALA 的速度優(yōu)勢不斷增強。MALA 的關(guān)鍵突破在于其 「能夠在局部原子環(huán)境中運行,從而實現(xiàn)精確的數(shù)值預(yù)測,并且受系統(tǒng)尺寸的影響最小。這一突破性的成就開啟了曾經(jīng)被認(rèn)為無法實現(xiàn)的計算可能性。」
預(yù)計將推動應(yīng)用研究
未來,研究人員將能夠在顯著改善的基線基礎(chǔ)上解決廣泛的社會挑戰(zhàn),包括開發(fā)新的疫苗和新型儲能材料,對半導(dǎo)體器件進行大規(guī)模模擬,研究材料缺陷,探索將大氣溫室氣體二氧化碳轉(zhuǎn)化為氣候友好型礦物的化學(xué)反應(yīng)。
此外,MALA 的方法特別適合高性能計算 (HPC)。隨著系統(tǒng)規(guī)模的增長,MALA 可以在其使用的計算網(wǎng)格上進行獨立處理,從而有效地利用 HPC 資源,特別是圖形處理單元。
桑迪亞國家實驗室的科學(xué)家兼并行計算專家 Siva Rajamanickam 解釋說:「MALA 的電子結(jié)構(gòu)計算算法很好地映射到具有分布式加速器的現(xiàn)代 HPC 系統(tǒng)。MALA 具有分解工作和在不同加速器上并行執(zhí)行不同網(wǎng)格點的能力,這使得它成為高性能計算資源上可擴展機器學(xué)習(xí)的理想匹配,從而在電子結(jié)構(gòu)計算中實現(xiàn)無與倫比的速度和效率。」
- 免責(zé)聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認(rèn)可。 交易和投資涉及高風(fēng)險,讀者在采取與本文內(nèi)容相關(guān)的任何行動之前,請務(wù)必進行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。