AIforScience:北大、東方理工等團(tuán)隊(duì)用人工智能在實(shí)驗(yàn)數(shù)據(jù)中挖掘潛在規(guī)律
編輯 | ScienceAI??
科學(xué)研究的核心之一是發(fā)現(xiàn)能夠描述自然現(xiàn)象的規(guī)律性方程。這些方程不僅能加深我們對(duì)自然的理解,還能為復(fù)雜問(wèn)題的解決提供明確指導(dǎo)。
然而,許多領(lǐng)域,尤其是材料和化學(xué)等依賴(lài)實(shí)驗(yàn)的學(xué)科,因?yàn)樽兞勘姸唷⑦^(guò)程復(fù)雜,傳統(tǒng)理論推導(dǎo)往往難以建立明確的關(guān)系。
近期,來(lái)自北京大學(xué)深圳研究生院、寧波東方理工大學(xué)(暫名)等機(jī)構(gòu)的研究團(tuán)隊(duì)結(jié)合自動(dòng)化實(shí)驗(yàn)平臺(tái)與人工智能算法,首次成功從實(shí)驗(yàn)數(shù)據(jù)中挖掘出了物質(zhì)分離過(guò)程中色譜關(guān)系的顯式數(shù)學(xué)公式。
該研究提出了一種知識(shí)發(fā)現(xiàn)技術(shù)、建立了可解釋的公式,將專(zhuān)家經(jīng)驗(yàn)(Chemist’s experience)轉(zhuǎn)化為「人工智能經(jīng)驗(yàn)」(AI experience),為色譜分離實(shí)驗(yàn)條件的確定與優(yōu)化提供了理論支持。相關(guān)成果于2025年1月19日發(fā)表在《自然·通訊》(Nature Communications)上。
圖 1:相關(guān)工作于發(fā)表于 Nature Communications
挑戰(zhàn)與背景:從專(zhuān)家經(jīng)驗(yàn)到「AI經(jīng)驗(yàn)」
如果想要構(gòu)建真正的「AI科學(xué)家」,必須實(shí)現(xiàn)對(duì)實(shí)驗(yàn)數(shù)據(jù)的自動(dòng)化分析與顯式公式的推導(dǎo),從而有效推動(dòng)對(duì)科學(xué)問(wèn)題的認(rèn)知與探索。然而,要達(dá)成這一目標(biāo)尚面臨諸多科學(xué)挑戰(zhàn):
其一、如何對(duì)多變量、多尺度的實(shí)驗(yàn)數(shù)據(jù)進(jìn)行通用化建模,以準(zhǔn)確刻畫(huà)潛在的高維映射關(guān)系;其二、不同實(shí)驗(yàn)來(lái)源的數(shù)據(jù)在采樣方式、環(huán)境條件等方面存在差異,如何實(shí)現(xiàn)跨實(shí)驗(yàn)數(shù)據(jù)的精準(zhǔn)對(duì)齊與融合;其三,如何提高可解釋性(Interpretability),為研究者提供透明可信的推理過(guò)程,以幫助他們深入理解背后的科學(xué)機(jī)制,而不僅僅是停留在「黑箱」式預(yù)測(cè)上。在此背景下,該研究選取化學(xué)分離領(lǐng)域中常見(jiàn)的薄層色譜(TLC)和柱色譜(CC)作為研究對(duì)象,為上述問(wèn)題提供一個(gè)具體的落腳點(diǎn)。
TLC 和 CC 同樣基于色譜原理(Chromatography)開(kāi)展分析與分離,廣泛應(yīng)用于合成化學(xué)實(shí)驗(yàn)室。以柱色譜為例,實(shí)驗(yàn)時(shí)通常先通過(guò) TLC 測(cè)定混合物的保留因子(RF 值),依據(jù)該值評(píng)估組分與流動(dòng)相的相對(duì)極性,并據(jù)此實(shí)時(shí)調(diào)整流動(dòng)相的組成與比例,確保目標(biāo)化合物的 RF 值大致在 0.2 到 0.3 之間。
盡管這一經(jīng)驗(yàn)性做法在實(shí)踐中行之有效,卻難以通過(guò)傳統(tǒng)分析方法對(duì)其背后的多尺度耦合機(jī)理進(jìn)行系統(tǒng)闡釋?zhuān)嬖凇钢淙欢恢渌匀弧沟默F(xiàn)象,阻礙了研究者對(duì)色譜分離化學(xué)本質(zhì)的深入理解。
因此,若能引入人工智能手段,從大量實(shí)驗(yàn)數(shù)據(jù)中自動(dòng)挖掘并總結(jié)出可解釋的經(jīng)驗(yàn)方程,就有望將這類(lèi)依賴(lài)「經(jīng)驗(yàn)+試錯(cuò)」的方法體系化、公式化,進(jìn)而提高實(shí)驗(yàn)效率和可靠性。
圖 2:色譜分離的專(zhuān)家經(jīng)驗(yàn)與數(shù)據(jù)驅(qū)動(dòng)的方程挖掘
AI 驅(qū)動(dòng)的知識(shí)發(fā)現(xiàn)
為了解決上述問(wèn)題,研究團(tuán)隊(duì)設(shè)計(jì)了一套完整的數(shù)據(jù)驅(qū)動(dòng)框架,借助自動(dòng)化實(shí)驗(yàn)平臺(tái)和人工智能技術(shù),從實(shí)驗(yàn)數(shù)據(jù)中系統(tǒng)性地挖掘化學(xué)分離的規(guī)律性方程。
首先,他們開(kāi)發(fā)了高通量自動(dòng)化 TLC 和 CC 實(shí)驗(yàn)平臺(tái),通過(guò)精準(zhǔn)控制實(shí)驗(yàn)條件生成大規(guī)模數(shù)據(jù)集。該平臺(tái)包括樣品加載、溶劑配制、色譜分離、吸光度檢測(cè)和結(jié)果分析的全流程自動(dòng)化,大幅減少了人工干預(yù)可能帶來(lái)的誤差。
在數(shù)據(jù)獲取方面,研究團(tuán)隊(duì)在自動(dòng)化平臺(tái)上測(cè)量了 192 種化合物的RF值,并在不同實(shí)驗(yàn)條件下記錄了 5984 條柱色譜數(shù)據(jù)點(diǎn)。這些數(shù)據(jù)涵蓋了化合物的分子結(jié)構(gòu)、物理化學(xué)性質(zhì)以及實(shí)驗(yàn)設(shè)置參數(shù),從而為機(jī)器學(xué)習(xí)模型的構(gòu)建提供了充分支持。
圖 3:高通量自動(dòng)化 TLC 和 CC 實(shí)驗(yàn)平臺(tái)
為了從這些數(shù)據(jù)中提取規(guī)律,還需要消除不同實(shí)驗(yàn)來(lái)源的數(shù)據(jù)在采樣方式、環(huán)境條件等方面存在的差異。研究團(tuán)隊(duì)引入了代理模型(surrogate model),利用神經(jīng)網(wǎng)絡(luò)將 TLC 和 CC 數(shù)據(jù)點(diǎn)關(guān)聯(lián)起來(lái),實(shí)現(xiàn)跨實(shí)驗(yàn)數(shù)據(jù)的精準(zhǔn)對(duì)齊與融合。這些代理模型通過(guò)復(fù)雜的高維特征建模,預(yù)測(cè)了未觀察到的實(shí)驗(yàn)數(shù)據(jù)。
圖 4:構(gòu)建代理模型實(shí)現(xiàn)跨實(shí)驗(yàn)數(shù)據(jù)的精準(zhǔn)對(duì)齊與融合
此外,研究團(tuán)隊(duì)使用符號(hào)回歸(symbolic regression)技術(shù),從模型預(yù)測(cè)中提取了顯式數(shù)學(xué)公式,并采用樹(shù)結(jié)構(gòu)以表征化合物性質(zhì)的影響,提高可解釋性。這些公式揭示了RF值與柱層析保留體積之間的反比例關(guān)系,并通過(guò)統(tǒng)計(jì)驗(yàn)證了其高擬合精度(R2 值超過(guò) 0.88)。
圖 5:柱色譜的保留時(shí)間與薄層色譜的 RF 值之間關(guān)系的公式識(shí)別與預(yù)測(cè)效果
與傳統(tǒng)機(jī)器學(xué)習(xí)模型不同的是,這些公式具備高度的可解釋性,能夠直觀地展示實(shí)驗(yàn)變量之間的關(guān)系。例如,研究發(fā)現(xiàn),RF 值與保留體積的關(guān)系不僅受溶劑比例的影響,還與化合物的分子結(jié)構(gòu)緊密相關(guān)。這種定量化的規(guī)律性公式為化學(xué)家優(yōu)化實(shí)驗(yàn)條件提供了科學(xué)依據(jù)。
圖 6:表征化合物影響的柱層析因子的回歸樹(shù)模型的可視化
此外,研究團(tuán)隊(duì)進(jìn)一步分析了這些公式的推廣性與泛化性,成功地將它們應(yīng)用于不同規(guī)格的色譜柱。例如,通過(guò)遷移學(xué)習(xí)校正公式系數(shù),可以將適用于 4 克色譜柱的公式推廣至 25 克柱和串聯(lián)柱。這種推廣不僅驗(yàn)證了公式的通用性,還表明AI驅(qū)動(dòng)的知識(shí)發(fā)現(xiàn)可以適應(yīng)不同實(shí)驗(yàn)條件。
應(yīng)用價(jià)值與未來(lái)展望
這項(xiàng)研究的直接應(yīng)用價(jià)值在于顯著提升了化學(xué)分離實(shí)驗(yàn)的效率和可靠性,以化學(xué)中常用的 TLC 和 CC 實(shí)驗(yàn)為例,驗(yàn)證了利用人工智能方法從實(shí)驗(yàn)數(shù)據(jù)中提取顯式方程的可行性。
傳統(tǒng)上,研究人員需要通過(guò)多次試錯(cuò)來(lái)確定最佳分離條件,而這種數(shù)據(jù)驅(qū)動(dòng)的知識(shí)發(fā)現(xiàn)方法則可以通過(guò)簡(jiǎn)單的薄層色譜實(shí)驗(yàn)預(yù)測(cè)柱層析的分離效果,從而減少實(shí)驗(yàn)次數(shù)和溶劑消耗。特別是在處理復(fù)雜混合物時(shí),AI 發(fā)現(xiàn)的顯式公式為快速判斷分離可能性提供了強(qiáng)有力的工具。
更廣泛地看,這項(xiàng)研究展示了人工智能在科學(xué)發(fā)現(xiàn)中的巨大潛力。與傳統(tǒng)理論推導(dǎo)不同,知識(shí)發(fā)現(xiàn)框架通過(guò)大數(shù)據(jù)分析和機(jī)器學(xué)習(xí),從實(shí)驗(yàn)數(shù)據(jù)中自動(dòng)提取規(guī)律性公式。這種方法不僅可以揭示化學(xué)中的多尺度耦合機(jī)制,還可以推廣到其他科學(xué)領(lǐng)域。
例如,在生物學(xué)中,它可以用于分析基因調(diào)控網(wǎng)絡(luò)的動(dòng)態(tài)關(guān)系;在物理學(xué)中,它可以幫助構(gòu)建復(fù)雜流體力學(xué)的數(shù)學(xué)模型。通過(guò)將人工智能技術(shù)融入科學(xué)研究,我們有望加速科學(xué)知識(shí)的生成過(guò)程,推動(dòng)各領(lǐng)域的跨學(xué)科創(chuàng)新。
論文鏈接:https://www.nature.com/articles/s41467-025-56136-x
- 免責(zé)聲明
- 本文所包含的觀點(diǎn)僅代表作者個(gè)人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對(duì)本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險(xiǎn),讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前,請(qǐng)務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對(duì)因依賴(lài)本文觀點(diǎn)而產(chǎn)生的任何金錢(qián)損失負(fù)任何責(zé)任。