首頁 > AI資訊 > 最新資訊 > 科學(xué)家用GNN進(jìn)行不確定性量化,實(shí)現(xiàn)高效的分子設(shè)計(jì),登Nature子刊

科學(xué)家用GNN進(jìn)行不確定性量化,實(shí)現(xiàn)高效的分子設(shè)計(jì),登Nature子刊

新火種    2025-04-11
圖片

題圖來源:AI生成

編輯 | 白菜葉

在廣闊的化學(xué)空間中優(yōu)化分子設(shè)計(jì)面臨著獨(dú)特的挑戰(zhàn),尤其是在領(lǐng)域轉(zhuǎn)移的情況下保持預(yù)測(cè)準(zhǔn)確性。

在最新的研究中,臺(tái)灣大學(xué)(National Taiwan University)的研究人員整合了不確定性量化 (UQ)、定向信息傳遞神經(jīng)網(wǎng)絡(luò) (D-MPNN) 和遺傳算法 (GA) 來解決這些挑戰(zhàn)。

他們系統(tǒng)地評(píng)估了 UQ 增強(qiáng)型 D-MPNN 是否能夠有效優(yōu)化廣泛、開放的化學(xué)空間,并確定了最有效的實(shí)施策略。

測(cè)試結(jié)果表明,使用 Tartarus 和 GuacaMol 平臺(tái)的基準(zhǔn),通過概率改進(jìn)優(yōu)化 (PIO) 進(jìn)行 UQ 集成,在大多數(shù)情況下可以提高優(yōu)化成功率,支持更可靠地探索化學(xué)多樣化區(qū)域。

在多目標(biāo)任務(wù)中,PIO 被證明具有特別的優(yōu)勢(shì),能夠平衡相互競(jìng)爭(zhēng)的目標(biāo),并且優(yōu)于不確定性不可知論方法。這項(xiàng)研究為將 UQ 集成到計(jì)算輔助分子設(shè)計(jì) (CAMD) 中提供了實(shí)用指南。

該研究以「Uncertainty quantification with graph neural networks for efficient molecular design」為題,于 2025 年 4 月 5 日發(fā)布在《Nature Communications》。

圖片

探索新型化學(xué)材料是一項(xiàng)關(guān)鍵的科學(xué)事業(yè),有可能極大地促進(jìn)經(jīng)濟(jì)和社會(huì)的發(fā)展。從歷史上看,創(chuàng)新分子的發(fā)現(xiàn)會(huì)引起各個(gè)領(lǐng)域的重大突破,包括開發(fā)增強(qiáng)的醫(yī)療療法、創(chuàng)新的化學(xué)反應(yīng)催化劑和更高效的碳捕獲技術(shù)。這些發(fā)現(xiàn)傳統(tǒng)上是勞動(dòng)密集型實(shí)驗(yàn)過程的結(jié)果,其特點(diǎn)是大量反復(fù)試驗(yàn)。

為應(yīng)對(duì)傳統(tǒng)實(shí)驗(yàn)方法的局限性,計(jì)算輔助分子設(shè)計(jì)(CAMD)已經(jīng)成為一種重要解決方案。但是分子設(shè)計(jì)中有一個(gè)核心挑戰(zhàn):在廣闊的化學(xué)空間中進(jìn)行優(yōu)化,保持預(yù)測(cè)準(zhǔn)確性非常困難,尤其是在域轉(zhuǎn)移的情況下。

在最新的研究中,臺(tái)灣大學(xué)的研究人員通過將 GNN 與 GA 相結(jié)合進(jìn)行分子優(yōu)化來解決此問題,從而可以直接探索化學(xué)空間,而無需依賴預(yù)定義庫或生成模型。

為了減輕與外推區(qū)域中的替代模型預(yù)測(cè)相關(guān)的錯(cuò)誤,研究人員將 UQ 集成到 GNN 框架中。受 BO 中使用的獲取函數(shù)的啟發(fā),該團(tuán)隊(duì)系統(tǒng)地研究了將 UQ 納入 CAMD 的不同方法,包括概率改進(jìn)和預(yù)期改進(jìn)方法。

實(shí)驗(yàn)表明,概率改進(jìn)優(yōu)化 (PIO) 方法使用概率評(píng)估來指導(dǎo)優(yōu)化過程,在促進(jìn)使用 GNN 探索化學(xué)空間方面特別有效。鑒于實(shí)際應(yīng)用通常要求分子特性滿足特定的閾值而非極值,PIO 方法量化了候選分子超過預(yù)定義特性閾值的可能性,減少了對(duì)模型可靠范圍之外的分子的選擇,并促進(jìn)了具有更優(yōu)異特性的候選分子的篩選。

圖片

圖示:用于 PIO 策略的工作流程和方法。(來源:論文)

評(píng)估

該研究包括使用 Tartarus 和 GuacaMol 平臺(tái)對(duì)不確定性不可知和不確定性感知優(yōu)化方法進(jìn)行全面評(píng)估,這兩個(gè)平臺(tái)都是解決一系列設(shè)計(jì)挑戰(zhàn)的開源分子設(shè)計(jì)工具。

第一個(gè)平臺(tái) Tartarus 提供了一套復(fù)雜的基準(zhǔn)測(cè)試任務(wù),專門用于解決材料科學(xué)、制藥和化學(xué)反應(yīng)領(lǐng)域的實(shí)際分子設(shè)計(jì)挑戰(zhàn)。

Tartarus 利用成熟的計(jì)算化學(xué)技術(shù) [包括力場(chǎng)和密度泛函理論 (DFT)] ,以高計(jì)算效率模擬復(fù)雜的分子系統(tǒng)。這些基準(zhǔn)測(cè)試涵蓋了廣泛的應(yīng)用,從優(yōu)化有機(jī)光伏電池和發(fā)現(xiàn)新型有機(jī)發(fā)光二極管 (OLED),到設(shè)計(jì)蛋白質(zhì)配體和開拓新的化學(xué)反應(yīng)。這種廣度使得研究人員能夠在多個(gè)真實(shí)世界的模擬場(chǎng)景中全面評(píng)估各種分子設(shè)計(jì)算法。

第二個(gè)分子設(shè)計(jì)平臺(tái) GuacaMol 是藥物發(fā)現(xiàn)領(lǐng)域公認(rèn)的標(biāo)桿,廣泛應(yīng)用于各類分子優(yōu)化研究,設(shè)計(jì)任務(wù)包括上市藥物的再發(fā)現(xiàn)、相似性評(píng)估、中間分子生成、異構(gòu)體生成等。

由此,研究人員選擇了適合分子屬性優(yōu)化的任務(wù),包括三個(gè)單目標(biāo)任務(wù),旨在識(shí)別與特定藥物相似的結(jié)構(gòu),以及四個(gè)多目標(biāo)任務(wù),重點(diǎn)是尋找兩種藥物之間的中間分子或?qū)崿F(xiàn)多屬性優(yōu)化(MPO)。

圖片

圖示:所涉及的分子設(shè)計(jì)任務(wù)總結(jié)。(來源:論文)

與 Tartarus 中的物理模擬不同,GuacaMol 使用 RDKit 中實(shí)現(xiàn)的確定性函數(shù)來計(jì)算屬性值,從而消除了數(shù)據(jù)的隨機(jī)性。

為了模擬現(xiàn)實(shí)世界中機(jī)器學(xué)習(xí)(ML)替代模型很少完美的場(chǎng)景,研究人員對(duì) GuacaMol 數(shù)據(jù)集進(jìn)行了下采樣,以在 GA 過程中構(gòu)建 ML 替代模型來進(jìn)行適應(yīng)度預(yù)測(cè)。在這種設(shè)置中,分子設(shè)計(jì)過程最初依賴于可能不完善的替代模型來提出分子結(jié)構(gòu),然后使用基于 RDKit 的 oracle 函數(shù)進(jìn)行驗(yàn)證。

結(jié)果

兩個(gè)平臺(tái)上的基準(zhǔn)測(cè)試結(jié)果表明,與傳統(tǒng)的不確定性不可知論方法相比,PIO 通常會(huì)提高優(yōu)化成功率。

在單目標(biāo)任務(wù)中,PIO 會(huì)在人們熟知的區(qū)域和探索較少的區(qū)域之間平衡搜索,從而降低選擇預(yù)測(cè)可能不可靠的候選區(qū)域的風(fēng)險(xiǎn)。這種方法與 EI 形成對(duì)比,EI 通常側(cè)重于高方差區(qū)域,導(dǎo)致性能不一致。但是,值得注意的是,在所需屬性與可用數(shù)據(jù)中表示的屬性有很大差異的任務(wù)中,PIO 的性能可能會(huì)降低。這突出了方法論上需要進(jìn)一步改進(jìn)的領(lǐng)域。

圖片

圖示:通過不同方法生成的前 100 個(gè)分子的真實(shí)屬性值的比較分布。(來源:論文)

在多目標(biāo)優(yōu)化場(chǎng)景中,PIO 始終表現(xiàn)出優(yōu)勢(shì),它比加權(quán)標(biāo)量化方法更有效地平衡了相互競(jìng)爭(zhēng)的目標(biāo),而加權(quán)標(biāo)量化方法可能會(huì)以犧牲其他屬性為代價(jià)而偏向特定屬性的優(yōu)化。通過將 UQ 直接納入適應(yīng)度函數(shù),PIO 支持一種更平衡的方法,通??蓪?shí)現(xiàn)多個(gè)目標(biāo)的更高命中率。

這在 CAMD 中尤其重要,因?yàn)閷?shí)際應(yīng)用通常需要同時(shí)滿足多個(gè)屬性閾值。PIO 能夠適應(yīng)不同的目標(biāo),而不會(huì)過分強(qiáng)調(diào)任何單一目標(biāo),這增強(qiáng)了其在發(fā)現(xiàn)適合復(fù)雜應(yīng)用的化合物方面的實(shí)用性。

總之,將 UQ 與 GNN 集成用于 CAMD 代表了一種開創(chuàng)性的方法,為發(fā)現(xiàn)新型化學(xué)材料提供了一種更可靠、更可擴(kuò)展的策略。通過廣泛的基準(zhǔn)測(cè)試和驗(yàn)證,該研究證明了不確定性感知 GNN 算法在分子設(shè)計(jì)中的潛力,并在有機(jī)電子、生物化學(xué)和材料科學(xué)等領(lǐng)域具有廣闊的應(yīng)用前景。

論文鏈接:https://www.nature.com/articles/s41467-025-58503-0

相關(guān)推薦
免責(zé)聲明
本文所包含的觀點(diǎn)僅代表作者個(gè)人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對(duì)本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險(xiǎn),讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前,請(qǐng)務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對(duì)因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。

熱門文章