首頁(yè) > AI資訊 > 最新資訊 > 分子特性預(yù)測(cè)新框架來(lái)了!浙大侯廷軍團(tuán)隊(duì)、匹茲堡大學(xué)聯(lián)合提出跨通道學(xué)習(xí),各大基準(zhǔn)表現(xiàn)亮眼

分子特性預(yù)測(cè)新框架來(lái)了!浙大侯廷軍團(tuán)隊(duì)、匹茲堡大學(xué)聯(lián)合提出跨通道學(xué)習(xí),各大基準(zhǔn)表現(xiàn)亮眼

新火種    2025-01-10

圖片

編輯 | 蘿卜皮

可靠的分子特性預(yù)測(cè)對(duì)于各種科學(xué)研究和工業(yè)應(yīng)用(例如藥物研發(fā))至關(guān)重要。

然而,由于數(shù)據(jù)稀缺,加上物理化學(xué)和生物特性與傳統(tǒng)分子特征化方案之間的高度非線性因果關(guān)系,使得開(kāi)發(fā)穩(wěn)健的分子機(jī)器學(xué)習(xí)模型變得異常復(fù)雜。

匹茲堡大學(xué)(University of Pittsburgh)與浙江大學(xué)侯廷軍團(tuán)隊(duì)合作開(kāi)發(fā)了一種多通道預(yù)訓(xùn)練框架,可以穩(wěn)健學(xué)習(xí)利用化學(xué)知識(shí)。

它利用分子內(nèi)的結(jié)構(gòu)層次,通過(guò)跨通道的不同預(yù)訓(xùn)練任務(wù)嵌入它們,并在微調(diào)期間以特定于任務(wù)的方式聚合通道信息。

該方法在各種分子特性基準(zhǔn)中表現(xiàn)出了競(jìng)爭(zhēng)力,并在特別具有挑戰(zhàn)性且普遍存在的場(chǎng)景(如活性懸崖)中具有強(qiáng)大的優(yōu)勢(shì)。

該研究以「Multi-channel learning for integrating structural hierarchies into context-dependent molecular representation」為題,于 2024 年 1 月 6 日發(fā)布在《Nature Communications》。

圖片

自監(jiān)督學(xué)習(xí)(SSL)已成為一種流行的解決方案,它利用大規(guī)模、未注釋的分子數(shù)據(jù)來(lái)學(xué)習(xí)化學(xué)空間的基礎(chǔ)表征,這可能有利于下游任務(wù)。

然而,現(xiàn)有的分子 SSL 方法在很大程度上忽視了化學(xué)知識(shí),包括分子結(jié)構(gòu)相似性、支架組成以及在化學(xué)空間中操作時(shí)分子特性的上下文相關(guān)方面。它們還很難學(xué)習(xí)結(jié)構(gòu)-活性關(guān)系中的細(xì)微變化。

當(dāng)前的挑戰(zhàn)

具體來(lái)說(shuō),現(xiàn)有方法中的兩個(gè)主要缺點(diǎn):

首先,在對(duì)比學(xué)習(xí)中,語(yǔ)義相似/不相似(即正/負(fù))樣本的傳統(tǒng)公式并不適合分子圖。大多數(shù)圖對(duì)比方法通過(guò)圖擾動(dòng)(例如節(jié)點(diǎn)/邊的添加/刪除)生成正樣本。但是,當(dāng)應(yīng)用于分子圖時(shí),化學(xué)有效性可能很容易受到質(zhì)疑。

分子還可能通過(guò)擾亂重要基序(例如,破壞芳香環(huán))而失去基本特征,從而將“語(yǔ)義”轉(zhuǎn)移得很遠(yuǎn)。負(fù)樣本(即不同的分子)通常被同等對(duì)待,這本質(zhì)上忽略了分子結(jié)構(gòu)關(guān)系和特定分子成分的存在。

其次,幾乎所有現(xiàn)有的工作都試圖學(xué)習(xí)一個(gè)與上下文無(wú)關(guān)的分子表征空間,目的是可以使它推廣到各種應(yīng)用中。然而,這與分子特性通常與環(huán)境相關(guān)的事實(shí)相矛盾,無(wú)論是從物理角度(例如周?chē)h(huán)境)還是生物角度(例如與蛋白質(zhì)的相互作用)。

換句話說(shuō),相同的 SSL 任務(wù)是否能夠在微調(diào)中與具有不同特性的各種下游任務(wù)很好地保持一致仍不確定,從而導(dǎo)致學(xué)習(xí)差距。

多通道學(xué)習(xí)新方法

為了應(yīng)對(duì)上述挑戰(zhàn),匹茲堡大學(xué)與浙江大學(xué)的研究人員提出了一個(gè)用于分子表征學(xué)習(xí)的提示引導(dǎo)多通道學(xué)習(xí)框架。k 個(gè)通道中的每一個(gè)由特定的提示標(biāo)記引導(dǎo),負(fù)責(zé)學(xué)習(xí)一個(gè)專(zhuān)用的 SSL 任務(wù)。

本質(zhì)上,預(yù)訓(xùn)練模型能夠?qū)W習(xí) k 個(gè)不同的表征空間。在微調(diào)過(guò)程中,提示選擇模塊將 k 個(gè)表征聚合為一個(gè)復(fù)合表征,并將其用于下游分子特性預(yù)測(cè)。這涉及確定哪個(gè)信息通道與當(dāng)前應(yīng)用最相關(guān),從而使表征依賴(lài)于上下文。

同時(shí),研究人員設(shè)計(jì)了預(yù)訓(xùn)練任務(wù)以形成從全局視圖到分子結(jié)構(gòu)局部視圖的插值。除了利用全局分子對(duì)比學(xué)習(xí)和局部上下文預(yù)測(cè)之外,他們還引入了支架對(duì)比距離的任務(wù),強(qiáng)調(diào)了支架在影響分子特征和行為方面的基本作用。

由于支架通常被視為新化合物設(shè)計(jì)的起點(diǎn),支架距離旨在將具有相似支架(通過(guò)支架不變擾動(dòng)生成)的分子映射到表征空間中更近的位置。此外,它還會(huì)將具有不同骨架的分子分開(kāi),其中距離邊距是根據(jù)結(jié)構(gòu)組成差異自適應(yīng)計(jì)算的。

該框架主要包含三個(gè)主要部分,不同于傳統(tǒng)的分子預(yù)訓(xùn)練-微調(diào)范式:(1)提示引導(dǎo)的多通道學(xué)習(xí),(2)具有自適應(yīng)邊距的對(duì)比學(xué)習(xí),以及(3)支架不變的分子擾動(dòng)。

圖片

圖示:框架概述。(來(lái)源:論文)

整體框架使用 ZINC15 進(jìn)行預(yù)訓(xùn)練,并在 MoleculeNet5 中的 7 個(gè)分子特性預(yù)測(cè)任務(wù)和 MoleculeACE 中的 30 個(gè)結(jié)合效力預(yù)測(cè)任務(wù)上進(jìn)行評(píng)估。

通過(guò)學(xué)習(xí)利用來(lái)自不同通道的信息來(lái)應(yīng)對(duì)不同的應(yīng)用,該方法在兩個(gè)基準(zhǔn)測(cè)試中都超越了各種表征學(xué)習(xí)基準(zhǔn)。更重要的是,新方法被證明能夠更有效地應(yīng)對(duì)活性懸崖的挑戰(zhàn),而競(jìng)爭(zhēng)方法更容易受到負(fù)遷移的影響,從而導(dǎo)致性能大幅下降。

這表明,即使在預(yù)訓(xùn)練之后,這些方法可能仍然更多地依賴(lài)于表面模式,或者在微調(diào)過(guò)程中更容易受到知識(shí)遺忘的影響,從而導(dǎo)致它們難以解決需要對(duì)化學(xué)知識(shí)有細(xì)致理解的挑戰(zhàn)性問(wèn)題。

相反,該框架學(xué)習(xí)到的表征在微調(diào)過(guò)程中表現(xiàn)出了更強(qiáng)的保留預(yù)訓(xùn)練知識(shí)的能力,與其他基線相比,提供了更好的可轉(zhuǎn)移性和穩(wěn)健性。案例研究表明,即使僅依賴(lài)拓?fù)湫畔?,該方法也有潛力識(shí)別導(dǎo)致活動(dòng)懸崖的關(guān)鍵模式。

圖片

圖示:表征空間探測(cè)。(來(lái)源:論文)

局限性

當(dāng)然,也存在一些局限性。該框架的一個(gè)限制是需要更有效的提示權(quán)重優(yōu)化機(jī)制。使用粗糙度指數(shù)初始化提示權(quán)重可能會(huì)導(dǎo)致性能不佳。由于粗糙度指數(shù)是針對(duì)整個(gè)化學(xué)空間的全局 QSPR 指標(biāo),因此它不考慮訓(xùn)練集和測(cè)試集之間的任何分布變化。

對(duì)于其他 QSPR 測(cè)量(例如 SALI、SARI),情況也是如此。因此,在指定分割下,最終表征性能可能與初始粗糙度值的相關(guān)性較低。

圖片

圖示:結(jié)合效力預(yù)測(cè)。(來(lái)源:論文)

未來(lái)研究

未來(lái)研究有幾個(gè)有趣的方向。一個(gè)有希望的方向是將不同的輸入表征形式納入框架。僅通過(guò)利用拓?fù)浞肿咏Y(jié)構(gòu),該模型無(wú)法區(qū)分具有不同構(gòu)象(例如,功能基團(tuán)的方向或原子的手性)的分子成分,這可能會(huì)顯著改變生化行為。

此外,還有其他先進(jìn)的數(shù)據(jù)驅(qū)動(dòng)技術(shù)可用于研究結(jié)構(gòu)-活性關(guān)系 (SAR),這些技術(shù)可能與這里的框架兼容。

如,Manelfi 的《Molecular Anatomy》認(rèn)為,從支架碎片化和抽象的網(wǎng)絡(luò)聚類(lèi)可以實(shí)現(xiàn)高質(zhì)量的 SAR 分析。此類(lèi)研究旨在將化學(xué)信息學(xué)知識(shí)轉(zhuǎn)移到機(jī)器學(xué)習(xí)模型中,從而有可能提高模型的可解釋性和穩(wěn)健性。

更重要的是,該方法除了對(duì)藥物發(fā)現(xiàn)具有直接影響,其分子表征穩(wěn)健性可以進(jìn)一步揭示其在化學(xué)其他子領(lǐng)域(如材料科學(xué)和環(huán)境化學(xué))中應(yīng)用的巨大潛力。

論文鏈接:https://www.nature.com/articles/s41467-024-55082-4

相關(guān)推薦
免責(zé)聲明
本文所包含的觀點(diǎn)僅代表作者個(gè)人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對(duì)本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險(xiǎn),讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前,請(qǐng)務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對(duì)因依賴(lài)本文觀點(diǎn)而產(chǎn)生的任何金錢(qián)損失負(fù)任何責(zé)任。

熱門(mén)文章