改進(jìn)蛋白突變穩(wěn)定性預(yù)測(cè),清華龔海鵬團(tuán)隊(duì)AI蛋白工程模型登Nature子刊

編輯 | KX
準(zhǔn)確預(yù)測(cè)蛋白質(zhì)突變效應(yīng)在蛋白質(zhì)工程和設(shè)計(jì)中至關(guān)重要。
近日,清華大學(xué)龔海鵬團(tuán)隊(duì)提出了一套基于幾何學(xué)習(xí)的模型套件——GeoStab-suite,其中包含 GeoFitness、GeoDDG 和 GeoDTm 三個(gè)模型,分別用于預(yù)測(cè)蛋白質(zhì)突變后的適應(yīng)度得分、ΔΔG 和 ΔTm。
GeoFitness 采用專(zhuān)門(mén)的損失函數(shù),允許使用深度突變掃描數(shù)據(jù)庫(kù)中的大量多標(biāo)記適應(yīng)度數(shù)據(jù)對(duì)統(tǒng)一模型進(jìn)行監(jiān)督訓(xùn)練。為了進(jìn)一步改進(jìn) ΔΔG 和 ΔTm 預(yù)測(cè)的下游任務(wù),GeoFitness 的編碼器被重新用作 GeoDDG 和 GeoDTm 中的預(yù)訓(xùn)練模塊,來(lái)克服缺乏足夠標(biāo)記數(shù)據(jù)的挑戰(zhàn)。
這種預(yù)訓(xùn)練策略與數(shù)據(jù)擴(kuò)展相結(jié)合,顯著提高了模型性能和通用性。
在基準(zhǔn)測(cè)試中,就 Spearman 相關(guān)系數(shù)而言,GeoDDG 和 GeoDTm 分別比其他最先進(jìn)的方法高出至少 30% 和 70%。
相關(guān)研究以「Improving the prediction of protein stability changes upon mutations by geometric learning and a pre-training strategy」為題,于 10 月 25 日發(fā)表在《Nature Computational Science》上。
論文鏈接:
蛋白質(zhì)設(shè)計(jì)蛋白質(zhì)適應(yīng)度是指蛋白質(zhì)發(fā)揮特定功能的能力,但在不同的實(shí)驗(yàn)情況下,通常用不同的指標(biāo)來(lái)量化,例如酶活性、肽結(jié)合親和力和蛋白質(zhì)穩(wěn)定性。蛋白質(zhì)設(shè)計(jì)和工程的主要目標(biāo)之一是提高蛋白質(zhì)適應(yīng)度,從而提高生物技術(shù)和生物制藥過(guò)程中的蛋白質(zhì)性能。
在各種蛋白質(zhì)適應(yīng)度指標(biāo)中,蛋白質(zhì)穩(wěn)定性備受關(guān)注,通常用 ΔG 和 Tm 兩個(gè)指標(biāo)來(lái)評(píng)估。ΔG 表示室溫下展開(kāi)自由能變化,描述蛋白質(zhì)的熱力學(xué)穩(wěn)定性;Tm 代表蛋白質(zhì)熔化溫度,反映蛋白質(zhì)在溫度波動(dòng)下保持折疊狀態(tài)的能力。
圖示:DMS、ΔΔG 和 ΔTm 數(shù)據(jù)匯總。(來(lái)源:論文)
基于深度突變掃描 (DMS) 數(shù)據(jù)庫(kù)可以開(kāi)發(fā)和優(yōu)化蛋白質(zhì)適應(yīng)度預(yù)測(cè)方法。然而,DMS 數(shù)據(jù)的多標(biāo)簽特性阻礙了統(tǒng)一預(yù)測(cè)模型的訓(xùn)練。
與多標(biāo)記適應(yīng)度數(shù)據(jù)不同,突變后蛋白質(zhì)穩(wěn)定性的變化明確地由兩個(gè)指標(biāo) ΔΔG 和 ΔTm定義,實(shí)驗(yàn)數(shù)據(jù)的積累可以開(kāi)發(fā)相應(yīng)的預(yù)測(cè)算法。
近年來(lái),ΔΔG 的預(yù)測(cè)受到了極大的關(guān)注。目前的方法主要可分為機(jī)制預(yù)測(cè)器、機(jī)器學(xué)習(xí)預(yù)測(cè)器和深度學(xué)習(xí)預(yù)測(cè)器。與 ΔΔG 預(yù)測(cè)相比,ΔTm預(yù)測(cè)的研究相對(duì)較少。
基于幾何學(xué)習(xí)的三個(gè)模型GeoStab 套件包含三個(gè)不同的軟件程序:GeoFitness、GeoDDG 和 GeoDTm,它們都將蛋白質(zhì)序列和結(jié)構(gòu)的信息匯總到基于幾何學(xué)習(xí)的編碼器中進(jìn)行預(yù)測(cè)。
幾何編碼器采用圖注意 (GAT) 神經(jīng)網(wǎng)絡(luò)架構(gòu),其中節(jié)點(diǎn)(一維,1D)代表氨基酸殘基,邊緣(2D)反映殘基間的相互作用。
GeoFitness 是一個(gè)統(tǒng)一模型,能夠預(yù)測(cè)所有單個(gè)突變的蛋白質(zhì)變體的適應(yīng)度景觀。具體來(lái)說(shuō),研究人員設(shè)計(jì)了一個(gè)特殊的損失函數(shù),允許使用 DMS 數(shù)據(jù)庫(kù)中的多標(biāo)記適應(yīng)度數(shù)據(jù)訓(xùn)練統(tǒng)一模型。通過(guò)這種方式得出的模型避免了實(shí)際使用前模型重新訓(xùn)練的先驗(yàn)限制,同時(shí)實(shí)現(xiàn)了優(yōu)于其他最先進(jìn)方法(如 ECNet)的性能。
此外,通過(guò)重新利用 GeoFitness 的幾何編碼器,研究人員開(kāi)發(fā)了兩個(gè)額外的下游模型 GeoDDG 和 GeoDTm,分別用于預(yù)測(cè)蛋白質(zhì)突變后的 ΔΔG 和 ΔTm,模型架構(gòu)經(jīng)過(guò)專(zhuān)門(mén)設(shè)計(jì),從而確保預(yù)測(cè)結(jié)果的反對(duì)稱(chēng)性。
蛋白質(zhì)結(jié)構(gòu)信息可以從蛋白質(zhì)數(shù)據(jù)庫(kù) (PDB) 中獲取,也可以使用 AlphaFold2 純粹基于序列進(jìn)行預(yù)測(cè)。因此,研究人員訓(xùn)練了兩個(gè)版本的 GeoDDG 和 GeoDTm,分別使用后綴「-3D」和「-Seq」來(lái)注釋依賴(lài)于實(shí)驗(yàn)結(jié)構(gòu)的版本和實(shí)際使用中只需要序列信息的版本。
值得注意的是,研究人員通過(guò)兩種策略解決了 ΔΔG 和 ΔTm預(yù)測(cè)中數(shù)據(jù)有限的挑戰(zhàn):通過(guò)數(shù)據(jù)收集擴(kuò)展訓(xùn)練數(shù)據(jù)以及繼承在 DMS 數(shù)據(jù)庫(kù)上預(yù)訓(xùn)練的 GeoFitness 模型的幾何編碼器。考慮到蛋白質(zhì)變體的適應(yīng)度數(shù)據(jù)至少比 ΔΔG 和 ΔTm的數(shù)據(jù)多一個(gè)數(shù)量級(jí),以及蛋白質(zhì)適應(yīng)度與生物學(xué)穩(wěn)定性的相關(guān)性,后一種策略尤其顯著提高了模型性能和通用性。
在基準(zhǔn)測(cè)試集上進(jìn)行評(píng)估時(shí),S669 用于 ΔΔG 和 S571(該研究中的自組集)用于 ΔTm預(yù)測(cè),就預(yù)測(cè)值和實(shí)驗(yàn)值之間的 Spearman 相關(guān)系數(shù)而言,GeoDDG 和 GeoDTm 分別比其他最先進(jìn)的方法至少高出 30% 和 70%。
研究人員已經(jīng)為 GeoStab-suite 建立了一個(gè) Web 服務(wù)器,GeoStab-suite 是一套由三個(gè)預(yù)測(cè)因子 GeoFitness、GeoDDG 和 GeoDTm 組成的套件。GeoStab-suite 將成為蛋白質(zhì)科學(xué)領(lǐng)域研究人員的有用工具。
- 免責(zé)聲明
- 本文所包含的觀點(diǎn)僅代表作者個(gè)人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對(duì)本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險(xiǎn),讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前,請(qǐng)務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對(duì)因依賴(lài)本文觀點(diǎn)而產(chǎn)生的任何金錢(qián)損失負(fù)任何責(zé)任。