類GPT化學(xué)語言模型,9秒生成100種化合物,微軟AI藥物設(shè)計平臺登Nature子刊

編輯 | KX
以ChatGPT為代表的生成式 AI 技術(shù)正在徹底改變藥物研發(fā)領(lǐng)域。生成式藥物設(shè)計能夠從零開始創(chuàng)建全新分子或化合物,而無需依賴于現(xiàn)有的模板或分子框架。
然而,生成的分子的實用性往往有限,因為許多設(shè)計都集中在一組狹窄的藥物相關(guān)特性,無法提高后續(xù)藥物發(fā)現(xiàn)過程的成功率。
為了克服這些挑戰(zhàn),微軟研究院科學(xué)智能中心、中國科學(xué)技術(shù)大學(xué)和全球健康藥物研發(fā)中心(GHDDI)的研究團(tuán)隊合作開發(fā)了 AI 藥物設(shè)計平臺 TamGen,這是一種采用類似 GPT 的化學(xué)語言模型方法。
TamGen 通過基于 Transformer 自注意力機(jī)制的生成式 AI 模型,實現(xiàn)了針對致病靶蛋白的分子精準(zhǔn)生成、優(yōu)化以及合成與生物實驗驗證,開辟了創(chuàng)新藥物發(fā)現(xiàn)的新路徑。
研究證明 TamGen 生成的化合物具有更好的分子質(zhì)量和活性。將 TamGen 集成到藥物發(fā)現(xiàn)流程中,確定了 14 種對結(jié)核桿菌 ClpP 蛋白酶表現(xiàn)出顯著抑制活性的化合物。其中,最有效的化合物顯示出半數(shù)最大抑制濃度(IC50)為 1.9 μM。
GHDDI 中心主任丁勝表示:「TamGen 的初步成果標(biāo)志著生成式藥物設(shè)計領(lǐng)域的一項重要創(chuàng)新,為未來的 AI 藥物研發(fā)提供了強(qiáng)有力的實用性和適用性證據(jù)。隨著人工智能技術(shù)在藥物發(fā)現(xiàn)領(lǐng)域的持續(xù)進(jìn)步,TamGen 有望加速新藥研發(fā),幫助應(yīng)對包括結(jié)核病在內(nèi)的多種公共衛(wèi)生挑戰(zhàn)?!?/p>
相關(guān)研究以「TamGen: drug design with target-aware molecule generation through a chemical language model」為題,于 10 月 29 日發(fā)布在《Nature Communications》上。
設(shè)計對致病蛋白靶標(biāo)具有高結(jié)合親和力的化合物可以顯著加快藥物發(fā)現(xiàn)過程。基于靶標(biāo)信息生成化合物的生成式 AI 方法不僅可以加快這一過程,還可以探索現(xiàn)有化合物庫之外更大的化學(xué)空間。
然而,盡管 AI 生成了大量新型化合物,但現(xiàn)有方法在提供有效候選藥物方面仍然面臨挑戰(zhàn)。
TamGem:類 GPT 的化學(xué)語言模型為了應(yīng)對生成式藥物設(shè)計面臨的挑戰(zhàn),微軟與 GHDDI 聯(lián)合開發(fā)了 TamGen。
其創(chuàng)新之處在于,在類 GPT 生成模型的基礎(chǔ)上加入了交叉注意力機(jī)制,并通過學(xué)習(xí)大量的已知和模擬的蛋白-配體結(jié)構(gòu)數(shù)據(jù),使得模型在生成新的化學(xué)分子時,能夠同時考慮致病靶蛋白的信息。
這一改進(jìn)使 TamGen 能夠基于靶蛋白活性位點(diǎn)信息精準(zhǔn)生成具備潛在相互作用的分子,進(jìn)而增強(qiáng)分子生成的靶向性以及藥物設(shè)計的合理性與精準(zhǔn)度,再結(jié)合分子模擬、細(xì)胞活性 AI 模型與專家經(jīng)驗進(jìn)一步虛擬篩選與優(yōu)化,從而大幅提升發(fā)現(xiàn)候選藥物的效率與成功率。
GHDDI 數(shù)據(jù)科學(xué)平臺負(fù)責(zé)人郭晉疆博士表示:「傳統(tǒng)的生成式 AI 設(shè)計方法更像是先造出無數(shù)把鑰匙,再一把一把地試能否打開門。而 TamGen 則像是在比對鎖眼,更精確地匹配鑰匙?!?/p>
研究團(tuán)隊通過三個模塊實現(xiàn)了 TamGen:(1) 化合物解碼器,一種類似 GPT 的化學(xué)語言模型,也是 TamGen 的核心組件,為化學(xué)空間中的化合物生成奠定了基礎(chǔ);(2) 蛋白質(zhì)編碼器,一種基于 Transformer 的模型,用于編碼靶標(biāo)蛋白質(zhì)的結(jié)合位點(diǎn);(3) 用于化合物編碼和細(xì)化的上下文編碼器。
TamGen 生成藥物設(shè)計高效且有效為了對 TamGen 的整體性能進(jìn)行基準(zhǔn)測試,研究人員將其方法與最近提出的五種方法進(jìn)行了比較:liGAN、3D-AR、Pocket2Mol、ResGen 和 TargetDiff。
結(jié)果顯示,雖然每種方法在某些指標(biāo)上都表現(xiàn)出優(yōu)勢,但 TamGen 始終名列前茅。例如,TamGen 在 6 個指標(biāo)中的 5 個中排名第一或第二,并表現(xiàn)出最佳的整體性能。這一發(fā)現(xiàn)表明 TamGen 能夠在生成過程中同時優(yōu)化化合物的多個方面。
值得指出的是,對于具有高結(jié)合親和力的化合物,TamGen 在 SAS 方面表現(xiàn)最佳,這些化合物可能對靶蛋白具有優(yōu)異的生物活性。
與其他方法相比,TamGen 的效率也最高。研究使用一臺 A6000 GPU 對所有方法的每個靶標(biāo)生成 100 種化合物的時間進(jìn)行了基準(zhǔn)測試。其他方法需要數(shù)十分鐘或數(shù)小時才能完成此任務(wù),而 TamGen 平均僅需 9 秒即可完成此任務(wù)。這使得 TamGen 比 ResGen、TargetDiff、Pocket2Mol 和 3D-AR 分別快 85、154、213 和 394 倍。
總的來說,TamGen 在生成新化合物方面既有效又高效。
發(fā)現(xiàn) 14 種對結(jié)核病有效的化合物接下來,研究人員使用 TamGen 設(shè)計針對 ClpP 的小分子抑制劑。
結(jié)核?。═B)是由結(jié)核分枝桿菌 (Mtb) 引起的傳染病。研究專注于酪蛋白水解蛋白酶P (ClpP),它是細(xì)菌蛋白質(zhì)降解系統(tǒng)中必需的絲氨酸蛋白酶,也是抗生素開發(fā)的新興靶點(diǎn)。
使用由 TamGen 驅(qū)動的設(shè)計-改進(jìn)-測試流程來識別潛在的 ClpP 抑制劑。研究發(fā)現(xiàn)了 14 種對 Mtb ClpP 表現(xiàn)出良好效力的候選化合物,半數(shù)最大抑制濃度 (IC50) 范圍為 1.88 μM 至 35.2 μM。
值得注意的是,TamGen 生成的化合物不僅豐富了進(jìn)一步優(yōu)化的候選池,而且還為命中擴(kuò)展和構(gòu)效關(guān)系 (SAR) 合成提供了有效的靶點(diǎn)。這些發(fā)現(xiàn)凸顯了 TamGen 在靶標(biāo)感知藥物設(shè)計中的廣泛適用性和巨大潛力。
未來展望下一步,TamGen 的研究方向?qū)⒓性谡细嗳S生成方法的優(yōu)勢,比如采用蒙特卡洛樹搜索(MCTS)或分子動力學(xué)模擬技術(shù),進(jìn)一步改善生成化合物與靶蛋白結(jié)合能力及其他重要藥物性質(zhì),如穩(wěn)定性、合成可能性以及 ADME/T 特性。
參考內(nèi)容:https://mp.weixin.qq.com/s/ToKG6upzt3Gl-b29PNfPRg
- 免責(zé)聲明
- 本文所包含的觀點(diǎn)僅代表作者個人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認(rèn)可。 交易和投資涉及高風(fēng)險,讀者在采取與本文內(nèi)容相關(guān)的任何行動之前,請務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。