AI面臨的五個蛋白質設計問題,Nature找了一群專家來討論

編輯 | 白菜葉
Alena Khmelinskaia 希望設計定制蛋白質就像訂餐一樣簡單。她說,想象一下一臺「自動售貨機」,任何研究人員都可以使用它來指定他們想要的蛋白質的功能、大小、位置、分子伴侶或者其他特征。「理想情況下,你會得到一個可以同時完成所有這些事情的完美設計。」德國慕尼黑大學(LMU)的生物物理化學家 Khmelinskaia 說。
目前,這只是一個夢想。但計算蛋白質設計和機器學習的進步使其比以往任何時候都更接近現實。
直到幾年前,研究人員還通過將蛋白質克隆到細菌或酵母中,誘導微生物變異,直到產生所需的產物來改變蛋白質。科學家也可以通過故意改變其氨基酸序列來手動設計蛋白質,但這是一個費力的過程,可能會導致蛋白質折疊錯誤或阻止細胞產生蛋白質。
機器學習算法徹底改變了游戲規則。研究人員可以使用人工智能(AI)驅動的工具(例如 RFdiffusion 和 Chroma)在筆記本電腦上生成新的蛋白質結構,這些工具已在蛋白質數據庫(PDB)中的數十萬種結構上進行訓練。
他們可以使用 ProteinMPNN 等算法識別與該結構匹配的序列。RoseTTAFold 和 AlphaFold 可以根據序列計算結構,預測新蛋白質是否可能正確折疊。只有這樣,研究人員才需要合成物理蛋白質并測試其是否按預期發揮作用。
在很多情況下,確實如此。「一旦人們看到實驗數據,他們就會明白這個東西是可行的。」Khmelinskaia 在談到人工智能蛋白質設計時說道,「人們對可能實現的事情感到興奮。」
今年的諾貝爾化學獎委員會同意這一觀點:AlphaFold 和其他預測或設計蛋白質結構的程序為其開發者贏得了 2024 年的獎項。「我們現在可以預測蛋白質結構并設計我們自己的蛋白質,這給人類帶來了最大的利益。」公告中寫道。
然而,最大的好處可能尚未到來。《自然》雜志采訪了相關專家,探討了蛋白質設計面臨的最大挑戰以及如何克服這些挑戰。
以下是他們的說法。
建立可靠的粘合劑
蛋白質設計師面臨的早期挑戰之一是預測蛋白質如何相互結合——這是制藥行業的一個主要目標,因為特定蛋白質的「結合劑」可以作為激活或抑制疾病途徑的藥物。
華盛頓大學計算蛋白質設計先驅、2024 年諾貝爾化學獎獲得者 David Baker 表示,RFdiffusion 和 AlphaProteo 等生成式 AI 程序讓這項任務變得簡單,他的團隊開發了 RFdiffusion 和其他蛋白質設計工具。「例如,如果你想針對某種癌癥蛋白質,并且想要一種粘合劑,我們開發的方法通常可以為你提供解決該問題的方法。」他說。
一些蛋白質,例如遍布免疫細胞表面的跨膜分子,仍然難以破解。但對于大多數蛋白質,生成式人工智能軟件可以生成像手一樣精確包裹目標的粘合劑。例如,2023 年,Baker 團隊使用 RFdiffusion 創建了傳感器蛋白,當它們附著在特定肽激素上時會發光。
蛋白質 - 蛋白質結合算法之所以成功,是因為它們的語言很簡單:所有天然蛋白質都由相同的 20 種氨基酸組成。馬薩諸塞州薩默維爾的 Generate Biomedicines 公司使用 AI 設計療法,其計算機科學家 John Ingraham 表示,PDB 中有數十萬種結構和蛋白質 - 蛋白質相互作用,「這就像是機器學習的理想情況」。科學家們一直在研究使用人工智能工具設計大型簡單結合蛋白庫。
但是,人工智能訓練的數據越少,結合劑的可靠性就越低,用于結合藥物和其他小分子的蛋白質就是這種情況。許多制藥公司都有自己的小分子結構數據庫以及它們如何與蛋白質相互作用的數據庫,但這些都是嚴格保密的。
谷歌 DeepMind 倫敦分部的計算生物學家 Jue Wang 表示,現有的公開數據并不總是注釋良好,可用的結構往往只代表少數分子類別。「使用以此為基礎訓練的模型,你不一定能學到有關化學的良好一般規則。」他說。
今年早些時候,DeepMind 發布了該軟件的最新版本 AlphaFold3,它可以預測蛋白質與小分子的結合如何影響其形狀。該公司表示:「對于蛋白質與其他分子類型的相互作用,與現有預測方法相比,我們的預測準確率至少提高了 50%,對于一些重要的相互作用類別,我們的預測準確率提高了一倍。」
但 Baker 表示,這一難題尚未完全解決。例如,某種物質結合良好并不意味著它能按預期發揮作用。Khmelinskaia 表示,結合蛋白可以激活或阻斷其靶標,但 AlphaFold 等程序不一定能分辨出兩者的區別。(她指出,一些算法確實結合了功能,包括 ESM3。該軟件由紐約市一家名為 EvolutionaryScale 的公司開發,經過了 27 億個蛋白質序列、結構和功能的訓練。)
生成式人工智能系統還有其他局限性,包括傾向于「產生幻覺」,產生自然界中不可能存在的蛋白質結構。紐約市哥倫比亞大學的計算生物學家 Mohammed AlQuraishi 說,人工智能「總是試圖取悅別人」,「它永遠不會說『不,這不可行』。」
Ingraham 說,更好地了解生物物理學可能會有所幫助,但有關蛋白質如何與分子結合的更多更好的數據也會有所幫助。他的公司正在通過強力手段攻克這一難題,盡可能多地使用有關蛋白質相互作用和功能的數據,并將其與由他們的模型生成的設計高通量數據相結合。
「我們正在嘗試尋找通用解決方案。」他說,「然后盡可能多地利用蛋白質信息。」
新的催化劑
科學家們對計算工具將帶來具有全新功能的酶寄予厚望:例如,可以從大氣中清除二氧化碳的催化劑,或者可以有效分解環境塑料的酶。合乎邏輯的起點是具有類似功能的天然酶。例如,一種破壞氫硅鍵的酶可能成為破壞碳硅鍵的人工酶的支架。
但相似的蛋白質形狀并不一定意味著相似的功能,而外觀完全不同的酶可以執行相同的任務。AlQuraishi 說,找出這些聯系以及如何重建功能是蛋白質設計的一個重大挑戰。「我們不討論功能,我們討論結構。」
此外,天然酶不一定是新活動的理想起點。馬薩諸塞州波士頓哈佛醫學院的系統生物學家 Debora Marks 將重新利用酶比作在城市現有的陳舊布局上修建現代道路系統。「如果你可以重新開始,你不一定會這樣做。」她說。
盡管如此,天然酶的生物物理學可以為從頭設計提供信息,Marks 說:「大自然已經為你做了數十億次進化實驗。」通常,研究人員通過分析酶在不同物種之間的相似程度來確定酶的哪些部分是重要的。進化保守的序列通常具有相似的結構,而不相似的序列可能只是減慢酶速度的垃圾。
但 Ingraham 說,哪些部分是重要的并不總是立即顯而易見的。例如,酶側看似無用的氨基酸鏈可能會影響蛋白質與其他分子的結合緊密程度或其在構象狀態之間轉換的能力。
一些研究人員正在開發尋找這些有用部分的方法。在 8 月份的預印本中,Baker團隊利用 RFdiffusion 創建了一組稱為水解酶的酶,這些酶通過多步驟過程利用水來破壞化學鍵。研究人員利用機器學習分析了酶的哪些部分或基序在每個步驟中處于活躍狀態。
然后,他們復制了這些基序,并要求 RFdiffusion 圍繞它們構建全新的蛋白質。當研究人員測試了 20 種設計時,他們發現其中兩種能夠以新的方式水解底物。「這長期以來一直是一個目標,現在終于解決了。」Wang 說。
不過,首爾國立大學計算生物學家 Martin Steinegger 警告稱,將活性位點移入新的蛋白質環境可能很棘手。如果沒有其他蛋白質來穩定結構或執行研究人員尚未確定的功能,孤立的基序可能會與其目標結合,永不松開。Steinegger 解釋說,蛋白質不是靜態物體,而是動態的。「每當動態出現時,我們都不擅長建模。」
構象變化
蛋白質通常不只有一種形狀;它們會打開、關閉、扭曲和彎曲。這些構象會根據溫度、pH、化學環境以及它們是否與其他分子結合等因素而發生變化。
然而,當研究人員試圖通過實驗解決蛋白質結構時,他們往往只能看到最穩定的構象,而這不一定是蛋白質活躍時的形式。「我們拍了這些快照,但它們很不穩定。」馬薩諸塞州劍橋微軟研究院的機器學習科學家 Kevin Yang 說。
Yang 表示,為了真正理解蛋白質的作用原理,研究人員需要了解其所有潛在的運動和構象——這些替代形式不一定在 PDB 中分類。
計算蛋白質可能移動的所有方式是極其困難的,即使對于超級計算機來說也是如此。
加州大學舊金山分校的生物工程師 Tanja Kortemme 表示,一個含有 100 個氨基酸的蛋白質(以蛋白質標準來說很小)至少可以呈現 3100 種可能的構象。「我們對物理學的理解相當不錯,但將其融入其中受到我們需要計算的可能性數量的限制。」
機器學習可以幫助縮小范圍,微軟和其他公司正在開發加快尋找蛋白質構象所需計算的方法。但人工智能模型受到缺乏良好訓練數據的限制,Wang 說:「事實通常并不存在,那么你怎么知道你得到的答案是正確的呢?」
Kortemme 表示,該領域正在通過設計大型蛋白質庫(包括天然和合成的)并對其進行變異以揭示其動態來解決這個問題。
例如,她、Baker 以及眾多科學家正在研究可以通過添加某些分子伴侶在兩種構象之間手動切換的蛋白質。這種設計蛋白質不僅可以幫助訓練人工智能模型,還可以作為更復雜的分子機器的構建模塊,例如將化學能轉化為機械能來完成細胞工作的酶。
其他團隊已經開發出算法(如 AF-Cluster),在預測中注入一定程度的隨機性,以探索替代構象。但 Steinegger 表示,這些方法是否適用于所有蛋白質類別仍不清楚。
復雜創作
酶并不是研究人員唯一關心的蛋白質類別。新蛋白質還可以作為構建模塊使用,例如通過自組裝成將貨物運送到細胞中的結構、產生物理力或展開阿爾茨海默氏癥等疾病中錯誤折疊的蛋白質。
這些復雜結構的計算設計已經產生了影響。2022 年和 2023 年,韓國和英國分別批準緊急使用 COVID-19 疫苗,這是第一種由計算設計的蛋白質制成的醫療產品。這種疫苗名為 SKYCovione,是一種納米顆粒,含有兩種蛋白質成分,可引發針對 SARS-CoV-2 病毒刺突蛋白的免疫反應。
在臨床試驗中,SKYCovione 產生的抗體水平是商用疫苗的三倍,Khmelinskaia 表示,它的成功表明計算蛋白質設計已準備好應用于現實世界。「現在真的可以開始瞄準許多以前不可能實現的有趣途徑了。」她說。
Khmelinskaia 的實驗室正在使用機器學習算法開發空心納米粒子,這種粒子可以攜帶藥物或毒素進入細胞,或者隔離不需要的分子。她說,這需要了解設計蛋白質的構象動力學,因為粒子及其有效載荷需要能夠穿過細胞膜然后打開(或關閉)。
但這只是其中一種功能。對于細菌鞭毛等更復雜的結構,機器學習能做的有限——因為沒有足夠的易于理解的例子可供參考。「如果我們有 10 萬或 100 萬種不同的分子機器,也許我們可以訓練一種生成式人工智能方法,從頭開始生成機器,但事實并非如此。」Baker 說。
這意味著人類研究人員需要考慮組成分子機器的組件(例如馬達或沿著另一種蛋白質「行走」的蛋白質),并使用設計工具逐個創建這些構件。這些組件可能包括分子開關、輪子和軸,或僅在特定條件下起作用的「邏輯門」系統。
Kortemme 解釋道:「每次制造復雜的機器時,你不需要重新發明輪子。」她的實驗室正在設計可以整合到合成信號轉導級聯中的細胞信號分子。
Wang 說,正是在這些部件的巧妙組合中,人類的創造力才會脫穎而出。「我們開始用蛋白質制造螺絲、螺栓、杠桿和滑輪。」他表示,「但你要用那個滑輪做什么呢?這是最有趣也是最具挑戰性的方面。」
從錯誤中學習
雖然 Khmelinskaia 設想了「自動售貨機」,但即使是最好的預測算法也離一次性生成準確蛋白質還有一段距離。
「以前算法有 99.99% 的時間無法正常工作。」AlQuraishi 說,「現在更像是只有 99% 的時間會失敗。」
Steinegger 說,這在一定程度上是物流問題。計算研究人員可以反復運行他們的算法,直到找到看起來可行的算法,而像他這樣的算法設計團隊「大約每三四個月就會有新的創新」。
Steinegger 估計,在生物系統中驗證設計的蛋白質可能需要兩年時間,屆時軟件已開始發揮作用。
這種不匹配意味著算法很少有機會從錯誤中吸取教訓。研究人員往往不會發表負面結果,即使這些失敗可能帶來有用的信息,例如蛋白質在特定條件下的細胞毒性或穩定性。
除非科研資助模式發生根本性變化以激勵此類披露,否則研究人員必須發揮創造力。「組建一支能夠同時涵蓋所有這些方面的團隊極具挑戰性。」Khmelinskaia 解釋道,她指的是蛋白質設計研究的實驗和計算方面。因此,合作是必須的。
「我們目前處于計算機資源和數據都準備就緒的階段,這也是為什么這個領域如此受歡迎的原因。」Yang 說,「合作的人越多,進步就越快。」
相關內容:
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。