無需預訓練,親和力與天然蛋白相當,中國科大的蛋白質從頭設計方法登Nature子刊

編輯 | 白菜葉
在過去的 2-3 年里,去噪擴散概率模型 (DDPM) 在生成高質量文本、圖像和視頻方面取得了前所未有的成功。這激發了人們對在蛋白質結構的從頭設計中使用生成式 DDPM 的熱情。
然而,大多數此類研究都遇到了相當大的困難,無法獲得可以輕松生成可通過高分辨率結構分析驗證的無缺陷蛋白質結構的 DDPM。
在這里,中國科學技術大學生命科學與醫學部劉海燕教授、陳泉教授團隊提出了 SCUBA-diffusion(SCUBA-D),這是一種蛋白質主鏈去噪擴散概率模型,通過考慮序列表示的共擴散進行新訓練,以增強模型正則化和對抗性損失,以最大限度地減少數據分布外誤差。
在生成實驗可實現的蛋白質結構方面,SCUBA-D 與基于預訓練 RoseTTAFold 的 RFdiffusion 的性能相當,但它可以輕松生成尚未觀察到的整體折疊與 RoseTTAFold 可預測的折疊不同的蛋白質結構。
SCUBA-D 的準確性已通過 16 種設計蛋白質和一種蛋白質復合物的 X 射線結構以及驗證設計的血紅素結合蛋白和 Ras 結合蛋白的實驗得到證實。
這項工作表明,通過解決數據分布誤差等突出問題,圖像或文本的深度生成模型可以有效地擴展到蛋白質結構等復雜的物理對象。
該研究以「De novo protein design with a denoising diffusion network independent of pretrained structure prediction models」為題,于 2024 年 10 月 9 日發布在《Nature Methods》。

從頭蛋白質設計旨在生成針對特定功能的人工蛋白質,其主要問題是生成可設計且物理上合理的蛋白質結構,即可被某些氨基酸序列自主采用的蛋白質結構。
到目前為止,唯一能夠應對這個任務的 DDPM(至少在一定程度上)是 RFdiffusion,它依賴于對預訓練結構預測網絡 RoseTTAFold 進行微調,以完成各種結構去噪任務。
為了避免潛在偏差的繼承,這是預訓練結構預測網絡的一個限制,科學家旨在開發新訓練的 DDPM,其性能至少與 RFdiffusion 相當,但不依賴于以前的結構預測網絡。
同時,科學家還希望從此類研究中獲得的洞察力和理解將加速未來用于生物分子結構預測的生成式 DDPM 的發展。
在這里,通過結合數據恢復和最小化對抗損失的目標進行訓練,中國科學技術大學劉海燕教授、陳泉教授團隊開發了一種新訓練的 DDPM,它可以生成多樣化的蛋白質骨架。該模型被命名為 SCUBA-D(sidechain unknown backbone arrangement-diffusion),因為它可以生成可設計的骨架而無需預先確定氨基酸序列。
在前期工作中,該團隊建立并實驗驗證了利用神經網絡能量函數從頭設計主鏈結構的 SCUBA 模型(Nature 2022),SCUBA-D 是基于深度學習的主鏈設計算法的迭代升級。

研究人員證明 SCUBA-D 可以執行各種蛋白質設計任務,包括從隨機噪聲中生成可設計的主鏈(無條件生成)、圍繞用戶繪制的、不可設計的初始主鏈生成可設計的主鏈(基于草圖輸入的生成)以及生成主鏈以支撐預定義基序,具有結合小分子或結合其他蛋白質的功能(基序支架)。

圖示:無條件或有偏差的二級結構分布的結構生成。(來源:論文)
團隊對 SCUBA-D 在多類蛋白質從頭設計任務中的應用進行了實驗驗證。針對單體結構從頭設計任務,團隊對共計70條設計序列進行了實驗表征,其中近 80% 的序列(53 條)可溶表達,實驗解析的 16 個高分辨晶體結構與目標結構高度一致(主鏈原子位置均方根位移在 0.96 到 2.11? 之間)。
在小分子結合蛋白設計任務中,團隊對非經典血紅素降解酶進行了保留結合位點的主鏈結構重設計,對設計的 12 條序列進行實驗驗證,其中 5 條具有與血紅素的結合能力,三條序列與血紅素的親和力與天然蛋白相當或高于天然蛋白。
在結合蛋白設計任務中,30個人工設計的 Ras 結合蛋白 14 個與 Ras 有相互作用,其中 3 個設計蛋白與 Ras 的結合親和力與天然蛋白相當,復合物晶體結構更進一步驗證了設計的精確度。

圖示:SCUBA-D 用于設計蛋白質結合蛋白。(來源:論文)
與其他剛訓練好的蛋白質結構 DDPM 不同,SCUBA-D 不只考慮了通常的數據恢復目標,還考慮了最小化對抗損失這一額外目標。這使得 SCUBA-D 能夠生成比其他剛訓練好的 DDPM 具有更高可設計性的主干。
目前,只有 Chroma 和 SCUBA-D 能夠通過實驗解決使用新訓練的 DDPM 設計的蛋白質結構。Chroma 研究考慮了 300 多種設計蛋白質進行實驗表征,并僅報告了兩種全螺旋蛋白質的晶體結構,這反映了使用常規數據恢復目標訓練的 DDPM 在生成可通過高分辨率實驗確認的蛋白質結構方面存在困難。
相比之下,由于模型訓練時增加了最小化對抗損失的目標,SCUBA-D 取得了比其他剛訓練好的 DDPM 更廣泛的實驗成功率。
此外,使用 SCUBA-D 成功設計全 β 蛋白質可被視為使用 DDPM 設計蛋白質骨架的重要一步。這些結果強調了考慮物理約束對象(例如蛋白質結構)與非物理約束對象(例如圖像和文本)之間的不同容錯能力的重要性。
這種洞察力可用來加速深度生成方法的擴展,這些方法在生成計算機對象方面具有明顯的優勢,可以生成需要物理上合理的對象,包括可設計的核酸結構和蛋白質-核酸復合物。
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。