首頁 > AI資訊 > 最新資訊 > AlphaFold3級性能、開源、可商用,MIT團隊推出生物分子預測模型Boltz-1

AlphaFold3級性能、開源、可商用,MIT團隊推出生物分子預測模型Boltz-1

新火種    2024-11-20

圖片

圖示:來自測試集的靶標上的 Boltz-1 的示例預測。(來源:論文)

編輯 | 蘿卜皮

2024 年 11 月 18 日,麻省理工學院(MIT)的研究人員宣布推出 Boltz-1,這是一個開源模型,旨在準確模擬復雜的生物分子相互作用。

Boltz-1 是第一個完全商業化的開源模型,在預測生物分子復合物的 3D 結構方面達到 AlphaFold3 級精度。

該研究的作者之一,MIT 的 Ph.D Gabriele Corso,第一時間在推特上分享了這一開源事件,網友們紛紛表示祝賀。

圖片

圖示:網友們對此紛紛表示祝賀。(來源:X)

通過根據 MIT 許可發布訓練和推理代碼、模型權重和訓練數據,該團隊旨在將 Boltz-1 打造為全球研究人員的建模主干,為開源結構生物學樹立新標準。

圖片

技術報告:https://gcorso.github.io/assets/boltz1.pdf

開源代碼:https://github.com/jwohlwend/boltz

生物分子相互作用驅動著幾乎所有的生物機制,科學家理解這些相互作用后可以指導新療法的開發和疾病驅動因素的發現。

2020 年,AlphaFold2 證明深度學習模型可以在大量蛋白質序列上達到單鏈蛋白質結構預測的實驗精度。然而,關于在 3D 空間中對生物分子復合物進行建模的一個關鍵問題仍然懸而未決。

過去幾年,研究界在解決這一關鍵問題方面取得了重大進展。特別是,深度生成模型的使用已被證明可以有效地模擬不同生物分子之間的相互作用,其中 DiffDock 比傳統的分子對接方法有顯著的改進,AlphaFold3 在預測任意生物分子復合物方面達到了前所未有的準確度。

在最新的研究中,MIT 的研究人開發了 Boltz-1,這是第一個完全可商業訪問的開源模型,達到了 AlphaFold3 報告的準確度水平。

通過在 MIT 許可下免費提供訓練和推理代碼、模型權重、數據集和基準,該團隊希望讓世界各地的研究人員、開發人員和組織能夠使用 Boltz-1 進行實驗、驗證和創新。

圖片

圖示:Boltz-1 架構圖。(來源:論文)

從高層次上講,Boltz-1 遵循 Abramson 團隊提出的通用框架和架構,但它也提出了一些創新,包括:

1、新算法可以更高效、更穩健地配對 MSA、訓練時的裁剪結構以及用戶定義的綁定口袋上的條件預測;

2、更改架構中的表示流程以及擴散訓練和推理程序;

3、修訂置信度模型,包括架構組件以及任務框架,作為對模型主干層的微調。

圖片

圖示:使用 Kapsch 插值來二維表示 AlphaFold3 反向擴散和 Boltz1 反向擴散之間的差異。(來源:論文)

表現

研究人員在各種數據集上評估了 Boltz-1 與 Chai-1(AlphaFold3 的第一個閉源但公開可用的復制品)的性能,并得出結論:Boltz-1 與 Chai-1 的性能相匹配,因此也與 AlphaFold3 相匹配。

例如,在 CASP15 上進行評估時,Boltz-1 表現出特別強的蛋白質-配體和蛋白質-蛋白質性能,LDDT-PLI 達到 65%,而 Chai-1 為 40%,DockQ>0.23 的比例為 83%,而 Chai-1 為 76%。

圖片

圖示:Chai-1 和 Boltz-1 在 CASP15 基準和測試集上的表現的視覺摘要。(來源:論文)

局限性

雖然性能強悍,但也存在一些局限性。對 Boltz-1 的幾個預測進行目視檢查后,發現模型輸出中存在幻覺現象。最突出的幻覺類型是將整個鏈直接疊放在一起。

這些現象表現出兩種常見模式:第一種涉及大型復合物中的相同聚合物鏈,而第二種涉及具有共同子結構的類似配體。

研究人員提出了幾種假設來解釋這些模式:

1、數據中的重疊鏈和配體:雖然數據處理流程移除了重疊的聚合物鏈,但并沒有消除重疊的配體。經過仔細檢查,研究人員發現 PDB 數據庫中的幾個示例報告了同一結構內的重疊配體,可能代表替代的結合分子或反應(例如,PDB ID 7X9K)。訓練集中的此類結構可能會引入誤導性的學習信號。

2、訓練裁剪大小不足:由于計算限制,研究人員使用 384 和 512 個標記的裁剪大小來訓練模型,這比觀察到這些問題的許多復雜結構要小得多。這可能會妨礙模型在訓練期間捕捉足夠的空間背景的能力。

圖片

圖示:Boltz-1 預測鏈的示例相互重疊。(來源:論文)

希望成為人人可用的模型

接下來,研究人員將進一步探索替代訓練或微調策略以緩解這些問題,并將其留到模型的未來迭代中。

此次開源發布旨在讓世界各地的研究人員和組織能夠利用 Boltz-1 進行實驗和創新。研究人員設想將 Boltz-1 作為一個基礎,研究人員可以在此基礎上進行構建,共同推進科學家對生物分子相互作用的集體理解,并加速藥物設計、結構生物學等領域的發現。

研究人員在報告中表示:「Boltz-1 的開源發布是向前邁出的激動人心的一步,但這才剛剛開始。我們正在進行重大改進,以增強其對復雜交互進行建模的能力,我們計劃在未來幾個月內發布這些改進!敬請期待!」

相關內容:

https://x.com/GabriCorso/status/1858180097016250815

https://jclinic.mit.edu/boltz-1/

https://www.marktechpost.com/2024/11/17/mit-researchers-propose-boltz-1-the-first-open-source-ai-model-achieving-alphafold3-level-accuracy-in-biomolecular-structure-prediction/

相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章