準確、快速地從頭預測RNA3D結構,港中大、復旦等深度學習方法RhoFold+登Nature子刊

編輯 | KX
RNA 分子在分子生物學中心法則中起關鍵作用,RNA 結構如何影響基因調控和功能一直是研究的熱門話題。準確預測 RNA 三維 (3D) 結構仍是一個難題。RNA 的結構靈活性導致實驗確定的數據稀缺,從而使計算預測工作變得復雜。
在此,香港中文大學、復旦大學、哈佛大學、智峪生科(Zelixir)等多機構團隊合作,提出一種基于 RNA 語言模型的深度學習方法 RhoFold+,用于準確、快速地進行從頭預測 RNA 三維結構。
通過集成在約 2370 萬個 RNA 序列上預訓練的 RNA 語言模型,并利用技術解決數據稀缺問題,RhoFold+ 為 RNA 3D 結構預測提供了完全自動化的端到端流程。
RhoFold+ 在單鏈 RNA 建模方面表現出很高的準確性,在 RNA 家族和類型之間具有出色的泛化能力,同時還能夠捕捉螺旋間夾角(IHA)和二級結構等局部特征。
對 RNA-Puzzles 和 CASP15 天然 RNA 靶標的回顧性評估表明,RhoFold+ 優于包括人類專家組在內的現有方法。
相關研究以「Accurate RNA 3D structure prediction using a language model-based deep learning approach」為題,于 11 月 21 日發布在《Nature Methods》上。
確定 RNA 3D 結構對于理解其功能,以及為 RNA 靶向藥物開發和合成生物學設計提供信息至關重要。
RNA 分子的構象靈活性使得實驗確定其 3D 結構具有挑戰性。截至 2023 年 12 月,在蛋白質數據庫(PDB)中約 214,000 個結構中,僅 RNA 結構占不到 1.0%,而含 RNA 復合物僅占 2.1%。
計算方法已經成為利用 RNA 序列數據進行 RNA 3D 結構預測的補充方法。主要分為兩類:基于模板的建模,例如 ModeRNA 和 RNAbuilder,受模板庫有限的限制;以及從頭預測方法,包括 FARFAR2、3dRNA 和 SimRNA,這些方法更具預測性,但由于需要大規模采樣,計算量很大。
用于 RNA 3D 結構預測的自動化端到端平臺RhoFold+ 用于準確、快速地從頭預測 RNA 3D 結構。RhoFold+ 是其前身 RhoFold 的完全自動化和可區分的改進,利用改進的多序列比對(MSA)集成和其他功能來提高性能。研究的主要重點是確定與其他分子相互作用有限的單鏈 RNA 的結構。
RhoFold+ 的開發是由 RNA 特異性知識和現有 RNA 3D 結構數據的局限性指導的。
為了構建訓練數據集,研究人員使用 BGSU 代表性 RNA 結構集(版本 2022-04-13)從 PDB 中整理了所有可用的 RNA 3D 結構。研究專注于單鏈 RNA,并通過在 80% 序列相似性閾值下使用 Cd-hit 對序列進行聚類來減少冗余,從而從 5,583 條 RNA 鏈中產生 782 個獨特的序列簇。
然后通過管道 RhoFold+ 處理這些 RNA 序列。首先,使用大型 RNA 語言模型 RNA-FM 對序列進行轉換,以提取進化和結構上知情的嵌入。同時,通過搜索廣泛的序列數據庫生成 MSA。然后將嵌入和 MSA 特征輸入到其 transformer 網絡 Rhoformer 中,并迭代優化十個周期。
在此之后,結構模塊采用了幾何感知注意機制和不變點注意力 (IPA) 模塊來優化 RNA 主鏈中關鍵原子的局部框架坐標和扭轉角。在重建全原子坐標后,應用了結構約束,例如二級結構和堿基配對。
準確、快速地從頭預測 RNA 三維結構在開發 RhoFold+ 之后,研究人員通過廣泛的測試嚴格地對其性能進行了基準測試和評估。包括 RNA-Puzzles 靶標和 CASP15 天然 RNA 靶標,以及所有可用的實驗確定的 RNA 3D 結構。
圖示:對 RhoFold+ 進行基準測試。(來源:論文)
RhoFold+ 在 CASP15 天然 RNA 靶標上顯示出最佳結果,并在 RNA-Puzzles 結構中實現了低于 4 ? 的平均均方根位移。RhoFold+ 效率高,只需 0.14 秒即可生成準確的預測,無需耗時的采樣或依賴專家知識。它可以很好地推廣到不同的數據集,包括新確定的 RNA 3D 結構,并在交叉折疊、跨家族和跨類型驗證實驗中表現出色,突出了其穩健性和多功能性。
RhoFold+ 的成功并非源于模仿訓練數據;對序列相似性和 MSA profiles 的嚴格測試證實了它學習底層結構原理的能力。此外,RhoFold+ 超越了訓練數據中最好的單個模板,進一步凸顯了它的能力。RhoFold+ 還可以預測 RNA 二級結構和螺旋間角(IHA),使其成為輔助實驗設計的潛在有用工具。
未來方向這些發現對更廣泛的 RNA 研究領域具有重要意義,特別是在加速對 RNA 結構的識別和功能理解方面。RhoFold+ 作為一種快速準確的 RNA 3D 結構預測方法,可能會增強基于 RNA 的藥物設計、合成生物學應用以及科學家對 RNA 在細胞過程中的作用的理解。此外,為 RhoFold+ 開發的 RNA 語言模型可以獨立應用,從而協助其他下游 RNA 應用 。
RhoFold+ 與深度學習方法有幾個共同的局限性。它依賴于 MSA,而 MSA 通常不適用于人工設計或 orphan RNA,從而限制了它的準確性。此外,由于相關數據稀缺,RhoFold+ 難以預測大型復雜的 RNA 結構,尤其是具有多個螺旋或假結的 RNA 結構。由于許多 RNA 采用多種構象,該模型在準確捕捉 RNA 分子的動態特性方面也面臨挑戰。
此外,RhoFold+ 難以模擬涉及配體或蛋白質的復合物中的 RNA 相互作用,而這對于理解 RNA 在生物系統中的功能作用至關重要。
下一步,將整合探測數據、分子動力學和能量函數方法等,以提高 RhoFold+ 的準確性。此外,增強 MSA 提取過程并探索預測 RNA-蛋白質和 RNA-配體相互作用的方法將進一步增強其能力。
參考內容:
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。