擴散模型+深度學習雙劍合璧,生成式AI破解染色質構象

編輯丨&
人體內的每一個細胞都包含相同的基因序列,但每個細胞只表達這些基因的一個方面。這些細胞特異性基因表達模式確保腦細胞與皮膚細胞不同,部分由染色質的三維結構決定,遺傳物質控制著每個基因的可及性。
高通量測序和成像技術的最新進展大大提高了如今研究單個細胞基因組組織的能力。然而,現有方法通常費力且耗時,阻礙了對不同細胞環境中染色質構象變異性的全面分析。
麻省理工學院的化學家們現在想出了一種使用生成式人工智能來確定這些 3D 基因組結構的新方法。他們的技術可以在幾分鐘內預測數千個結構,這比現有的結構分析實驗方法要快得多。
他們的研究以「ChromoGen: Diffusion model predicts single-cell chromatin conformations」為題,于 2025 年 1 月 31 日發布在《Science Advances》。

「我們的目標是嘗試從潛在的 DNA 序列中預測三維基因組結構,」化學副教授、該研究的資深作者Bin Zhang說。「現在我們可以做到這些,這使得它可以與尖端的實驗技術相提并論,并開辟很多有趣的機會。」
ChromoGen
了解基因組的三維 (3D) 組織對于揭示其功能復雜性和在基因調控中的作用至關重要。多年來,分子生物學技術的進步為基因組構象提供了寶貴的見解。這些見解揭示了染色質結構如何促進基因周圍空間環境的建立,有助于在適當的時間募集適當的分子來協調轉錄。
最近,深度學習技術為直接從測序數據預測單細胞染色質構象提供了有潛力的研究方向。與序列特征和群體平均值之間相對簡單的映射不同,序列特征映射到單個 3D 結構本質上是隨機的。因此,預測單個染色質結構需要一個固有的隨機模型來理解和再現這種異質性。
為了在捕獲其異質性的同時預測單細胞染色質結構,團隊引入了 ChromoGen,它是一種擴散模型,已被證明在文本到圖像應用以及預測配體和蛋白質分子的 3D 坐標方面具有很強的能力。

微調的 EPCOT 模型將 DNA 序列和脫氧核糖核酸酶序列(DNase-seq)數據轉換為信息豐富的低維數字嵌入。接下來,由微調模型創建的嵌入使用無分類器指導的去噪擴散概率模型(DDPM)對采樣的分布進行條件處理。
此外,距離圖自然不受 3D 構象的旋轉和平移的影響,許多神經網絡架構都難以理解,并且距離圖可以按照材料和方法中概述的過程輕松轉換為笛卡爾坐標。
為了研究通用區域非特異性系綜的特性,團隊通過組合來自更廣泛數據集中每個區域的 200 個生成的結構來近似一個通用集成,并計算了由各種序列長度分隔的基因座之間空間距離的概率分布。

與先前對單個接觸對的分析相比,這種方法允許對染色質構象進行更全面的比較。使用生成的構象支持 ChromoGen 產生高度復雜結構的能力,這些結構涵蓋廣泛的構象和結構基序。
更多更準確的應用測試
驗證了生成的構象的通用物理特性后,他們接下來研究了 ChromoGen 捕獲具有生物學意義的結構特征的能力。在所有情況下,生成的中位距離圖捕獲了群體中可見的關鍵結構特征。同樣,生成的單個結構與它們從 Dip-C 衍生的對應結構非常相似。
為了定量評估生成結構和實驗結構之間的一致性,團隊對預測數據集所包含的整個基因組區域進行了多次分析。結果顯示使用生成的和 Dip-C 構象計算的中位距離圖始終具有強相關性。
而在跨細胞類型的預測上,以前的模型已經成功地使用染色質可及性數據來預測不同細胞類型之間群體平均染色質組織模式的差異。所以預計提供給 ChromoGen 的數據應該允許它預測具有細胞類型特異性的構象集合。

盡管顯微鏡成像顯示,去除黏連蛋白的細胞在群體中位距離圖中并未出現,但它們的確存在。正如成像和理論研究所表明的那樣,它們還與染色質組織到單個細胞內包裝結構域的新興模型一致。
功能總結
ChromoGen,一種有效生成區域和細胞類型特異性染色質構象的智能框架。ChromoGen 產生的構象再現了群體 Hi-C 實驗中揭示的各種結構特征以及在單細胞數據集中觀察到的異質性。
經過訓練后,該模型可以在比 Hi-C 或其他實驗技術更快的時間尺度上生成預測。其可以在 20 分鐘內在一個 GPU 上生成特定區域的一千個結構。
研究人員還發現,該模型可以準確預測來自其訓練所針對的細胞類型以外的細胞類型的數據。這表明它可能有助于分析不同細胞類型的染色質結構如何不同,以及這些差異如何影響它們的功能。該模型還可用于探索單個細胞中可能存在的不同染色質狀態,以及這些變化如何影響基因表達。
研究員表示,他希望他們可以通過這份模型來解決很多有趣的問題,譬如探索特定 DNA 序列中的突變如何改變染色質構象。
論文鏈接:https://www.science.org/doi/10.1126/sciadv.adr8265
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。