登Nature,AI設計DNA開關,MIT團隊實現精確的細胞控制

編輯 | 蘿卜皮
近年來,基因編輯技術以及各種基因治療方法使科學家能夠改變活細胞內的基因。然而,只影響特定細胞類型或組織中的基因,而不是影響整個生物體的基因,一直很困難。部分原因是人們對控制基因表達和抑制的 DNA 開關 [即順式調控元件 (CRE)] 的理解仍面臨挑戰。
杰克遜實驗室(JAX,The Jackson Laboratory)、麻省理工學院(MIT)和哈佛大學布羅德研究所以及耶魯大學的研究人員利用人工智能設計了數千個新的 DNA 開關,可以精確控制基因在不同細胞類型中的表達。他們的新方法開啟了控制基因在體內何時何地表達的可能性,以前所未有的方式造福人類健康和醫學研究。
「這些合成設計的元素的特別之處在于,它們對其設計的目標細胞類型表現出了顯著的特異性?!菇芸诉d實驗室副教授兼論文共同通訊作者 Ryan Tewhey 博士說,「這為我們創造了機會,讓我們可以在不影響身體其他部位的情況下,僅在一種組織中提高或降低基因的表達?!?/p>
該研究以「Machine-guided design of cell-type-targeting cis-regulatory elements」為題,于 2024 年 10 月 23 日發布在《Nature》。
論文鏈接:https://www.nature.com/articles/s41586-024-08070-z
順式調控元件 (CRE) 控制基因表達,協調組織身份、發育時間和刺激反應,這些共同決定了體內數千種獨特的細胞類型。雖然在需要組織特異性的治療或生物技術應用中戰略性地整合 CRE 具有巨大潛力,但不能保證自然產生出適合這些預期目的的最佳 CRE。
科學家們知道,人類基因組中有數千種不同的 CRE,每種都發揮著略有不同的作用。但 CRE 的語法一直很難弄清楚,「沒有簡單的規則來控制每個 CRE 的作用。」JAX Tewhey 實驗室的計算科學家,論文的第一作者之一 Rodrigo Castro 博士解釋說,「這限制了我們設計僅影響人體某些細胞類型的基因療法的能力?!?/p>
「如果我們從語言的角度來思考,這些元素的語法和句法就很難理解。因此,我們嘗試構建機器學習方法,以便學習比我們自己能學習的更復雜的代碼?!?/p>
人工智能來設計 CRE
Castro所在的聯合研究團隊創建了 Malinois,這是一個深度卷積神經網絡(CNN),用于預測任何序列的細胞類型相關信息 CRE 活性(通過 MPRA 測量)。
在此基礎上,研究團隊提出了一種從頭設計新型合成 CRE 的方法 CODA,該 CRE 能夠在三種轉化細胞系中驅動細胞類型特異性轉基因表達。
「該項目本質上提出了一個問題:『我們能否學會讀取和編寫這些調控元件的代碼?』」耶魯大學遺傳學助理教授、該研究的通訊作者之一 Steven Reilly 博士說。
圖示:CODA 有效地設計了特定于細胞類型的 CRE。(來源:論文)
研究人員通過整合之前在跨細胞類型建模調控語法、高效序列空間搜索和可并行驗證數千個 CRE 的 MPRA 實驗系統方面的創新來實現這一目標。
研究人員使用了最近生成的統一處理的 MPRA 實驗數據庫,該數據庫表征了前所未有的數量的 CRE,以訓練精確的深度學習模型,該模型可以快速預測任何序列的活動。
「天然的 CRE 雖然數量眾多,但只代表了可能的遺傳元素的一小部分,而且它們的功能受到自然選擇的限制?!乖撗芯康墓餐谝蛔髡?、Sabeti 實驗室的博士后研究員 Sager Gosai 博士說,「這些人工智能工具在設計基因開關方面具有巨大潛力,可以精確調整基因表達,以實現生物制造和治療等超出進化壓力范圍的新應用?!?/p>
三種細胞系中測試
結合序列生成算法,研究人員部署他們的模型在三種細胞系中生成具有程序特異性的數千種合成 CRE,并使用 MPRA 在體外對其進行功能驗證,并通過探測小鼠和斑馬魚的生理相關組織在體內對其進行功能驗證。
在轉化細胞系中檢測的報告系統中,CODA 設計的合成序列在驅動細胞類型特異性基因表達方面確實優于天然序列。研究人員表明,CODA 可以識別出通常表現優于天然序列的合成序列,其效率遠高于隨機搜索,但無法確定全局最優值。
CODA 設計的合成 CRE 通過以獨特的組合部署靶向激活和脫靶抑制 TF 來實現更高的特異性,而這種組合在人類基因組中并不常見。這說明該模型已經學習了控制 CRE 的基本規則的一部分,并且能夠將這些知識推廣到很少觀察到的 TF 組合。
使用 Malinois(CRE 轉錄輸出的直接模型),該團隊能夠識別具有中等細胞類型特異性活性的基因組序列,盡管程度低于合成序列。
圖示:解釋功能序列內容。(來源:論文)
需要注意的是,在該研究的轉化細胞系中,在識別基因組中能夠進行細胞類型特異性報告基因表達的序列方面,Malinois 比傳統的 CRE 活性標記(如 DNase 和 H3K27ac)更熟練。這強調了在生成用于訓練高性能模型的庫時,需要仔細考慮通常研究的候選 CRE 之外的序列。
體內評估
該團隊在體外建模、生成和測試特定于單個轉化細胞系的序列方面的高成功率,促使他們決定將評估這種活性如何擴展到體內復雜組織。盡管存在組織類型不完全保守、異時性和譜系特異性調控語法的潛在挑戰,但他們的 CRE 在斑馬魚和小鼠中表現出保守的組織水平跨物種活性。
圖示:合成元素的體內驗證。(來源:論文)
這些發現表明,體外開發的具有新功能的 CRE 可以在體內類似組織中保持特異性。研究人員通過單一轉化的 SK-N-SH 細胞系設計的神經元 synN1 CRE 在小鼠中表現出高度特異性的皮層下表達。
「合成的 CRE 在語義上與天然元素相差甚遠,因此對其有效性的預測似乎難以置信?!笹osai 說道,「我們最初預計許多序列會在活細胞內出現異常。」
但事實是「CODA 在設計這些元素方面表現得如此出色,這讓我們感到非常驚喜?!笴astro 說。
局限性與展望
接下來,需要進一步研究以制定最佳策略,將體外模型轉化為體內精確靶向。將人類細胞系與全生物實驗模型相結合的綜合框架可能是快速識別能夠在人類中實現新功能的 CRE 的有效方法。
轉基因應用(例如需要組織、細胞類型或患病細胞狀態特異性的基因療法)可能會受益于具有可編程功能的合成 CRE 的設計和驗證。在具有更高臨床相關性的其他細胞類型中對 MPRA 模型進行訓練可以使 CODA 更好地設計具有針對治療應用量身定制的特異性的 CRE。
隨著序列到功能模型的基礎技術不斷發展,研究人員認為合成元件設計將變得更加可靠,并減少體外和體內驗證的實驗負擔。
該團隊表示,該平臺的設計可靈活適應任何目標函數。通過在未來將替代實驗平臺和模型與 CODA 相結合,研究者可以探索合成 CRE 的廣闊前景,以實現進化可能未優化的目標,包括藥物反應性(例如對糖皮質激素的反應性)、微調表達輸出或響應癌細胞特有的復雜語法。
Tewhey 表示:「這項技術為編寫具有預定義功能的新調控元件鋪平了道路。此類工具不僅對基礎研究很有價值,而且可能具有重要的生物醫學意義,你可以使用這些元件來控制特定細胞類型中的基因表達,以達到治療目的。」
相關內容:https://phys.org/news/2024-10-ai-dna-flip-genes-precise.html
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。