深度學習算法設計CRE,機器學習引領細胞特異性反式調控元件設計,臨床應用的新紀元
轉自:生物谷
文章解讀+創新點拓展,為您帶來科研新體驗~
導讀
在生物醫學研究中,細胞特異性反式調控元件(cell-type-specific cis-regulatory element, CRE)的設計是一個熱門研究領域。最近發表于《Nature》的一項研究《Machine-guided design of cell-type-targeting cis-regulatory elements》,利用機器學習模型指導合成具有高度細胞類型特異性的CRE,為精準醫療提供了全新的工具。這項技術不僅有望解決現有基因治療中靶向遞送不足的問題,還可能為基因編輯、報告基因開發等提供新的解決方案。
研究背景
基因表達是一個復雜的過程,受到多種因素的調控,其中CRE扮演著關鍵角色。這些DNA序列通過與特定轉錄因子結合來調節目標基因的活性。盡管近年來的研究已經鑒定了數百萬個潛在的人類CRE,但這些自然進化的序列僅僅是所有可能性的一小部分,并不一定符合臨床應用中的最佳表達需求。理論上,一段200堿基對的DNA可以包含超過2.58×10120種不同的組合——比可觀測宇宙中的原子數量還要多。這些DNA序列組成了一個尚未被充分發掘的DNA序列空間,也是挖掘具有臨床和生物技術應用潛力的CRE的儲備庫。
研究設計與結果
為了克服傳統方法在識別和驗證CRE時遇到的挑戰,Gosai團隊引入了三項關鍵技術:
1)大規模平行報告基因檢測(Massively Parallel Reporter Assay,MPRA):能夠同時評估成千上萬個CRE的功能,從而獲得關于調節語法(regulatory grammar)的廣泛認識。
2)深度學習算法(Malinois):用于預測不同細胞類型中遺傳序列如何影響CRE活性,構建出精確的“調控語法”模型。
3)基于預測模型的定向CRE生成(CODA):基于上述CRE序列評分算法,對隨機序列進行迭代,允許研究人員根據所需功能和特定細胞定制合成CRE。
實驗結果顯示,使用這些合成的CRE可以在斑馬魚和小鼠中實現細胞類型特異性的驅動效能。此外,該研究也展示了如何利用CODA軟件庫及Malinois模型來生產合成序列,并通過體外和體內實驗驗證了其效能。

為了建立精確的CRE活性模型,研究人員首先在K562(紅系前體細胞)、HepG2(肝細胞)和SK-N-SH(神經母細胞瘤)三種人類細胞類型中通過MPRA分別分析了超過77萬段200 nt長的DNA序列,篩選具有細胞特異性CRE活性的基因組序列信息(圖1a)。
使用這些數據,研究人員借鑒了Basset模型(一個用于預測染色質可及性的模型),構建了基于卷積神經網絡(Convolutional Neural Network,CNN)的深度學習模型Malonis(圖1b)用以預測DNA序列的細胞特異性CRE活性。Malonis在K562、HepG2和SK-N-SH細胞中的預測值與實際測量值之間顯示出高度相關性(Pearson’s r=0.88–0.89;Spearman’s ρ=0.81?0.83;P < 10-300;圖1c)。這意味著Malonis不僅能夠很好地擬合已知數據,而且還能準確預測新序列的CRE活性。
Malinois預測重現了MPRA篩選的重疊片段,這些片段來自以GATA1基因為中心的2.1 Mb窗口(圖1d)。此外,在K562細胞中,Malonis預測的CRE區域與DNaseI超敏感位點(DHS)、H3K27乙酰化(H3K27ac)和STARR-seq峰均有很好的一致性(圖1e)。這些結果說明Malonis具有良好的CRE活性預測功能。

接著,研究人員又設計了一個名為CODA的模型,用以從頭設計新CRE序列。CODA遵循一個迭代循環:預測序列的活性(通過上文提到的Malonis)、量化序列是否符合設計目標,并更新序列以增加目標值(圖2a)。設計目標是獲得在模型細胞系中驅動特定細胞類型報告基因轉錄的CRE序列。通過計算序列在目標細胞類型中預測MPRA活性值與兩個非目標細胞類型中預測MPRA活性最大值之間的最小差距(MinGap)來衡量成功程度。迭代方法則分別嘗試了進化式的AdaLead、基于概率的模擬退火以及基于梯度的Fast SeqProp。
通過使用不同迭代方法的CODA,研究人員設計了36000個細胞特異性CRE序列,卻發現CODA對某些最大化細胞特異性的特定序列具有偏好性。為此,研究人員通過在目標函數中引入懲罰機制來減少這種偏好性的產生,盡管這會犧牲細胞特異性,但極大豐富了序列的多樣性。
通過MPRA,對Malonis預測的天然CRE序列、CODA設計(懲罰/非懲罰)的CRE序列以及基于DHS(結合H3K9ac和染色質可及性)預測的天然CRE序列(統稱為MPRA測試庫)的活性進行驗證,進一步證明了Malonis的CRE活性預測能力(圖2b&c)。并且Malonis對CRE細胞特異性的預測能力顯著強于基于DHS的預測(圖2d&e)。
此外,CODA設計的CRE序列對比天然序列展現出更高的細胞特異性(圖2d&e)。并且,基于Fast SeqProp的CODA方法所設計的CRE序列具有更好的穩定性和更高的MinGap。而懲罰模式會降低設計序列的細胞特異性但仍顯著優于天然CRE序列(圖2d&e)。

為了將序列內容與對應的轉錄因子(TF)聯系起來,研究人員通過Malinois和改良的集成梯度方法,分別預測每個序列在三種細胞類型中單核苷酸分辨率的活性貢獻分數(contribution score),并基于貢獻分數篩選出66種DNA基序(motif)序列模式。
然后通過TF-MoDISco方法,從中提取出在MPRA測試庫中富集的36種非冗余的核心基序模式(7-18 bp),其中31種與已知的人類TF結合位點高度吻合。在36個核心基序中,28個對序列活性具有陽性預測貢獻,而其余8個具有抑制作用(圖3b)。這包括眾所周知的激活因子,如GATA63,GATA63是在K562細胞中表達的必需TF, Malinois預測其僅在K562細胞中驅動活性。
使用貢獻分數為基礎的模式掃描,發現所有36個核心基序模式在算法設計和天然序列中都至少出現一次,表明這兩種類型的序列共享TF庫(圖3b)。詞法分析表明,算法設計序列通常包含更多的獨特基序模式以及模式類型數,而懲罰性設計則顯示出比非懲罰性設計更高的非冗余基序使用。
此外,合成序列中特定的基序組合使用頻率更高(圖3c),大多數非懲罰性和Malinois天然序列中都存在不同的激活-激活基序對(95.7%和93.4%),而激活-抑制和抑制-抑制基序對在天然序列中出現的比例較低。
除了單個TF基序和成對的使用外,細胞類型特異性還被認為通過更高階的基序語義產生。這些基序語義可以介導許多轉錄因子之間的復雜相互作用,并賦予CRE活性。研究人員采用非負矩陣分解(NMF)將序列庫中每一條序列分解由12種功能程序組成的基序組合。NMF鑒定出5種細胞特異性的程序,1種出現于K562細胞,2種出現于HepG2細胞,2種出現于SK-N-SH細胞中(圖3d)。
與天然的CRE相比,算法設計的CRE包含更多程序,這與較多的基序使用一致。此外,自然序列主要依賴激活程序,而合成序列也經常使用非目標細胞類型中具有抑制作用的程序。這些結果提示,算法設計序列性能的提高是由于細胞特異性激活和非目標細胞特異性抑制基序的結合。

為了CODA序列在更多細胞類型中的特異性,研究人員針對A549細胞(肺上皮癌細胞)和HCT116(結直腸上皮癌細胞)也進行了訓練,依舊發現CODA設計序列在特定細胞類型中展現出最高的預測活性。
接著,研究人員嘗試在體內驗證這種CODA設計序列的特異性。他們首先通過Enformer篩選計算了人工序列的表觀調控能力,并證明組織特異性的Enformer評分與MPRA驗證的細胞特異性CRE活性相關。接著,基于MPRA實驗結果、Malinois貢獻分數、Enformer評分以及基序構成的人工檢查,研究人員篩選出3個HepG2細胞和3個SK-N-SH細胞特異性的CRE,并認為他們可能分別具有肝臟和神經組織特異性(圖4a)。
然后,他們構建了一個報告基因質粒,在驅動GFP表達的最小啟動子上游插入了人工合成序列,并導入斑馬魚胚胎,發現三個預測肝臟特異性CRE中的兩個能夠誘導GFP在斑馬魚胚胎發育過程中肝細胞的強烈表達,而在非目標細胞中僅有較低的非特異性表達(圖4b),神經特異性CRE也展現出類似的結果(圖4c)。
在小鼠胚胎上的進一步驗證,發現神經特異性的CRE(synN1 CRE)能夠驅動報告基因在發育的皮層中表達,而這種皮層特異性的表達在出生后的小鼠中也存在(圖4d),主要是新皮質第6層的神經元和板下神經元(圖4e-g)。
基于Malinois貢獻分數,在synN1 CRE中發現一個ETS GGA (A/T) 結合域和四個CREB樣TGACGCA結合域,提示ETS因子與CREB形成異源二聚體的可能性,而在SK-N-SH細胞上的飽和突變MPRA研究驗證了ETS和CREB結合區域的作用。
拓展延伸
人工設計CRE具有廣泛的應用前景。
● 個性化醫療與精準醫學
1.基因治療和藥物開發
合成CRE的應用可以直接改善現有基因療法中存在的主要障礙之一——即缺乏有效的細胞類型特異性遞送機制。通過創建高度組織特異性的合成CRE,我們可以更好地控制治療性基因的表達模式,減少脫靶效應的風險,提高療效的同時降低副作用的發生幾率。這對于治療那些由單基因突變引起的罕見病尤其重要,因為這類疾病往往需要非常精確地修復或替換受影響的基因。此外,借助機器學習的力量,我們還可以針對不同類型的癌癥細胞設計專門的CRE,使其僅在腫瘤細胞內激活特定的治療性基因,而不影響正常細胞。這種策略不僅可以增強抗癌藥物的效果,還能顯著減少傳統化療所帶來的全身性毒性反應。
2.疾病模型構建
利用合成CRE可以更精細地模擬人類疾病中的基因表達變化,從而建立更加真實的動物模型。例如,在神經系統疾病的研究中,科學家們可以使用這些工具來驅動神經元特異性基因的表達,以研究帕金森病、阿爾茨海默病等復雜病癥背后的分子機制。同樣地,在心血管疾病領域,合成CRE可以幫助研究人員探索心臟發育過程中關鍵信號通路的作用,進而找到新的治療方法。
基礎生物學研究
3.發育生物學
在發育生物學中,理解細胞命運決定過程是核心問題之一。合成CRE使得科學家能夠以前所未有的精度操縱特定細胞群體中的基因表達,揭示出哪些因子在胚胎形成早期階段起著決定性作用。比如,通過在斑馬魚胚胎中引入合成CRE,研究者可以觀察到不同器官原基形成時的關鍵事件,深入了解多能干細胞向各種成熟細胞類型分化的過程。
4.進化生物學
從進化的角度來看,合成CRE提供了一個全新的視角去探討物種間基因調控網絡的變化。由于這些序列不是自然界存在的產物,而是基于對已知調控語法的理解人工設計出來的,因此它們可以作為“實驗探針”,幫助我們檢驗關于遺傳變異如何塑造生物多樣性的假設。例如,比較兩種親緣關系較近但表型差異明顯的物種之間的合成CRE活性,可能有助于識別出導致二者分化的關鍵調控變化。
● 農業與環境科學
1.作物改良
農業領域同樣可以從這項新技術中受益匪淺。通過設計能夠響應環境信號(如光照強度、水分含量等)的合成CRE,科學家們可以培育出適應性強的新品種植物。這些改良后的農作物不僅能在惡劣條件下保持產量穩定,還可能具備更好的營養品質或抗病蟲害能力。例如,合成光敏型CRE可以讓作物在低光照環境下依然維持高效的光合作用;而干旱耐受型CRE則可以使植物在缺水期間關閉不必要的代謝活動,節省資源。
2.生態工程
合成生物學原理也被應用于構建人工生態系統,其中合成CRE扮演著至關重要的角色。例如,在污水處理廠中,工程師可以利用合成微生物群落來降解有害物質。為了確保這些有益菌能夠在特定條件下發揮最佳性能,科學家們可以通過合成CRE精確調節其基因表達水平,保證整個系統的高效運行。類似的方法也可以用于土壤修復、空氣凈化等多個方面,促進可持續發展。
臨床應用與展望
對于臨床醫生而言,這項新技術帶來的最大益處在于它有可能改善目前基因療法中存在的主要障礙之一——即缺乏有效的細胞類型特異性遞送和表達機制。通過創建高度組織特異性的合成CRE,我們可以更好地控制治療性基因的表達模式,減少脫靶效應的風險,提高療效的同時降低副作用的發生幾率。這對于治療那些由單基因突變引起的罕見病尤其重要,因為這類疾病往往需要非常精確地修復或替換受影響的基因。
總之,Sager J. Gosai及其同事的工作標志著我們正站在一個新時代的門檻上,在這個時代里,借助先進的人工智能技術和生物學知識,我們將能夠書寫出前所未有的生命密碼,為人類健康事業開辟新天地。
注:本文旨在介紹醫學研究進展,不做治療方案推薦。如有需要,請咨詢專業臨床醫生。
參考文獻
Gosai SJ, Castro RI, Fuentes N, Butts JC, Mouri K, Alasoadura M, Kales S, Nguyen TTL, Noche RR, Rao AS, Joy MT, Sabeti PC, Reilly SK, Tewhey R. Machine-guided design of cell-type-targeting cis-regulatory elements.Nature.2024 Oct;634(8036):1211-1220.
(轉自:生物谷)
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。