首頁 > AI資訊 > 最新資訊 > 預(yù)測(cè)精度媲美實(shí)驗(yàn)!哥大團(tuán)隊(duì)開發(fā)可解釋細(xì)胞「基礎(chǔ)」模型,揭示213種人類細(xì)胞調(diào)控語法

預(yù)測(cè)精度媲美實(shí)驗(yàn)!哥大團(tuán)隊(duì)開發(fā)可解釋細(xì)胞「基礎(chǔ)」模型,揭示213種人類細(xì)胞調(diào)控語法

新火種    2025-01-22

圖片

編輯 | 蘿卜皮

轉(zhuǎn)錄調(diào)控涉及調(diào)控序列和蛋白質(zhì)之間的復(fù)雜相互作用,指導(dǎo)所有生物過程。轉(zhuǎn)錄計(jì)算模型缺乏通用性,無法準(zhǔn)確推斷未知的細(xì)胞類型和條件。

哥倫比亞大學(xué)的研究人員介紹了 GET(general expression transformer),這是一種可解釋的基礎(chǔ)模型,旨在揭示 213 種人類胎兒和成人細(xì)胞類型的調(diào)控語法。

GET 完全依賴染色質(zhì)可及性數(shù)據(jù)和序列信息,即使在以前未見過的細(xì)胞類型中,也能達(dá)到實(shí)驗(yàn)級(jí)的準(zhǔn)確度,預(yù)測(cè)基因表達(dá)。

GET 還在新的測(cè)序平臺(tái)和檢測(cè)中表現(xiàn)出顯著的適應(yīng)性,能夠?qū)V泛的細(xì)胞類型和條件進(jìn)行調(diào)控推斷,并揭示通用和細(xì)胞類型特異性的轉(zhuǎn)錄因子相互作用網(wǎng)絡(luò)。

該研究以「A foundation model of transcription across human cell types」為題,于 2025 年 1 月 8 日發(fā)布在《Nature》。

圖片

「預(yù)測(cè)性可推廣的計(jì)算模型可以快速準(zhǔn)確地揭示生物過程。這些方法可以有效地進(jìn)行大規(guī)模計(jì)算實(shí)驗(yàn),促進(jìn)和指導(dǎo)傳統(tǒng)的實(shí)驗(yàn)方法。」系統(tǒng)生物學(xué)教授、論文的通訊作者 Raul Rabadan 說。

傳統(tǒng)的生物學(xué)研究方法擅長揭示細(xì)胞如何工作或如何對(duì)干擾作出反應(yīng)。但它們無法預(yù)測(cè)細(xì)胞如何工作或細(xì)胞如何對(duì)變化作出反應(yīng),例如致癌突變。

「能夠準(zhǔn)確預(yù)測(cè)細(xì)胞活動(dòng)將改變我們對(duì)基本生物過程的理解。」Rabadan 說,「它將使生物學(xué)從一門描述看似隨機(jī)的過程的科學(xué)轉(zhuǎn)變?yōu)橐婚T能夠預(yù)測(cè)控制細(xì)胞行為的根本系統(tǒng)的科學(xué)。」

「以前的模型都是針對(duì)特定細(xì)胞類型的數(shù)據(jù)進(jìn)行訓(xùn)練的,通常是癌細(xì)胞系或其他與正常細(xì)胞幾乎沒有相似之處的細(xì)胞。」Rabadan 說。

Rabadan 實(shí)驗(yàn)室的研究生 Xi Fu 決定采取不同的方法,利用從正常人體組織中獲得的數(shù)百萬個(gè)細(xì)胞的基因表達(dá)數(shù)據(jù)來訓(xùn)練機(jī)器學(xué)習(xí)模型。輸入包括基因組序列和顯示基因組哪些部分可訪問和表達(dá)的數(shù)據(jù)。

基于這些想法,他們研發(fā)了 GET,這是一種最先進(jìn)的基礎(chǔ)模型,專門設(shè)計(jì)用于解釋控制多種人類細(xì)胞類型的轉(zhuǎn)錄調(diào)控機(jī)制。通過整合染色質(zhì)可及性數(shù)據(jù)和基因組序列信息,GET 實(shí)現(xiàn)了與遺漏細(xì)胞類型中的實(shí)驗(yàn)重復(fù)相當(dāng)?shù)念A(yù)測(cè)精度水平。

總體方法與ChatGPT等流行的「基礎(chǔ)」模型的工作方式類似,使用一組訓(xùn)練數(shù)據(jù)來識(shí)別底層規(guī)則,即語言的語法,然后將這些推斷出的規(guī)則應(yīng)用于新情況。

「這里完全相同的事情:我們?cè)谠S多不同的細(xì)胞狀態(tài)下學(xué)習(xí)語法,然后我們進(jìn)入一種特定的狀態(tài) - 它可能是患病的[細(xì)胞類型],也可能是正常的細(xì)胞類型 - 我們可以嘗試看看我們?nèi)绾胃鶕?jù)這些信息預(yù)測(cè)模式。」Rabadan 說。

圖片

圖示:GET 模型及其應(yīng)用。(來源:論文)

GET 從 213 種人類胎兒和成人細(xì)胞類型的染色質(zhì)可及性數(shù)據(jù)中學(xué)習(xí)轉(zhuǎn)錄調(diào)控語法,并準(zhǔn)確預(yù)測(cè)可見和不可見細(xì)胞類型中的基因表達(dá)。

此外,GET 提供報(bào)告基因檢測(cè)讀數(shù)的零樣本預(yù)測(cè),在識(shí)別順式調(diào)控元件方面優(yōu)于以前最先進(jìn)的模型,并識(shí)別以前未知和已知的胎兒血紅蛋白上游調(diào)節(jié)劑。

圖片

圖示:GET 通知 TF–TF 交互發(fā)現(xiàn)。(來源:論文)

GET 還提供了豐富的細(xì)胞類型特異性調(diào)控見解:利用 GET 預(yù)測(cè)的共調(diào)節(jié)信息,研究人員精確定位了潛在的基序-基序相互作用,并構(gòu)建了人類 TF 和輔激活因子的結(jié)構(gòu)相互作用目錄。

目錄鏈接:https://huggingface.co/spaces/get-foundation/getdemo

利用此目錄,研究人員確定了涉及 PAX5 和核受體家族 TF 的淋巴細(xì)胞特異性 TF-TF 相互作用,并強(qiáng)調(diào)了白血病相關(guān)生殖系變異的可能疾病驅(qū)動(dòng)機(jī)制,該機(jī)制影響 PAX5 無序區(qū)域與核受體域的結(jié)合。

當(dāng)然 GET 還存在一些局限性。GET 目前的局限性包括主要依賴于染色質(zhì)可及性數(shù)據(jù)、有界分辨率來區(qū)分具有非常相似基序的 TF 同源物,以及僅對(duì)粗粒度細(xì)胞狀態(tài)和區(qū)域級(jí)序列信息進(jìn)行訓(xùn)練。

GET 未來的增強(qiáng)可能涉及整合多層生物信息,包括但不限于核苷酸水平的調(diào)節(jié)足跡、三維染色質(zhì)結(jié)構(gòu)以及調(diào)節(jié)表達(dá)譜或單細(xì)胞嵌入。

GET 的未來迭代可以整合更多患病、受干擾或經(jīng)過處理的細(xì)胞狀態(tài)和更廣泛的檢測(cè),包括直接測(cè)量 TF 結(jié)合、組蛋白修飾和 PolII 活性的檢測(cè),以提供對(duì)監(jiān)管格局的更全面的了解。

圖片

圖示:GET 識(shí)別受癌癥相關(guān)種系變異影響的細(xì)胞類型特異性 TF-TF 相互作用。(來源:論文)

多路復(fù)用核苷酸水平擾動(dòng)或隨機(jī)化將有助于校準(zhǔn) GET,以精確預(yù)測(cè)非編碼遺傳變異的功能影響。確定非編碼變異在調(diào)節(jié)基因表達(dá)和疾病易感性方面的影響仍然是一個(gè)重要的探索領(lǐng)域。

將基因組變異整合到 GET 框架中將使研究人員能夠更準(zhǔn)確地預(yù)測(cè)它們對(duì)基因調(diào)控的影響,從而深入了解復(fù)雜性狀和疾病的遺傳基礎(chǔ)。

此外,基因調(diào)控動(dòng)力學(xué)反映了轉(zhuǎn)錄活性在發(fā)育線索或環(huán)境刺激下的時(shí)間變化,這是可以整合到模型中的另一個(gè)復(fù)雜性維度。

借助團(tuán)隊(duì)高效的微調(diào)框架,使用預(yù)訓(xùn)練和微調(diào)的 GET 進(jìn)行比較解釋分析可用于識(shí)別驅(qū)動(dòng)細(xì)胞狀態(tài)變化的重要調(diào)節(jié)區(qū)域或基序。

基于 GET 構(gòu)建的生成模型可以開發(fā)并用于設(shè)計(jì)兆堿基級(jí)增強(qiáng)子陣列,并設(shè)計(jì)細(xì)胞類型特異性 TF 或其相互作用抑制劑,以進(jìn)行有針對(duì)性的治療干預(yù)。

總的來說,GET 代表了細(xì)胞類型特異性轉(zhuǎn)錄建模的一種先驅(qū)方法,在調(diào)節(jié)元件、上游調(diào)節(jié)劑和 TF 相互作用的識(shí)別方面具有廣泛的適用性。

論文鏈接:https://www.nature.com/articles/s41586-024-08391-z

相關(guān)報(bào)道:https://phys.org/news/2025-01-biologists-ai-cells.html

相關(guān)推薦
免責(zé)聲明
本文所包含的觀點(diǎn)僅代表作者個(gè)人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對(duì)本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險(xiǎn),讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前,請(qǐng)務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對(duì)因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。

熱門文章