首頁 > AI資訊 > 最新資訊 > 中國科學(xué)院團(tuán)隊(duì)發(fā)布GeneCompass:解析基因調(diào)控密碼,打造干濕融合新范式

中國科學(xué)院團(tuán)隊(duì)發(fā)布GeneCompass:解析基因調(diào)控密碼,打造干濕融合新范式

新火種    2024-11-16
圖片

作者 | 中國科學(xué)院多學(xué)科交叉研究團(tuán)隊(duì)

編輯| ScienceAI

近年來,大語言模型(LLMs)已在自然語言、計(jì)算機(jī)視覺等通用領(lǐng)域引發(fā)了新一輪技術(shù)革命,通過大規(guī)模語料和模型參數(shù)進(jìn)行預(yù)訓(xùn)練,LLMs能夠掌握語言的共性規(guī)律,能夠?qū)Χ喾N下游任務(wù)產(chǎn)生質(zhì)的提升,已經(jīng)形成了新的人工智能范式。

在生命科學(xué)領(lǐng)域,單細(xì)胞組學(xué)技術(shù)的突破產(chǎn)生了大量不同物種細(xì)胞的基因表達(dá)譜數(shù)據(jù),形成了海量的生命「語料」。如果把基因表達(dá)值看作單詞,組合在一起構(gòu)成細(xì)胞「句子」,進(jìn)而形成組織「段落」和器官「文章」,并將不同物種作為生命「語種」,利用LLMs相關(guān)技術(shù)有望構(gòu)建系統(tǒng)精準(zhǔn)破解基因密碼的生命基礎(chǔ)大模型,探索生命普遍存在的非線性基因調(diào)控機(jī)制,增進(jìn)理解生命底層共性規(guī)律并創(chuàng)新各種重大疾病的診療手段。

對此,中國科學(xué)院多個院所(包括中國科學(xué)院動物研究所、中國科學(xué)院計(jì)算技術(shù)研究所、中國科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心、中國科學(xué)院自動化研究所、中國科學(xué)院數(shù)學(xué)與系統(tǒng)科學(xué)研究院等)組成多學(xué)科交叉研究團(tuán)隊(duì)「指南針聯(lián)盟」(Xcompass Consortium),在生命科學(xué)人工智能(AI for Life Science)研究方面取得了重要突破,于2024年10月在Cell Research上發(fā)表了《GeneCompass: Deciphering Universal Gene Regulatory Mechanisms with a Knowledge-Informed Cross-Species Foundation Model》的研究論文。

圖片

論文鏈接:https://www.nature.com/articles/s41422-024-01034-y

論文介紹了世界首個知識與數(shù)據(jù)聯(lián)合驅(qū)動的多物種生命基礎(chǔ)大模型GeneCompass,同時處理了人類和小鼠兩個物種的轉(zhuǎn)錄組數(shù)據(jù),包含了超過1.26億個單細(xì)胞并覆蓋3.6萬個基因,融合了啟動子序列、基因共表達(dá)關(guān)系、基因家族標(biāo)注和基因調(diào)控關(guān)系等四種先驗(yàn)知識,基礎(chǔ)大模型參數(shù)量達(dá)到1.3億,實(shí)現(xiàn)了對基因表達(dá)調(diào)控規(guī)律的全景式學(xué)習(xí)理解,同時支持細(xì)胞狀態(tài)變化預(yù)測及多種生命過程的精準(zhǔn)分析,展示了人工智能賦能生命科學(xué)研究的巨大潛力。

數(shù)據(jù)集:多物種單細(xì)胞數(shù)據(jù)集

目前,全世界范圍內(nèi)在單一物種上已獲得的單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)規(guī)模為千萬級別,研究團(tuán)隊(duì)從美國(NCBI)、歐洲(EMBL-EBI)和中國(CNCB)等公開數(shù)據(jù)中收集了不同物種的單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù),人類和小鼠的同源基因采用相同的Ensembl ID表示,非同源基因則采用各自的Ensembl ID。經(jīng)過篩選、清洗、均一化等預(yù)處理流程,建立了已知最大規(guī)模、包含人類和小鼠的超過1.26億細(xì)胞、覆蓋兩個物種3.6萬個基因、幾乎全部已知細(xì)胞類型的高質(zhì)量數(shù)據(jù)集scCompass-126M。

圖片

圖示:研究人員收集了1.26億人類和小鼠的單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)。

圖片

圖示:研究涉及人類和小鼠共3.6萬個基因。

模型架構(gòu):知識嵌入的生命基礎(chǔ)大模型GeneCompass

研究人員開發(fā)的GeneCompass模型參數(shù)量超過1.3億,是國際上首個融入先驗(yàn)知識的預(yù)訓(xùn)練基礎(chǔ)大模型,探索了知識與數(shù)據(jù)聯(lián)合驅(qū)動的新范式。GeneCompass采用gene2vec、DNABert等工具將啟動子序列、已知基因調(diào)控網(wǎng)絡(luò)、基因家族信息和基因共表達(dá)關(guān)系四種生物學(xué)先驗(yàn)知識進(jìn)行編碼,在單細(xì)胞轉(zhuǎn)錄組的基因ID和表達(dá)值基礎(chǔ)上加入人類注釋信息編碼,提高了對生物數(shù)據(jù)間復(fù)雜特征關(guān)聯(lián)關(guān)系的理解。通過訓(xùn)練整合不同物種的數(shù)據(jù)信息及先驗(yàn)知識,GeneCompass顯著提升了多種下游任務(wù)的性能,有望進(jìn)一步提高傳統(tǒng)生物學(xué)研究的效率和精準(zhǔn)性,為尚無法突破的復(fù)雜生命科學(xué)難題帶來新的切入點(diǎn)。

圖片

圖示:GeneCompass融入四種生物學(xué)先驗(yàn)知識

圖片

圖示:GeneCompass顯著提升多種下游任務(wù)的性能。

GeneCompass采用基于Transformer的深度學(xué)習(xí)架構(gòu),擴(kuò)展傳統(tǒng)的掩碼語言模型Masked Auto Encoder(MAE)方式進(jìn)行預(yù)訓(xùn)練,根據(jù)單細(xì)胞轉(zhuǎn)錄組的上下文同時預(yù)測掩碼的基因及其基因表達(dá),捕獲不同基因之間在不同細(xì)胞背景下的長程動態(tài)關(guān)聯(lián),通過多任務(wù)聯(lián)合預(yù)訓(xùn)練形成更加細(xì)粒度的生命基礎(chǔ)大模型。預(yù)訓(xùn)練完成后,GeneCompass進(jìn)一步應(yīng)用于多種下游任務(wù),用于對單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)進(jìn)行編碼,支撐細(xì)胞類型標(biāo)注、基因擾動預(yù)測、藥物反應(yīng)預(yù)測和基因調(diào)控關(guān)系預(yù)測等任務(wù)。

圖片

圖示:GeneCompass模型架構(gòu)。

規(guī)模效應(yīng):多物種聯(lián)合訓(xùn)練捕獲生物進(jìn)化保守規(guī)律

研究人員發(fā)現(xiàn)對大規(guī)模跨物種數(shù)據(jù)所獲得的預(yù)訓(xùn)練模型對于單物種的子任務(wù)符合尺度定律(scaling law):即較大規(guī)模的多物種預(yù)訓(xùn)練數(shù)據(jù)量較單一物種數(shù)據(jù)量產(chǎn)生更優(yōu)異的預(yù)訓(xùn)練表征,并進(jìn)一步提高下游任務(wù)的性能。這一發(fā)現(xiàn)顯示了物種間存在保守的基因調(diào)控規(guī)律,并且這些規(guī)律能夠被預(yù)訓(xùn)練模型學(xué)習(xí)理解。這同時預(yù)示著隨物種和數(shù)據(jù)的擴(kuò)展,模型性能有望不斷提升。

圖片

圖示:增加跨物種數(shù)據(jù)規(guī)模可提升模型性能。

研究結(jié)果:GeneCompass具有跨物種表征能力

研究人員對人類和小鼠同一細(xì)胞類型(心肌細(xì)胞)中同源基因和非同源基因的GeneCompass編碼進(jìn)行了相似性分析,可以看出相較于非同源基因,不同物種的同源基因具有更相似的編碼,同源基因在人類和小鼠之間也具有相似的基因調(diào)控關(guān)系。

圖片

圖示:不同物種的同源基因具有更相似的GeneCompass編碼。

圖片

圖示:人類和小鼠心肌細(xì)胞中GATA4基因具有相似的調(diào)控關(guān)系。

研究人員將GeneCompass編碼后的基因嵌入與跨物種細(xì)胞類型標(biāo)注的SOTA方法CAME進(jìn)行結(jié)合,發(fā)現(xiàn)在多種細(xì)胞尤其是視網(wǎng)膜細(xì)胞中,GeneCompass能夠顯著提升跨物種細(xì)胞類型標(biāo)注的精度。這些結(jié)果都展示了GeneCompass通過多物種聯(lián)合預(yù)訓(xùn)練獲得了生命底層的共性規(guī)律,增強(qiáng)了基因表征的能力。

圖片

圖示:跨物種細(xì)胞類型標(biāo)注。

下游任務(wù):基因擾動預(yù)測任務(wù)

研究人員利用GeneCompass編碼的基因嵌入來預(yù)測由基因擾動所導(dǎo)致的全局基因表達(dá)變化,將其與現(xiàn)有工作GEARS結(jié)合起來,替換了原始從共表達(dá)知識圖譜中學(xué)習(xí)到的基因嵌入。在前20個差異表達(dá)基因(DEG)的均方誤差(MSE)平均降低了15.4%,使單基因擾動的偏差減少了5.9%,雙基因擾動的偏差減少了12.5%。下圖展示了雙基因擾動TGFBR2+PRTG前20個基因表達(dá)變化, GeneCompass 的17/20 DEG預(yù)測結(jié)果比GEARS 的預(yù)測結(jié)果更準(zhǔn)確。

圖片

下游任務(wù):藥物反應(yīng)預(yù)測、基因調(diào)控預(yù)測、藥物劑量反應(yīng)預(yù)測、基因表達(dá)譜預(yù)測

GeneCompass作為生命基礎(chǔ)大模型,支持直接使用(zero-shot)和微調(diào)(fine-tune)兩種模式。基于此,研究人員在藥物反應(yīng)預(yù)測、基因調(diào)控預(yù)測、藥物劑量反應(yīng)預(yù)測、基因表達(dá)譜預(yù)測等多種下游任務(wù)上進(jìn)行了充分實(shí)驗(yàn),驗(yàn)證了GeneCompass在不同任務(wù)中的適配性。實(shí)驗(yàn)結(jié)果表明,GeneCompass 在不同下游任務(wù)中均可達(dá)到SOTA水平,相比于傳統(tǒng)生物學(xué)方法對生命底層規(guī)律具有更深的理解。

圖片

下游任務(wù):細(xì)胞命運(yùn)預(yù)測和關(guān)鍵基因篩選

由于基因及其表達(dá)值在自監(jiān)督預(yù)訓(xùn)練過程中同時被掩碼和重建,GeneCompass能夠捕捉復(fù)雜的調(diào)控機(jī)制,實(shí)現(xiàn)定量的模擬基因擾動。為了驗(yàn)證這種能力,研究人員構(gòu)建iPSC模擬誘導(dǎo)實(shí)驗(yàn),在人類成纖維細(xì)胞中模擬兩個水平的OSKM 基因(Oct4、Sox2、Klf4 和 c-Myc)過表達(dá)。通過對比細(xì)胞狀態(tài)嵌入的相似性可以看出,隨著過表達(dá)水平的提高,成纖維細(xì)胞逐漸向iPSC細(xì)胞發(fā)育。這與現(xiàn)有結(jié)論是一致的,說明GeneCompass具有用于細(xì)胞命運(yùn)預(yù)測的潛力。

圖片

此外,GeneCompass可通過模擬基因擾動分析預(yù)測細(xì)胞命運(yùn)轉(zhuǎn)變中的關(guān)鍵調(diào)控因子,有望提高濕實(shí)驗(yàn)的效率并揭示新機(jī)制。研究人員進(jìn)行了人類ESC細(xì)胞向性腺細(xì)胞分化的實(shí)驗(yàn),利用GeneCompass在ESC細(xì)胞上開展廣泛的單基因模擬過表達(dá)。通過比較初始、模擬和目標(biāo)細(xì)胞嵌入之間的余弦相似度,研究人員確定了五個潛在基因,即 NR2F1、NR5A1、WT1、TCF21 和 GATA4。其中三個( WT1、NR5A1 和 NR2F1)已有研究成果驗(yàn)證對小鼠體內(nèi)性腺發(fā)育至關(guān)重要。進(jìn)而,研究人員在 ESC 中分別過表達(dá)NR5A1和 GATA4,免疫熒光結(jié)果表明,在人類 ESC 中單獨(dú)過表達(dá)任一基因均可誘導(dǎo)性腺基因。

圖片

圖示:GeneCompass可用于模擬基因擾動以挖掘關(guān)鍵調(diào)控因子。

圖片

圖示:免疫熒光結(jié)果表明,在人類 ESC 中單獨(dú)過表達(dá)任一基因均可誘導(dǎo)性腺基因。

綜上所述,作為迄今為止最大規(guī)模的、具有知識嵌入的跨物種預(yù)訓(xùn)練生命基礎(chǔ)大模型,GeneCompass可實(shí)現(xiàn)多個跨物種下游任務(wù)的遷移學(xué)習(xí),并在細(xì)胞類型注釋、定量基因擾動預(yù)測、藥物敏感性分析等方面,相比已有方法取得更優(yōu)性能。這充分展示了基于多物種無標(biāo)注大數(shù)據(jù)預(yù)訓(xùn)練,再利用不同子任務(wù)數(shù)據(jù)進(jìn)行模型微調(diào)的策略優(yōu)勢,有望成為實(shí)現(xiàn)基因-細(xì)胞特征相關(guān)聯(lián)的各種生物問題分析預(yù)測的通用解決方案。

上述研究由「指南針聯(lián)盟」團(tuán)隊(duì)完成,「指南針聯(lián)盟」團(tuán)隊(duì)目前由北京干細(xì)胞與再生醫(yī)學(xué)研究院/中國科學(xué)院動物研究所李鑫團(tuán)隊(duì)聯(lián)合計(jì)算機(jī)網(wǎng)絡(luò)信息中心,自動化研究所,計(jì)算技術(shù)研究所,數(shù)學(xué)與系統(tǒng)科學(xué)研究院等組成,聯(lián)盟的目標(biāo)是建立數(shù)智驅(qū)動的生命科學(xué)研究新范式,解析生命的本質(zhì)規(guī)律。


相關(guān)推薦
免責(zé)聲明
本文所包含的觀點(diǎn)僅代表作者個人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險,讀者在采取與本文內(nèi)容相關(guān)的任何行動之前,請務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。

熱門文章