AI模擬細(xì)胞,走向全新虛擬生命,斯坦福團(tuán)隊呼吁是時候走出全新的一步了

編輯丨&
生命的誕生充滿謎團(tuán)。從第一個蛋白質(zhì)分子出現(xiàn),再到首個細(xì)胞完成了自己的分裂。現(xiàn)在的奇跡來自于一個個鮮活的細(xì)胞聚合體。
而現(xiàn)在,隨著人工智能的發(fā)展,AI 虛擬細(xì)胞(AIVC)的創(chuàng)建也逐漸從無走到有。為了能更好的了解生命的運作方式與疾病的發(fā)病原理,AIVC 成為了當(dāng)前熱門且極有潛力的探索方向。
雖然,細(xì)胞的屬性與行為無不在挑戰(zhàn)物理與計算建模的極限,其中動態(tài)和適應(yīng)系統(tǒng)所蘊含的復(fù)雜行為讓整個細(xì)胞內(nèi)部對于擾動的反應(yīng)處于截然不同的反應(yīng)狀態(tài)。
現(xiàn)有的細(xì)胞模型通常是基于規(guī)則,并將有關(guān)潛在生物學(xué)機制的假設(shè)與來自觀察數(shù)據(jù)的參數(shù)相結(jié)合。這通常依賴于明確定義的數(shù)學(xué)或計算方法,不同的復(fù)雜程度涵蓋了細(xì)胞生物學(xué)的不同方面。
來自斯坦福大學(xué)的研究人員們呼吁,現(xiàn)在正是利用 AI 來創(chuàng)造第一個 AIVC 的時候。他們的聲音以「How to build the virtual cell with artificial intelligence: Priorities and opportunities」為題,于 2024 年 12 月 12 日發(fā)布在《Cell》。
對人類細(xì)胞進(jìn)行建模可以被認(rèn)為是生物學(xué)的圣杯。團(tuán)隊中,一位教授如此形容道。AI 提供了直接從數(shù)據(jù)中學(xué)習(xí)的能力,并超越假設(shè)和直覺來發(fā)現(xiàn)復(fù)雜生物系統(tǒng)的新興特性。
AIVC
從實驗上講,測量技術(shù)吞吐量的指數(shù)級增長導(dǎo)致不同細(xì)胞和組織系統(tǒng)內(nèi)和之間收集了大型且不斷增長的參考數(shù)據(jù)集。在過去幾年中,數(shù)據(jù)以及將這些測量與系統(tǒng)擾動耦合的能力每 6 個月翻一番。
在計算方面,AI 的并發(fā)進(jìn)步增強了我們直接從數(shù)據(jù)中學(xué)習(xí)模式和過程的能力,而無需明確的規(guī)則或人工注釋。
AI 中的最新建模方法提供了表示和推理工具,這些工具滿足預(yù)測、生成和可查詢的三重奏,是推進(jìn)生物學(xué)研究和理解的關(guān)鍵實用程序。通過建立這些特性,現(xiàn)在有方法來開發(fā)一個完全由數(shù)據(jù)驅(qū)動的基于神經(jīng)網(wǎng)絡(luò)的 AIVC 表示。
它可以通過實現(xiàn)快節(jié)奏的計算機研究,以及計算方法和驗證性濕實驗室實驗之間的強大橋梁來加速生物醫(yī)學(xué)的研究。
AIVC 的創(chuàng)建將開啟生物學(xué)高保真模擬的新時代。將通過改變生成假設(shè)和確定優(yōu)先級的方式,使生物學(xué)家能夠跨越一個大大擴(kuò)展的范圍,更好地適應(yīng)生物學(xué)的巨大尺度,從而賦予實驗者和理論家權(quán)力。
盡管細(xì)胞模型可能并不總是直接識別機制關(guān)系,但他們可以被視為有效縮小機制假設(shè)并搜索空間的工具,從而加速發(fā)現(xiàn)細(xì)胞功能背后的潛在因素。
虛擬細(xì)胞路上的重大挑戰(zhàn)
生物學(xué)中數(shù)量激增的基礎(chǔ)模型執(zhí)行了本視角中概述的虛擬單元功能的子集。生物學(xué)非常復(fù)雜:它在不同的尺度、不同的環(huán)境中運作,并用不同的模式進(jìn)行測量。AIVC 模型必須在所有這些軸上保持一致。
AIVC 模型最終將根據(jù)大型基礎(chǔ)模型通過為生物過程提供新的見解或加速科學(xué)過程來擴(kuò)展我們對生物學(xué)的理解的能力進(jìn)行評判。可操作的模型輸出是設(shè)計經(jīng)濟(jì)實惠且高效的驗證實驗的高實用性,是初始實際使用的關(guān)鍵。
AIVC 的成功開發(fā)需要跨學(xué)科的合作,而生成反映人類多樣性的大型數(shù)據(jù)集是非常艱難的。且先不說在使用 AIVC 的時候,方式方法是否合乎道德或者透明,亦或者數(shù)據(jù)是否會被偽造造成模型污染。
AIVC 協(xié)作開發(fā)的一個基本問題是應(yīng)該收集哪些數(shù)據(jù)和模式以實現(xiàn)跨生物背景和規(guī)模的泛化。
這些數(shù)據(jù)需要涵蓋不同物種、領(lǐng)域和模式的生物學(xué)廣度,代表生命的異質(zhì)性,同時保持足夠的深度以區(qū)分真實信號和噪聲。數(shù)據(jù)生成的一個關(guān)鍵方面是同時測量時間和物理尺度,同時還允許對系統(tǒng)進(jìn)行擾動。
AIVC 將是一個多尺度基礎(chǔ)模型,它在每個物理尺度上學(xué)習(xí)生物實體的不同表示。每種表示都普遍適用于特定類別的生物實體。這種抽象允許虛擬單元在這個通用框架內(nèi)無縫發(fā)展和整合新數(shù)據(jù)。無論是來自新模式還是來自分布式外源。
用于構(gòu)建的 AI 技術(shù)
AIVC 將連接許多不同的神經(jīng)網(wǎng)絡(luò)架構(gòu)。盡管這些架構(gòu)可能不是專門為生物應(yīng)用而設(shè)計的,但它們在與特定的生物模式和歸納偏差匹配時都得到了成功的結(jié)果。
擴(kuò)散模型是一類生成式深度學(xué)習(xí)模型,最近因其能夠在各個領(lǐng)域生成高質(zhì)量、多樣化的樣本而受到關(guān)注。基于擴(kuò)散模型架構(gòu),流匹配方法等方法也可以對隨時間推移的分布演變進(jìn)行建模。
擴(kuò)散和流匹配模型學(xué)習(xí)和復(fù)制復(fù)雜分布的能力,結(jié)合流匹配方法的時間和空間建模功能,使其特別適合涉及生物系統(tǒng)典型高維復(fù)雜數(shù)據(jù)結(jié)構(gòu)的任務(wù)。
AIVC 的起點是模擬中心法則的三種類型的分子:DNA、RNA 和蛋白質(zhì)。這些都可以表示為字符序列核苷酸或氨基酸。此類序列數(shù)據(jù)特別適合最初為自然語言處理開發(fā)的 AI 方法,例如大型語言模型(LLM)。
下一個抽象級別對單個細(xì)胞狀態(tài)進(jìn)行建模。由于細(xì)胞功能以細(xì)胞中形成的分子相互作用和信號網(wǎng)絡(luò)為基礎(chǔ),因此可以使用分子和其他特征的表示來構(gòu)建細(xì)胞 UR,描述分子成分的組織和豐度。
從模型架構(gòu)的角度來看,transformer 或利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)的模型廣泛適用于生物圖像,跨多個成像通道進(jìn)行建模,捕捉不同的生物特征。隨著 AIVC 模型的復(fù)雜性增加,對細(xì)胞器和無膜隔室進(jìn)行建模也至關(guān)重要。
從單細(xì)胞到多細(xì)胞的建模,需要走的路會更長,此處不做過多贅述。
值得樂觀的前景
遺傳學(xué)和基因組學(xué)界已經(jīng)創(chuàng)建了許多大型參考數(shù)據(jù)集,而借由這些項目,可以使用大量參考數(shù)據(jù)來訓(xùn)練機器學(xué)習(xí)模型。雖然這些努力并未發(fā)展完善,但它們也促進(jìn)了一項新的平行努力:創(chuàng)建細(xì)胞生物學(xué)的虛擬模擬,這是一種科學(xué)探究的新流程。
因此,AIVC 有可能徹底改變科學(xué)過程,從而在生物醫(yī)學(xué)研究、個性化醫(yī)學(xué)、藥物發(fā)現(xiàn)、細(xì)胞工程和可編程生物學(xué)方面取得未來突破。作為虛擬實驗室,其可以促進(jìn)模擬實驗數(shù)據(jù)與現(xiàn)實實驗結(jié)果的無縫銜接。
團(tuán)隊堅定不移地倡導(dǎo)開放科學(xué)方法的作用,在開放科學(xué)方法中,科學(xué)界樂于共享數(shù)據(jù)、模型和基準(zhǔn),將發(fā)現(xiàn)和見解置于情境中,并營造持續(xù)改進(jìn)的氛圍。他們歡迎并鼓勵各部門和領(lǐng)域的所有利益相關(guān)者參與這項工作。
在龐大的科學(xué)背景與共同目標(biāo)的促成下,他們相信,人類正邁向科學(xué)發(fā)展的新方向。
原文鏈接:
- 免責(zé)聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認(rèn)可。 交易和投資涉及高風(fēng)險,讀者在采取與本文內(nèi)容相關(guān)的任何行動之前,請務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。