首頁 > AI資訊 > 最新資訊 > 登Science封面!基因組基礎模型Evo重磅發(fā)布,AI解碼分子、DNA、RNA和蛋白質

登Science封面!基因組基礎模型Evo重磅發(fā)布,AI解碼分子、DNA、RNA和蛋白質

新火種    2024-11-17
圖片

編輯|X_X

ChatGPT 可以寫小說、編寫計算機代碼、給出食譜,它的硅片上包含了互聯(lián)網(wǎng)上的大部分信息。如果它能對 DNA 做同樣的事情會怎么樣?

今天,刊登在《Science》封面上一項最新研究,美國 Arc 研究所(Arc Institute)和斯坦福大學的研究團隊提出了一種機器學習模型「Evo」,其能夠以無與倫比的準確性解碼和設計從分子到基因組規(guī)模的 DNA、RNA 和蛋白質序列。

圖片

Evo 預測、生成和設計整個基因組序列的能力,可能會改變合成生物學的運作方式。

Evo 模型以數(shù)十億條基因序列為基礎,可以推斷出細菌和病毒基因組的運作方式,并利用這些信息設計新的蛋白質甚至整個微生物基因組。

Evo 可以幫助科學家探索進化、研究疾病、開發(fā)新的治療方法,并可能解答許多其他生物醫(yī)學問題。

「該研究意義重大,作者對 Evo 進行的測試為 AI 提供了一個很好的應用展示。」阿貢國家實驗室的計算生物學家 Arvind Ramanathan 看到論文后評價道。

該研究以「Sequence modeling and design from molecular to genome scale with Evo」為題,于 2024 年 11 月 15 發(fā)布在《Science》。

圖片

論文鏈接:https://www.science.org/doi/10.1126/science.ado9336

眾所周知,AlphaFold 可以根據(jù)蛋白質的氨基酸序列預測其結構。但 ChatGPT 和許多其他 AI 都是通用程序,即基礎模型。基礎模型的多功能性很有優(yōu)勢,科學家不必為每個任務構建和訓練不同的模型,從而節(jié)省時間和金錢。ChatGPT 被稱為大型語言模型 (LLM),因為它適用于幾乎任何包含文字的文檔,無論是政府報告還是食譜。

在分子生物學中,沒有什么比 DNA 更基礎的了,科學家們已經(jīng)開發(fā)了一些基礎模型,可以像分析 LLM 中的單詞一樣分析 DNA 序列。然而,這些 AI 只能解釋和預測相對較短的 DNA 片段。

基因組基礎模型 Evo

Evo 是為了克服這些限制而開發(fā)的,它是斯坦福大學計算生物學家 Brian Hie 團隊的心血結晶,其中包括一些來自新成立的 Arc 研究所的研究人員。

基因組基礎模型 Evo 是一個基于 StripedHyena 的基礎模型,該模型在 270 萬個進化多樣的原核生物和噬菌體基因組上進行了預訓練,從而獲得對 DNA 語言的基本理解,可以預測 DNA 的功能或生成新的 DNA 序列。StripedHyena 架構混合了密集二次 Transformer 算子和次二次型 Hyena 算子。

為了確定 Evo 的最佳架構和縮放比例,研究比較了在計算最優(yōu)邊界上預訓練的不同模型的縮放率,即在數(shù)據(jù)集大小和模型大小之間進行最佳計算分配。

圖片

圖示:基因組基礎模型 Evo。(來源:論文)

該團隊的一項改進是增加所謂的上下文長度,即模型在嘗試尋找 DNA 模式時使用的搜索窗口。更大的上下文長度可以提高模型識別基因或其他 DNA 序列之間聯(lián)系的能力。這種設計還使團隊能夠將 Evo 的分辨率提高到單個核苷酸(DNA 的組成部分)的水平,而之前的模型只能處理核苷酸組。

研究人員在構建 Evo 后對其進行了 4 周的訓練,在此期間,該模型對 80,000 個微生物基因組以及數(shù)百萬個針對細菌的病毒序列和質粒進行了自我學習。

Hie 說,理論上,惡意用戶可以利用像 Evo 這樣的模型來設計生物武器,因此研究人員從 AI 的訓練集中刪除了任何攻擊人類或其他真核生物的病毒序列。總的來說,Evo 從 3000 億個核苷酸的序列信息中學習。

圖片

圖示:對原核生物的基因組基礎模型進行預訓練。(來源:論文)

從分子到基因組的序列建模和設計

為了測試 Evo,研究人員要求它預測突變對蛋白質性能的影響。這些知識對于理解 DNA 「故障」如何導致疾病以及設計新藥非常重要。

研究小組通過將 Evo 的預測與其他科學家在細菌細胞中誘發(fā)相同突變的已發(fā)表實驗進行比較,來檢查 Evo 的準確度。Evo 勝過之前從 DNA 序列數(shù)據(jù)推斷突變效應的人工智能模型;其工作效果與其他依賴蛋白質序列的 AI 模型一樣好。

像 ChatGPT 這樣的 AI 模型如此有用的一個原因是它們可以創(chuàng)建新內(nèi)容。「我們想證明我們的模型有這種能力,」Hie 說。因此,他的團隊讓 Evo 設計新版本的 CRISPR 基因組編輯器。這項任務很有挑戰(zhàn)性,因為 CRISPR 包括兩種必須協(xié)同工作的組件:DNA 切片 Cas 蛋白和將酶引導到要編輯的基因組位置的 RNA 分子。

Evo 首先研究了 70,000 多個編碼 Cas 蛋白及其伴侶 RNA 的細菌 DNA 序列。然后,該模型設計了數(shù)百萬個分子的潛在版本。研究人員挑選了 11 個最有前途的 Cas9 變體,并在實驗室中合成了這些蛋白質。

研究人員發(fā)現(xiàn),在試管實驗中,Evo 設計的 Cas9 酶中最好的一種,在切割 DNA 方面與商業(yè)版本的蛋白質一樣好。為了改進 Cas 蛋白,科學家們傳統(tǒng)上一直在尋找具有更有效酶版本的細菌。

圖片

圖示:對 CRISPR-Cas 序列進行微調可以實現(xiàn)蛋白質-RNA 復合物的生成設計。(來源:論文)

Evo 還擅長多模態(tài)生成任務,團隊通過生成合成的 CRISPR-Cas 分子復合物和轉座系統(tǒng)證明了這一點。研究人員實驗驗證了 Evo 生成的 CRISPR-Cas 分子復合物以及 IS200 和 IS605 轉座系統(tǒng)的功能活性,這是使用語言模型進行蛋白質-RNA 和蛋白質-DNA 協(xié)同設計的第一個實例。

圖片

圖示:對 IS200/IS605 序列進行微調可以實現(xiàn)可轉座生物系統(tǒng)的生成設計。(來源:論文)

Hie 說,有了 Evo,「我們不必等待進化來創(chuàng)造新的 Cas9。」然而,和許多 LLM 一樣,Evo 也「產(chǎn)生了幻覺」,提出了沒有機會起作用的 Cas9。Hie 說,盡管產(chǎn)生了幻覺,但 AI 在尋找新分子選擇方面仍然比「蠻力篩選或隨機猜測」要好。

在 Hie 所說的研究中「最具未來感和最瘋狂」的部分,研究人員要求 Evo 生成足夠長的 DNA 序列作為細菌的基因組。他們發(fā)現(xiàn),這些模擬基因組攜帶了細胞所需的許多基因,但缺少其他必需基因。不過,Hie 認為,這些結果可能是邁向 AI 設計的合成基因組的一步。

圖片

圖示:Evo 了解突變對不同細菌和噬菌體基因組的生物體適應性的影響。(來源:論文)

總體而言,研究人員報告了 DNA 的縮放定律,補充了自然語言和視覺中的類似觀察結果。

Evo 經(jīng)過 270 萬個原核生物和噬菌體基因組的訓練,展示了跨 DNA、RNA 和蛋白質模態(tài)的零樣本函數(shù)預測,其性能可與特定領域的語言模型相媲美,甚至優(yōu)于特定領域的語言模型。

基礎模型很重要,實驗室驗證非常有力

基礎模型很重要,因為「它們增強了我們理解和描述基因組的能力」,未參與這項研究的美國石溪大學(Stony Brook University)計算生物學家 Ramana Davuluri 說。「我認為這是超越現(xiàn)有模型的一大步。」

紐約市非營利組織 Tatta Bio 的計算生物學家 Yunha Hwang 說,這項研究之所以引人注目的一個原因是,研究人員在實驗上證實了該模型的預測。Tatta Bio 專注于改進基因組 AI 模型。

「能夠進行實驗室驗證非常有力,」未參與這項研究的 Hwang 說。德克薩斯大學 MD 安德森癌癥中心的統(tǒng)計學家 Chong Wu 補充說,Evo 從中學到的大量數(shù)據(jù)也使這項研究與眾不同。他說,模型吸收的信息越多,它就越可靠。

AI 的大部分研究工作都是在公司秘密進行的。但研究人員已公開發(fā)布 Evo,以便其他研究人員可以使用它,而 Hie 表示,該團隊沒有計劃將其發(fā)明商業(yè)化。「目前,我將其視為一個研究項目。」

關于美國 Arc 研究所(Arc Institute)

圖片

圖示:Evo 團隊(Arc Institute)。

Arc 總部位于加利福尼亞州帕洛阿爾托,是一家非營利性研究機構,其成立的初衷是相信許多重要的科學項目都可以通過新的組織模式來實現(xiàn)。Arc 是與斯坦福大學、加州大學舊金山分校和加州大學伯克利分校合作運營的。

Arc 為科學家提供無附加條件的多年期資金,這樣他們就不必申請外部資助,并投資于實驗和計算技術工具的快速開發(fā)。

Arc 的研究人員可以以個人身份跨學科合作研究復雜疾病,包括癌癥、神經(jīng)退行性疾病和免疫功能障礙。

Arc 的終極目標是加速科學進步,了解疾病的根本原因,并縮小發(fā)現(xiàn)與對患者的影響之間的差距。

機構官網(wǎng):https://arcinstitute.org/

參考內(nèi)容:

https://www.science.org/content/article/meet-evo-dna-trained-ai-creates-genomes-scratchhttps://www.science.org/doi/10.1126/science.adt3007https://endpts.com/arc-institute-debuts-ai-model-evo-makes-new-crispr-systems/
相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內(nèi)容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產(chǎn)生的任何金錢損失負任何責任。

熱門文章