首頁 > AI資訊 > 最新資訊 > Evo2作者、斯坦福計算生物學家BrianHie:AI可發現人類無法看到的模式

Evo2作者、斯坦福計算生物學家BrianHie:AI可發現人類無法看到的模式

新火種    2025-02-25
圖片

編輯 | ScienceAI

最近,科學家發布了有史以來最大的生物學人工智能(AI)模型 ——Evo 2。

該模型基于 128,000 個基因組進行訓練,涵蓋了從人類到單細胞細菌和古細菌的生命之樹,可以從頭開始編寫整個染色體和小基因組。它還可以理解現有的 DNA,包括與疾病相關的難以解釋的「非編碼」基因變體。

Evo 2 由美國 Arc 研究所(Arc Institute)和斯坦福大學的研究人員以及芯片制造商 NVIDIA 共同開發,科學家可以通過線上界面使用,也可以免費下載其軟件代碼、數據和復制模型所需的其他參數。

圖片

項目鏈接:https://github.com/ArcInstitute/evo2

早在去年 11 月,Evo 的第一個版本 (在 80,000 種細菌、古細菌和病毒的基因組上進行訓練)就登上了《Science》雜志封面。

圖片

Evo 及 Evo 2 的突破是不言而喻的,研究團隊是如何實現這些突破的?

在 Evo 2 發布之前,外媒《Quanta Magazine》曾采訪 Evo 研究團隊主要成員、論文通訊作者 —— 斯坦福大學計算生物學家 Brian Hie,采訪圍繞 DNA 與人類語言之間的相似之處,Evo 能做什么和不能做什么等話題展開。Brian Hie 表示:「人類很難理解生物序列」,而「Evo 發現了人類無法看到的模式」。

圖片

圖示:Evo 團隊核心成員,Brian Hie(中)。

ScienceAI 對《Quanta Magazine》訪談核心內容進行了不改變原意的編譯、整理,內容如下。

是什么讓你認為 DNA 可以像語言一樣處理?

DNA 本身像人類自然語言一樣是序列化的。它是由離散的「token」或構建塊組成的序列。我們將人類自然語言 tokenize 為單詞、字母或漢字。在生物學中,一個 token 可以對應一個 DNA 堿基對或一個氨基酸。

就像自然語言一樣,DNA 也有其自然結構。這些序列并不是隨機的。自然語言中的許多結構也是非正式的,可能是模糊的,并且一直在變化。同樣地,DNA 序列也有一些模糊性。相同的序列在不同的上下文中可能意味著不同的事物。

怎么想到將 LLM 應用于 DNA?

分子生物學的中心法則是一個非常美麗的東西。它指出 DNA 編碼 RNA,RNA 編碼蛋白質。所以如果你在 DNA 上訓練一個模型,并且它是一個好模型,你就可以免費獲得 RNA 和蛋白質的語言建模,因為 DNA 和蛋白質序列之間有直接的對應關系。

你還可以在基因組本身上進行訓練:基因在基因組上彼此相鄰。當你訓練一個蛋白質語言模型時,你基本上會取整個基因組并剪掉所有編碼蛋白質的部分,然后分別訓練所有這些小部分。但這忽略了蛋白質所在的廣闊遺傳背景。特別是在微生物基因組中,功能相關的蛋白質在基因組上直接相鄰,所以這些蛋白質編碼區域在基因組上的順序很重要,而在蛋白質語言模型中失去了這些信息。

我意識到在更基礎的層次上訓練模型 —— 從蛋白質下降到 DNA—— 可以擴展模型的能力。

如何訓練 Evo「閱讀」DNA?

蛋白質和 DNA 語言模型之間的一個重要區別是模型用于進行下一個堿基對預測的序列長度,我們稱之為「上下文長度」。上下文長度類似于一個人一次可以看到的小說的一兩頁。Evo 是在由許多基因組組成的「小說」上訓練的。

這需要一些技術發展,因為長的上下文長度消耗大量的計算能力。計算需求隨著上下文長度的增加呈二次方增長,但幸運的是,已有一些研究找到了方法來減少長上下文所需計算。斯坦福實驗室的一名學生幫我們將相關進展應用到我們的 DNA 模型中。

Evo 的訓練數據集也很重要。從蛋白質語言建模中,我了解到序列多樣性很重要。當向模型展示生命的進化替代方案,模型就可以利用這些替代方案來學習一般規則。

你是如何測試 Evo 的,它的表現如何?

我們給 Evo 提供了具有各種突變的蛋白質編碼 DNA 序列。任務是預測這些突變的「進化可能性」,即它們在自然界中存在的概率。被認為可能的突變應該在實驗室中保持或改善蛋白質的功能,不可能的突變應該與功能不良相關。

Evo 沒有任何關于功能的明確知識。它只知道過去進化中使用了哪些突變。此外,模型僅在 DNA 上進行訓練,沒有任何關于 DNA 的哪些部分與蛋白質匹配的指導。因此,Evo 必須弄清楚 DNA 如何編碼蛋白質,以及蛋白質在基因組上的起始和終止位置。

我們通過蛋白質功能的實驗測試對 Evo 得出的可能性進行了評分。我們發現:如果某個堿基對在 Evo 模型下具有高可能性,那么該堿基對很可能會保持或改善蛋白質的功能;如果該堿基對的可能性較低,那么將其插入序列中很可能會破壞蛋白質功能。

LLM 容易出錯,Evo 是否更準確?

對于ChatGPT,你希望它能準確掌握事實。而在生物學中,這些「幻覺」幾乎可以被視為一種特性而非缺陷。如果某個奇特的新序列在細胞中起作用,生物學家會認為這是新穎的。

但 Evo 確實也會犯錯。例如,它可能根據某個序列預測出一種蛋白質結構,但當我們在實驗室中合成這種蛋白質時,結果可能是錯誤的。

原文鏈接:https://www.quantamagazine.org/the-poetry-fan-who-taught-an-llm-to-read-and-write-dna-20250205/

相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章