AI驅(qū)動科學(xué)大爆發(fā)!從蛋白質(zhì)到數(shù)學(xué)證明,2024年最值得關(guān)注的科技突破
編輯 | ScienceAI
2024年對于AI for Science而言,可謂碩果累累:兩個諾貝爾獎再度聚焦人工智能與科學(xué)的先驅(qū)性結(jié)合。
其一是諾貝爾化學(xué)獎,頒發(fā)給了在蛋白質(zhì)設(shè)計與蛋白質(zhì)結(jié)構(gòu)預(yù)測領(lǐng)域做出開創(chuàng)性貢獻的David Baker博士、John Jumper博士以及Demis Hassabis博士;其二是諾貝爾物理學(xué)獎,授予了John J. Hopfield博士與Geoffrey Hinton博士,以表彰他們在人工神經(jīng)網(wǎng)絡(luò)及其機學(xué)習(xí)核心原理方面的奠基性工作。
諾獎頒獎典禮上的演講視頻亦已公開,與大眾共同見證了AI與科學(xué)交融所開拓的全新時代。這些殊榮所代表的,不僅是對過去卓越成果的致敬,更是對未來諸多未知前沿的探索預(yù)告。
回顧整個2024年,AI for Science領(lǐng)域在不同學(xué)科交織下展現(xiàn)出一系列引人矚目的新趨勢。以下將重點梳理其中幾大主要主題。
一、神經(jīng)網(wǎng)絡(luò)的「縮放定律」(Neural Scaling Laws)
首當其沖的是「神經(jīng)網(wǎng)絡(luò)縮放定律」的興起。這一概念旨在揭示:當模型規(guī)模、參數(shù)量以及計算量作不同程度的擴展或縮減時,神經(jīng)網(wǎng)絡(luò)性能如何隨之變化。
縮放定律在大語言模型(LLM)的訓(xùn)練中尤其顯著:2024年里,不僅商業(yè)界(如GPT-4o、Claude-3.5-Sonnet)紛紛推出更大參數(shù)量的新模型,開源社群也迎來了Llama-3.1–140B等超大參數(shù)版本。這些新模型在表現(xiàn)上均優(yōu)于其前代產(chǎn)品,充分彰顯了參數(shù)規(guī)模擴張所帶來的性能飛躍。
在今年九月,OpenAI推出了GPT-o1-preview,再次為推理(inference)階段的規(guī)模化注入新思路:他們在測試階段提升了計算資源投入,令模型在攻克高難度數(shù)學(xué)題目等復(fù)雜任務(wù)上表現(xiàn)卓然。
雖尚未披露具體技術(shù)細節(jié),Hugging Face的團隊已獨立開發(fā)出類似方案,并在MATH-500基準測試中令小參數(shù)模型(如1B與3B規(guī)模的Llama Instruct模型)勝過更大型號(如8B與70B模型)。這印證了「測試階段擴大資源投入」這一思路的潛能,也為業(yè)界帶來更多啟發(fā)。
令人驚喜的是,類似的縮放規(guī)律也在科學(xué)應(yīng)用中出現(xiàn)。例如在蛋白折疊領(lǐng)域,名為ESM Cambrian的模型在CASP15競賽上展現(xiàn)了「近似冪律」般的性能提升,其水平甚至超越了同期大多數(shù)模型,進一步佐證縮放定律在AI與科學(xué)交匯處的普適性。
二、原子級生物大分子結(jié)構(gòu)預(yù)測
在結(jié)構(gòu)生物學(xué)領(lǐng)域,AlphaFold3的橫空出世無疑是今年最耀眼的進展之一。新版不僅能預(yù)測蛋白質(zhì)單體結(jié)構(gòu),更可精準模擬包含核苷酸、小分子以及離子在內(nèi)的復(fù)雜體系,達到此前專用模型難以企及的準確度。
伴隨著AlphaFold大家族不斷攀升的影響力,相關(guān)數(shù)據(jù)庫也在快速擴容:由倫敦大學(xué)學(xué)院(UCL)帶頭創(chuàng)建的「The Encyclopedia of Domains」(TED)即源于AlphaFold數(shù)據(jù)庫(AFDB),通過分析海量蛋白質(zhì)結(jié)構(gòu),TED已發(fā)現(xiàn)逾萬種此前未被記錄的結(jié)構(gòu)互作關(guān)系,并為蛋白折疊空間譜系圖增添了數(shù)千種新折疊形式。這些發(fā)現(xiàn)再次表明,蛋白質(zhì)結(jié)構(gòu)世界仍有廣闊未知等待我們發(fā)掘。
盡管AlphaFold對各類生物醫(yī)學(xué)研究推動甚大,其在實際藥物設(shè)計中的效用仍有爭議。加州大學(xué)舊金山分校的一項研究表明:將實驗測得的真實蛋白結(jié)構(gòu)與AlphaFold所預(yù)測的模型同時用于對接模擬時,兩者雖擁有相近的「命中率」,但鑒定到的配體幾乎無重疊之處。然而,這種差異或許意味著AlphaFold提供了另一種真實而未被充分利用的蛋白質(zhì)構(gòu)象,有望拓展基于結(jié)構(gòu)的藥物篩選邊界。
在激烈的競爭氛圍下,類似Chai-1、NeuralPLexer3及Boltz-1等新模型于今年九月至十一月間相繼問世,并宣稱具備媲美AlphaFold3的性能。它們能否在制藥工業(yè)中掀起變革,尚需時間驗證。這些后起之秀的出現(xiàn),昭示著以原子級精準度為目標的生物分子結(jié)構(gòu)預(yù)測方興未艾,也為下一代計算機輔助藥物設(shè)計奠定了堅實基礎(chǔ)。
三、「非等變」神經(jīng)架構(gòu)(Non-equivariant Neural Architecture)
值得關(guān)注的是,AlphaFold3在其網(wǎng)絡(luò)設(shè)計中棄用了等變(equivariant)架構(gòu),這一做法在學(xué)界和工業(yè)界引起了廣泛熱議:神經(jīng)網(wǎng)絡(luò)在建模物理對稱性時,究竟需不需要顯式保留等變性?分歧不僅停留在結(jié)構(gòu)生物學(xué)領(lǐng)域,也在分子模擬(molecular simulation)社區(qū)再次浮現(xiàn)。
一方面,近期刊登于《Nature》的大規(guī)模分子模擬工作,表明神經(jīng)網(wǎng)絡(luò)勢能函數(shù)(NNIP)已能精確捕捉量子級相互作用,為化學(xué)、材料與生物物理等多領(lǐng)域帶來前所未有的求解能力。
另一方面,「苦澀教訓(xùn)」(the 「bitter lesson」)在此領(lǐng)域再次得到印證:相比于依賴精心設(shè)計特征或嚴格物理對稱性的模型,那些以大規(guī)模計算和數(shù)據(jù)為驅(qū)動的通用網(wǎng)絡(luò)往往后勁更足。
加州大學(xué)伯克利分校的一項研究便顯示,減少對物理對稱性的顯式嵌入后,架構(gòu)在推理速度和準確度上均能勝過許多基于對稱性的模型,再度呼應(yīng)了在諸多AI應(yīng)用中一再出現(xiàn)的規(guī)律:只要數(shù)據(jù)和算力足夠,通用化網(wǎng)絡(luò)也能自發(fā)學(xué)習(xí)出有效的表示。
這并不表示領(lǐng)域知識和對稱性毫無價值,而是提示著一個更微妙的平衡:顯式地嵌入物理先驗,有時不如留給模型更多靈活度來「自學(xué)成才」。最近的研究顯示,非等變模型若輔以充分的數(shù)據(jù)增廣與算力投入,或可與等變模型之間的性能差距越拉越小。然而,研究還指出,在同等計算預(yù)算下,等變架構(gòu)在諸多場景下仍然占據(jù)優(yōu)勢,且這一差距呈可預(yù)測的「縮放規(guī)律」。
更有趣的是,兩類模型在尋求最佳算力分配(平衡準確度與推理效率)時會側(cè)重不同的策略。隨著對分子動力學(xué)在長期尺度上的模擬需求不斷上升,如何在效率與可擴展性之間做出合理取舍,必將成為今后分子科學(xué)領(lǐng)域的重要議題。
四、大語言模型(Large Language Models)
過去一年,大語言模型憑借日漸增強的推理能力與交互形式,一直吸引著科研工作者的目光。其中最矚目的當屬其在數(shù)學(xué)領(lǐng)域的應(yīng)用:DeepMind的 AlphaProof 與 AlphaGeometry2 正是這方面的典型案例。
AlphaProof 結(jié)合了大語言模型與 AlphaZero 的強化學(xué)習(xí)框架,可攻克國際數(shù)學(xué)奧林匹克(IMO)中的代數(shù)與數(shù)論難題;升級版 AlphaGeometry2 在幾何題上效率提高兩個量級,IMO的解題成功率也從 53%攀升至 83%。
二者合力更在 IMO 2024 上取得了相當于銀牌的成績(據(jù)官方博客所述),不僅彰顯了 AI 在數(shù)學(xué)領(lǐng)域的潛力,也為未來「機器數(shù)學(xué)家」指明了新方向。
與之呼應(yīng),Meta 亦在數(shù)學(xué)領(lǐng)域發(fā)力:其新模型針對動力系統(tǒng)全局穩(wěn)定性中的李雅普諾夫函數(shù)(Lyapunov functions)推導(dǎo)問題給出了解決思路。
該問題在控制理論與天體力學(xué)中舉足輕重,而 Meta 的模型通過為多項式系統(tǒng)生成隨機解,并利用序列到序列(sequence-to-sequence)Transformer 進行訓(xùn)練,最終在算法求解器和人類專家都望而生畏的領(lǐng)域取得了突破,并成功拓展到缺乏算法解的非多項式系統(tǒng)上。
在其他科學(xué)方向,大語言模型同樣大放異彩。OpenAI 利用強化學(xué)習(xí)與微調(diào)技術(shù),開發(fā)出專門用于罕見病基因發(fā)現(xiàn)的模型,展現(xiàn)了在稀缺數(shù)據(jù)場景中的出色適應(yīng)力,隱含了大語言模型在基因組學(xué)與精準醫(yī)療方向的廣闊前景。
另一個例子是 MOLLEO:該模型可甄別高活性分子,性能超越先前各類先進算法,這從側(cè)面證明了大語言模型對化學(xué)知識擁有潛在記憶與表征能力,并能通過搜索與采樣有效釋放出來。
總體而言,大語言模型在科學(xué)領(lǐng)域的飛躍,已為生成假設(shè)、綜合知識與破解復(fù)雜難題提供了全新引擎。
五、科學(xué)領(lǐng)域的「基礎(chǔ)模型」(Scientific Foundation Models)
與語言模型的發(fā)展異曲同工,科學(xué)領(lǐng)域也在逐漸形成「基礎(chǔ)模型」(Foundation Models)之勢:它們在生物、物理、化學(xué)乃至跨學(xué)科中均被視為下一代驅(qū)動創(chuàng)新的基石。
EvolutionaryScale 推出了 ESM3,一款面向蛋白質(zhì)語言的大模型,成功在自然進化未曾涉足的區(qū)域設(shè)計出功能性蛋白——其中最具代表性的是一個全新綠色熒光蛋白,與任何已知天然蛋白均無直接同源性。
在細胞水平建模上,Virtual Cell Initiative 則著力打造面向細胞過程的 AI 基礎(chǔ)模型(如 scGPT、UCE 等),通過高度細化的計算模擬,探尋疾病機理與細胞行為。
更進一步的,是 GenBio AI 團隊提出的 AIDO(AI-Driven Digital Organism)——一個跨越分子、細胞、組織乃至器官層面的整體模型。AIDO 將多種尺度的生物學(xué)信息進行整合,朝著更完備的數(shù)字生物系統(tǒng)邁進,也為基礎(chǔ)與轉(zhuǎn)化研究提供了全新路徑。
除了生命科學(xué),在物理領(lǐng)域,PolymathicAI 陸續(xù)發(fā)布了多組數(shù)據(jù)集,致力于構(gòu)建跨學(xué)科的物理動力學(xué)基礎(chǔ)模型;在氣候科學(xué)領(lǐng)域,Aurora與 GenCast 等模型也不斷推陳出新,為地球氣候預(yù)測與研究注入新動能。
六、小分子藥物研發(fā)
過去一年,小分子藥物設(shè)計領(lǐng)域同樣取得了諸多進展——尤其在「可合成性(synthesizability)」這一關(guān)鍵環(huán)節(jié)上,業(yè)界與學(xué)界都在加速彌合計算設(shè)計與實驗落地的鴻溝。
為確保生成的小分子不僅功能優(yōu)異,還能在實驗室順利合成,最新思路是「合成優(yōu)先」:直接在搜索和設(shè)計階段就優(yōu)先考慮可行的合成路徑。
斯坦福大學(xué)的 SyntheMol 便是這一思路的先行者:它采用蒙特卡洛樹搜索算法(Monte Carlo Tree Search)于合成路徑的廣闊空間中「漫游」,最終發(fā)現(xiàn)可抑制革蘭氏陰性菌 Acinetobacter baumannii 生長的分子先導(dǎo)化合物。在深度學(xué)習(xí)端,GFlowNet 等方法也在大規(guī)模的反應(yīng)網(wǎng)絡(luò)與分子庫中探索合成友好的化學(xué)空間,展現(xiàn)出敏捷而高效的搜索能力。
不僅如此,「分子投影」(molecular 「projection」)技術(shù)也在近年嶄露頭角。ChemProjector 就是此領(lǐng)域的代表:它能夠?qū)⒁粋€可能在現(xiàn)實中難以合成的虛擬分子,投影到一個擁有相似核心特征、卻更易合成的「可行」版本上。此舉既可修正原本難以落地的候選分子,也能基于已知先導(dǎo)化合物的「鄰域化合物」進行系統(tǒng)性拓展。
另一個范例是SynFormer:通過多模態(tài)生成的方式,它能夠覆蓋 Enamine REAL 庫的絕大部分化學(xué)空間。更難得的是,SynFormer 提出了可「模塊化」整合到任何非受限分子生成流程中的新方法,確保設(shè)計產(chǎn)物保持可合成性。在此基礎(chǔ)上,研究人員進一步將 SynFormer 與傳統(tǒng)的遺傳算法結(jié)合,證明該管線不僅令生成分子保持可合成優(yōu)勢,甚至還能提升整體優(yōu)化效率。
七、量子化學(xué)
在量子化學(xué)領(lǐng)域,Pfau 及其合作者在2024年帶來的突破性進展,或許可謂「登峰造極」。
他們提出的自然激發(fā)態(tài)變分蒙特卡洛(NES-VMC)方法,利用神經(jīng)網(wǎng)絡(luò)的高靈活度,并通過巧妙的數(shù)學(xué)變換,將激發(fā)態(tài)計算歸結(jié)為針對「擴展體系」的基態(tài)問題,從而在計算傳統(tǒng)上最棘手的激發(fā)態(tài)時取得了驚艷的準確度。
該方法在從簡單原子到苯分子等復(fù)雜體系中都能保持對化學(xué)精度的逼近,尤其在多重激發(fā)、低激發(fā)能級的體系(如對丁二烯的爭議性激發(fā)態(tài)順序)上也得到了令人信服的結(jié)果。
這項工作對于研究物質(zhì)與光的相互作用意義重大,潛在應(yīng)用更是無遠弗屆:從光催化、太陽能電池、發(fā)光二極管到量子點技術(shù),都將因更精準的激發(fā)態(tài)預(yù)測而受益。NES-VMC 的出現(xiàn),標志著人類在理解與模擬光物質(zhì)相互作用領(lǐng)域又邁進一大步,為下一代能源與光電材料的設(shè)計提供了堅實的理論基石。
八、AI-for-Science 領(lǐng)域初創(chuàng)企業(yè):生物醫(yī)藥與材料科學(xué)的崛起
2024 年對 AI-for-science 生態(tài)系統(tǒng)中的初創(chuàng)企業(yè)而言同樣具有顛覆性意義,尤其在生物科技,以及方興未艾的化學(xué)與材料科學(xué)領(lǐng)域。
在生物技術(shù)與制藥方向,多家企業(yè)迎來了重大里程碑。晶泰科技XtalPi在港股功上市,市值高達25億美元;Terray Therapeutics 和 Lambic Therapeutics 等公司也完成了可觀的融資輪次,并在各自的藥物管線中取得實質(zhì)性進展。
最令人矚目的是 Isomorphic Labs——這家源自 Google DeepMind 的衍生公司宣布與禮來(Eli Lilly)和諾華(Novartis)達成戰(zhàn)略合作,光是預(yù)付款就高達 8250 萬美元,總合同規(guī)模或可達到 30 億美元(不含后續(xù)專利費),充分說明即便是久經(jīng)沙場的巨頭也對這些專精AI模型的商業(yè)價值給予了高度認可 。
與此同時,在化學(xué)與材料科學(xué)領(lǐng)域,新的初創(chuàng)企業(yè)也開始嶄露頭角。Orbital Materials 與 DP Technology 先后發(fā)布了旨在加速分子動力學(xué)模擬的預(yù)訓(xùn)練機器學(xué)習(xí)勢能模型——Orb與DPA-2,兼具更高精準度與更快速度。
Radical AI、深度原理 Deep Principle、CuspAI 以及 Entalpic 等年輕公司也成功完成了種子輪融資,并紛紛提出了意圖重塑化學(xué)與材料發(fā)現(xiàn)在內(nèi)的雄心規(guī)劃。雖然它們對行業(yè)的長期影響有待時間檢驗,但這一批初創(chuàng)企業(yè)的出現(xiàn),標志著 AI 驅(qū)動創(chuàng)新在這些新興領(lǐng)域中已然開啟新的篇章。
當 2024 年緩緩落下帷幕,AI 與科學(xué)的深度交融已經(jīng)在多個前沿領(lǐng)域里開花結(jié)果。諾獎的殊榮固然高光,但更加扣人心弦的,是那些仍未解的難題與方興未艾的新思路。
無論是神經(jīng)網(wǎng)絡(luò)的「縮放定律」,還是非等變架構(gòu)在物理對稱性中的取舍,抑或是 LLM 在數(shù)學(xué)與精準醫(yī)療上的嶄新嘗試,以及新興初創(chuàng)企業(yè)在生物醫(yī)藥與材料科學(xué)領(lǐng)域的群雄逐鹿,都生動詮釋了 AI 正如何不斷拓展科學(xué)發(fā)現(xiàn)的邊界。
展望未來,我們有理由相信,這場從分子到宇宙的智能革命,尚在序章,而它所奏響的樂章,定將愈發(fā)雄渾。
本文章由 AI for Science 研討會系列的多位組織者共同撰寫:Sherry Lixue Cheng, Yuanqi Du, Chenru Duan, Tianfan Fu, Wenhao Gao, Kexin Huang, Ziming Liu, Di Luo and Shitong Luo(按字母順序排列)
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內(nèi)容相關(guān)的任何行動之前,請務(wù)必進行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產(chǎn)生的任何金錢損失負任何責任。