首頁(yè) > AI資訊 > 最新資訊 > 探索GenAI在生命科學(xué)領(lǐng)域的價(jià)值:從預(yù)測(cè)到創(chuàng)造

探索GenAI在生命科學(xué)領(lǐng)域的價(jià)值:從預(yù)測(cè)到創(chuàng)造

新火種    2023-12-26

人工智能深度賦能生命科學(xué)與生物醫(yī)藥數(shù)字化、智能化轉(zhuǎn)型,在解決人類生命健康問(wèn)題方面取得了眾多令人矚目的研究成果。而近期以ChatGPT為代表的生成式人工智能(Generative Artificial Intelligence,GenAI)更進(jìn)一步擴(kuò)展了數(shù)據(jù)驅(qū)動(dòng)藥物研發(fā)和醫(yī)療保健模式的能力邊界。高德納咨詢公司(Gartner)預(yù)測(cè),截至2025年使用GenAI技術(shù)系統(tǒng)研發(fā)新藥比例將從現(xiàn)在的零上升到30%以上。然而在GenAI釋放生命健康產(chǎn)業(yè)潛能的期待中,還需警惕生物信息安全問(wèn)題、生物武器威脅等帶來(lái)的諸多風(fēng)險(xiǎn)和挑戰(zhàn)。

一、GenAI賦能生命科學(xué)研究和技術(shù)創(chuàng)新

隨著人工智能技術(shù)持續(xù)的迭代升級(jí),GenAI掀起了以巨量數(shù)據(jù)、大模型架構(gòu)為技術(shù)特征和驅(qū)動(dòng)力的一場(chǎng)生產(chǎn)力方式的變革。ChatGPT、DALL·E、Stable Diffusion等應(yīng)用以豐富多元、可交互的方式率先落地應(yīng)用,生命科學(xué)領(lǐng)域也持續(xù)蓄能并嘗試探索。相較前一階段人工智能的預(yù)測(cè)作用,GenAI以大幅提升的學(xué)習(xí)能力和生成能力引領(lǐng)生命科學(xué)和生物醫(yī)藥領(lǐng)域邁入創(chuàng)造階段,為豐富的下游產(chǎn)業(yè)任務(wù)提供有力支撐。

(一)GenAI為生命科學(xué)基礎(chǔ)研究提供強(qiáng)大助力

人工智能預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)使自由控制細(xì)胞功能和生命活動(dòng)成為可能,并且其預(yù)測(cè)性能在精度、范圍、耗時(shí)方面不斷提升。2023年10月,美國(guó)谷歌DeepMind公司與歐洲生物信息研究所(EMBL-EBI)推出了重大升級(jí)版本的AlphaFold-latest,在預(yù)測(cè)地球上所有已知蛋白質(zhì)的能力基礎(chǔ)之上進(jìn)一步將準(zhǔn)確率提升10%,且預(yù)測(cè)精度可達(dá)原子級(jí)。相較于AlphaFold使用多序列匹配算法實(shí)現(xiàn)原子分辨率結(jié)構(gòu)預(yù)測(cè)的性能突破,美國(guó)Meta等科研隊(duì)伍則利用語(yǔ)言模型內(nèi)部表征的方式,實(shí)現(xiàn)了高分辨率預(yù)測(cè)的數(shù)量級(jí)加速,其開發(fā)出的最大的蛋白質(zhì)語(yǔ)言模型ESM-2僅用2周時(shí)間就預(yù)測(cè)了超過(guò)6.17億個(gè)蛋白質(zhì)結(jié)構(gòu)。這兩種技術(shù)途徑都充分展示了人工智能在提升預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)性能和創(chuàng)新性方面的巨大潛力。

預(yù)測(cè)結(jié)構(gòu)為解碼蛋白質(zhì)的三維奧秘提供了更高效手段,而GenAI為直接創(chuàng)造蛋白質(zhì)甚至是未知或不存在的功能蛋白提供了一種端到端的便捷方式,擴(kuò)增出近乎無(wú)限的、廣闊的蛋白質(zhì)序列和結(jié)構(gòu)空間,使顛覆生命科學(xué)和生物醫(yī)藥研究范式的趨勢(shì)更加顯著。目前,GenAI在蛋白質(zhì)設(shè)計(jì)、生物醫(yī)藥領(lǐng)域的應(yīng)用主要有Transformer架構(gòu)和擴(kuò)散性模型兩大構(gòu)建思路。前者的代表是美國(guó)初創(chuàng)生物醫(yī)藥公司Profuluent在2023年1月開發(fā)的蛋白質(zhì)語(yǔ)言模型Progen。該模型基于Transformer架構(gòu)的12億參數(shù)神經(jīng)網(wǎng)絡(luò),提供了一種可根據(jù)所需屬性生成特定蛋白質(zhì)的方法,從頭合成了自然界中不存在的人工酶,引起了生命科學(xué)領(lǐng)域的廣泛關(guān)注。而后者構(gòu)建思路則是采取了圖像生成領(lǐng)域常用的擴(kuò)散性模型的技術(shù)路徑,更加擅長(zhǎng)基于文本生成圖像來(lái)描述蛋白質(zhì)序列和結(jié)構(gòu)之間的關(guān)系,并以此快速生成蛋白質(zhì)的骨架結(jié)構(gòu)。例如2022年10月美國(guó)斯坦福大學(xué)和微軟研究院經(jīng)受體內(nèi)蛋白質(zhì)折疊過(guò)程的啟發(fā),引入了一個(gè)折疊擴(kuò)散(folding diffusion,F(xiàn)oldingDiff)模型,通過(guò)鏡像蛋白質(zhì)天然折疊過(guò)程實(shí)現(xiàn)蛋白質(zhì)主鏈結(jié)構(gòu)的設(shè)計(jì),解決了直接生成結(jié)構(gòu)復(fù)雜多樣的蛋白質(zhì)的難題。

 (二)GenAI引發(fā)醫(yī)藥研發(fā)的技術(shù)變革

在藥物研發(fā)方面,GenAI可以基于生物學(xué)機(jī)制、疾病臨床數(shù)據(jù)、藥學(xué)用藥數(shù)據(jù)建立藥物開發(fā)輔助模型。一方面可減少研發(fā)中的人力物力和時(shí)間投入,降低藥物研發(fā)的時(shí)間和經(jīng)濟(jì)成本,另一方面可輔助預(yù)測(cè)新藥的有效性和安全性,提升藥物研發(fā)的成功率。例如美國(guó)英矽智能(Insilico Medicine)在2022年開發(fā)出人工智能藥物發(fā)現(xiàn)平臺(tái)Pharma.AI,僅在18個(gè)月內(nèi)花費(fèi)270萬(wàn)美元就研發(fā)出全球首個(gè)由人工智能發(fā)現(xiàn)的具有全新靶點(diǎn)和分子結(jié)構(gòu)的候選藥物ISM001-055,相較于新藥研發(fā)平均耗時(shí)14年花費(fèi)19.8億美元的高昂成本,GenAI極大減少了藥物研發(fā)成本和時(shí)間。

二、探索GenAI在生命科學(xué)領(lǐng)域的創(chuàng)新應(yīng)用場(chǎng)景

生命科學(xué)研究鏈條長(zhǎng)、產(chǎn)業(yè)布局復(fù)雜,GenAI整合了生物學(xué)、化學(xué)、計(jì)算科學(xué)、藥理學(xué)和疾病治療形成綜合路徑,為小分子和大分子設(shè)計(jì)、優(yōu)化和合成提供高效工具。當(dāng)前GenAI的應(yīng)用探索尚處早期研發(fā)階段,平臺(tái)層面初露頭角,真正應(yīng)用程序還處在萌芽階段,且在各技術(shù)環(huán)節(jié)的開發(fā)程度和可應(yīng)用程度不盡相同,但整體來(lái)說(shuō)GenAI的產(chǎn)業(yè)應(yīng)用潛力充足。

GenAI為藥物發(fā)現(xiàn)和抗體構(gòu)建提供強(qiáng)大的搜索和優(yōu)化工具。在研發(fā)難度最大、研發(fā)成本最高的早期分子發(fā)現(xiàn)階段,GenAI不僅能夠建立氨基酸序列到蛋白質(zhì)結(jié)構(gòu)間的連接,更重要的是可根據(jù)某種疾病或某個(gè)靶點(diǎn)在廣闊的蛋白空間找到能夠精準(zhǔn)靶向、有效執(zhí)行功能并完成屬性調(diào)優(yōu)的新分子,以此作為最有前途的候選藥物進(jìn)行后續(xù)研發(fā),從而避免大量資源密集型的試錯(cuò)工作,提升成功率。例如加拿大多倫多大學(xué)和美國(guó)斯坦福大學(xué)根據(jù)AlphaFold預(yù)測(cè)的蛋白結(jié)構(gòu),利用AI驅(qū)動(dòng)的端到端藥物發(fā)現(xiàn)引擎PandaOmics生物計(jì)算平臺(tái)和Chemistry42生成化學(xué)平臺(tái)選定了7個(gè)分子進(jìn)行合成和生物學(xué)測(cè)試,僅用30天就發(fā)現(xiàn)了第一個(gè)藥品,成為首個(gè)成功將AlphaFold應(yīng)用于早期藥物命中發(fā)現(xiàn)識(shí)別過(guò)程的案例。而后美國(guó)華盛頓大學(xué)開發(fā)出基于深度學(xué)習(xí)的蛋白質(zhì)序列設(shè)計(jì)策略ProteinMPNN,僅通過(guò)蛋白的三維結(jié)構(gòu)信息即可從頭設(shè)計(jì)出具有高度穩(wěn)定性、特異性和親和力的結(jié)合蛋白,擴(kuò)展了不可成藥靶點(diǎn),開創(chuàng)了蛋白藥物開發(fā)的全新方式。

GenAI為腦圖像計(jì)算和腦網(wǎng)絡(luò)計(jì)算開辟新途徑。GenAI通過(guò)整合神經(jīng)影像學(xué),在提取時(shí)空腦特征和重建腦網(wǎng)絡(luò)拓?fù)溥B通性方面獲得諸多重要突破,為重建人腦活動(dòng)的視覺體驗(yàn)和理解大腦提供了具有潛力的方式。2023年3月,日本大阪大學(xué)前沿生物科學(xué)學(xué)院基于擴(kuò)散模型重建將人腦活動(dòng)進(jìn)行高分辨率圖像的重建(技術(shù)思路如下圖1)。4月,美國(guó)伊利諾伊理工學(xué)院提出一種結(jié)合了GenAI、非侵入性腦機(jī)接口、思維類型軟件的夢(mèng)境記錄新方法,能夠在快速眼動(dòng)睡眠期間產(chǎn)生用于思維輸入的信號(hào),是腦網(wǎng)絡(luò)計(jì)算的理解和應(yīng)用重要的一步。

技經(jīng)觀察丨探索GenAI在生命科學(xué)領(lǐng)域的價(jià)值:從預(yù)測(cè)到創(chuàng)造

數(shù)據(jù)來(lái)源:Takagi Y, Nishimoto S. 基于人腦活動(dòng)的潛在擴(kuò)散模型進(jìn)行高分辨率圖像重建[C]//IEEE/CVF 計(jì)算機(jī)視覺和模式識(shí)別會(huì)議論文集.2023: 14453-14463.

GenAI為復(fù)雜臨床診斷和專家系統(tǒng)提供新“智慧動(dòng)能”。GenAI賦能診療全過(guò)程。首先在輔助診斷方面,GenAI可為臨床診療決策提供有價(jià)值的參考,并改善醫(yī)學(xué)圖像質(zhì)量、替代錄入電子病歷等診斷流程,完成對(duì)醫(yī)生的智力、精力的解放,實(shí)現(xiàn)醫(yī)生群體業(yè)務(wù)能力的提升。經(jīng)美國(guó)哈佛醫(yī)學(xué)院和日本獨(dú)協(xié)大學(xué)的先后評(píng)估,生成式訓(xùn)練模型GPT-3和GPT-4在一系列具有挑戰(zhàn)性的臨床案例中的診斷,結(jié)論發(fā)現(xiàn)診斷總準(zhǔn)確性在90%以上。其次在康復(fù)治療方面,GenAI可以為失聲者合成語(yǔ)言音頻,為殘疾者合成肢體投影,為心理疾病患者合成無(wú)攻擊感的醫(yī)護(hù)陪伴等,通過(guò)用人性化的方式來(lái)?yè)嵛炕颊?,從而舒緩其情緒,加速其康復(fù)。

GenAI可在藥物再定位方面發(fā)揮積極作用。藥物再定位是指發(fā)現(xiàn)已有藥物在其他疾病領(lǐng)域的新用途。通過(guò)分析臨床數(shù)據(jù)、基因組學(xué)數(shù)據(jù)等信息,GenAI可以識(shí)別藥物在其他疾病治療中的潛在作用,從而為藥物的臨床再定位提供支持。這種方法可以節(jié)省藥物研發(fā)的時(shí)間和成本,加速藥物從實(shí)驗(yàn)室到臨床的轉(zhuǎn)化。如以色列IBM研究院和梯瓦(Teva)制藥的科研人員利用GenAI算法模擬臨床試驗(yàn),發(fā)現(xiàn)了安眠藥唑吡坦還可以作為治療帕金森癡呆癥的一種新藥物。

三、GenAI在生命科學(xué)領(lǐng)域面臨的風(fēng)險(xiǎn)與問(wèn)題

隨著GenAI不斷釋放生命科學(xué)研究潛能,生物安全和數(shù)據(jù)隱私問(wèn)題也面臨著一定的風(fēng)險(xiǎn)。

一是GenAI為生物恐怖主義提供簡(jiǎn)單便捷的實(shí)現(xiàn)手段。新技術(shù)無(wú)需從來(lái)源提取毒素,就可在細(xì)菌或細(xì)胞中培養(yǎng)出生物武器,或是在此基礎(chǔ)上將毒素與抗體結(jié)合制備出更具威脅的“融合毒素”,是生物武器的威脅的“倍增器”。美國(guó)羅切斯特大學(xué)的化學(xué)工程教授安德魯?懷特(Andrew White)進(jìn)行了GPT-4模型滲透測(cè)試,在提供了化學(xué)武器相關(guān)的科學(xué)論文和化學(xué)品制造商名錄后,得到了GPT-4推薦的可作為化學(xué)武器的神經(jīng)毒劑和制造點(diǎn)。

二是生成數(shù)據(jù)的可信度與GenAI的不可解釋性之間的矛盾增加了數(shù)據(jù)安全風(fēng)險(xiǎn)。GPT等大語(yǔ)言模型存在的信息錯(cuò)誤,或利用虛假信息進(jìn)行誤導(dǎo)和誹謗的“幻覺”問(wèn)題,以及GenAI不透明的“黑箱”理論都在一定程度上影響了藥物數(shù)據(jù)的可信度和可用性,或?qū)?dǎo)致后續(xù)研發(fā)決策出現(xiàn)偏差,無(wú)法確保藥物的安全性和有效性。同時(shí)其有限的可解釋性也使得修正生成內(nèi)容的錯(cuò)誤和偏差變得困難。

三是AI藥物研發(fā)過(guò)程中存在數(shù)據(jù)隱私問(wèn)題。藥物研發(fā)涉及大量的患者數(shù)據(jù)和臨床試驗(yàn)數(shù)據(jù),其中包含患者的個(gè)人身份信息和健康信息,涉及隱私和安全的問(wèn)題。如果GenAI模型在數(shù)據(jù)處理和存儲(chǔ)過(guò)程中存在漏洞,可能會(huì)導(dǎo)致患者數(shù)據(jù)泄露、濫用或被不當(dāng)使用,從而引發(fā)潛在的法律訴訟和聲譽(yù)損害。

技經(jīng)觀察丨探索GenAI在生命科學(xué)領(lǐng)域的價(jià)值:從預(yù)測(cè)到創(chuàng)造

數(shù)據(jù)來(lái)源:麥肯錫官網(wǎng)

四是數(shù)據(jù)來(lái)源和處理是掣制GenAI在生命科學(xué)和醫(yī)藥領(lǐng)域研究最大痛點(diǎn)。一方面,目前結(jié)構(gòu)生物學(xué)數(shù)據(jù)的質(zhì)量和數(shù)量遠(yuǎn)遠(yuǎn)無(wú)法滿足生成式模型的訓(xùn)練需求;另一方面,蛋白質(zhì)序列的數(shù)據(jù)標(biāo)簽處理成本十分高昂,或?qū)ρ邪l(fā)工作帶來(lái)較大的資金壓力影響開發(fā)進(jìn)度。

結(jié)語(yǔ)

GenAI為生命科學(xué)新業(yè)態(tài)和新模式注入創(chuàng)新動(dòng)能,未來(lái)也將持續(xù)向更經(jīng)濟(jì)、更高效、更快速的階段發(fā)展,包括運(yùn)行計(jì)算成本的下降,以及越來(lái)越多大模型的開源等。生命科學(xué)和生物醫(yī)藥領(lǐng)域前景令人期待,但要真正發(fā)揮從研發(fā)到落地的驅(qū)動(dòng)作用,還需要政府和產(chǎn)業(yè)聯(lián)動(dòng)搭建產(chǎn)業(yè)生態(tài),堅(jiān)持監(jiān)管規(guī)范和促進(jìn)發(fā)展兩手并重,加強(qiáng)與行業(yè)特異性場(chǎng)景深度融合,才能推進(jìn)AI+生命科學(xué)產(chǎn)業(yè)的安全穩(wěn)健發(fā)展。

參考文獻(xiàn):

Madani A, Krause B, Greene E R, et al. Large language models generate functional protein sequences across diverse families[J]. Nature Biotechnology, 2023: 1-8.

Wu K E, Yang K K, Berg R, et al. Protein structure generation via folding diffusion[J]. arXiv preprint arXiv:2209.15611, 2022.

Perron Q, Mirguet O, Tajmouati H, et al. Deep generative models for ligand‐based de novo design applied to multi‐parametric optimization[J]. Journal of Computational Chemistry, 2022, 43(10): 692-703.

Ren F, Ding X, Zheng M, et al. AlphaFold Accelerates Artificial Intelligence Powered Drug Discovery: Efficient Discovery of a Novel Cyclin-dependent Kinase 20 (CDK20) Small Molecule Inhibitor[J]. arXiv preprint arXiv:2201.09647, 2022

Dauparas J, Anishchenko I, Bennett N, et al. Robust deep learning–based protein sequence design using ProteinMPNN[J]. Science, 2022, 378(6615): 49-56.

Nair R, Mohan D D, Setlur S, et al. Generative models for age, race/ethnicity, and disease state dependence of physiological determinants of drug dosing[J]. Journal of Pharmacokinetics and Pharmacodynamics, 2022: 1-12.

Hirosawa T, Harada Y, Yokose M, et al. Diagnostic accuracy of differential-diagnosis lists generated by generative pretrained transformer 3 chatbot for clinical Vignettes with common chief complaints: A pilot study[J]. International Journal of Environmental Research and Public Health, 2023, 20(4): 3378.

作者簡(jiǎn)介

戴吉 國(guó)務(wù)院發(fā)展研究中心國(guó)際技術(shù)經(jīng)濟(jì)研究所研究三室

研究方向:生物領(lǐng)域形勢(shì)跟蹤及關(guān)鍵核心技術(shù)、前沿技術(shù)研究

編輯丨鄭實(shí)

相關(guān)推薦
免責(zé)聲明
本文所包含的觀點(diǎn)僅代表作者個(gè)人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對(duì)本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險(xiǎn),讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前,請(qǐng)務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對(duì)因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。

熱門文章