首頁 > AI資訊 > 最新資訊 > AI蛋白質(zhì)奪諾獎,清華聶再清:大模型解碼生物語言|智者訪談

AI蛋白質(zhì)奪諾獎,清華聶再清:大模型解碼生物語言|智者訪談

新火種    2024-11-15

人工智能的卓越發(fā)展

源于對技術(shù)與產(chǎn)業(yè)本質(zhì)的洞察

機器之心視頻欄目「智者訪談」

邀請領(lǐng)域?qū)<遥聪?AI 核心趨勢

深化行業(yè)認知,激發(fā)創(chuàng)新思考

與智者同行,共創(chuàng) AI 未來

圖片

2024 年諾貝爾化學獎頒發(fā)給了在計算蛋白質(zhì)設(shè)計和蛋白質(zhì)結(jié)構(gòu)預(yù)測領(lǐng)域做出突出貢獻的三位科學家,凸顯了人工智能和計算方法在解析生物語言中的關(guān)鍵作用,也預(yù)示著 AI 技術(shù)在生物醫(yī)藥領(lǐng)域更為廣闊的應(yīng)用前景。然而,藥物研發(fā)作為一個漫長而艱難的過程,10 年、10 億美元、10% 成功率的「魔咒」仍然困擾著整個行業(yè)。盡管人工智能已經(jīng)在多個環(huán)節(jié)展現(xiàn)出巨大潛力,業(yè)內(nèi)專家普遍認為,距離 AI 藥物研發(fā)發(fā)展成熟甚至帶來顛覆性改變還需要很長一段時間。大模型的出現(xiàn),為加速這一進程提供了新的契機。本期機器之心《智者訪談》邀請到清華大學聶再清教授,探討他在將先進的自然語言處理技術(shù)應(yīng)用于生物醫(yī)藥數(shù)據(jù)分析的創(chuàng)新實踐。聶教授及其團隊正致力于構(gòu)建生物醫(yī)藥領(lǐng)域的基座大模型,通過對不同尺度和不同模態(tài)的數(shù)據(jù)進行建模及整合,建立起生物語言與自然語言之間的橋梁。團隊的目標不僅僅是實現(xiàn)自然語言與生物語言之間的翻譯,而是打造一個能夠調(diào)用各種工具的智能助手。這個助手有望成為生物醫(yī)藥行業(yè)應(yīng)用的重要入口,整合領(lǐng)域內(nèi)的各種數(shù)據(jù)、知識和工具,并且使用自然語言與人類專家交互,通過人機協(xié)作提升藥物研發(fā)的效率與成功率。在當前的技術(shù)背景下,相較于單純研發(fā)更好的 AI 藥物模型,這種模式具有更高的商業(yè)可行性。圖片

基于大模型的對話式藥物研發(fā)助手 ChatDD 界面,用戶通過自然語言進行智能搜索、工具調(diào)用和指令輸入,包括對生物語言(如蛋白質(zhì)結(jié)構(gòu))進行優(yōu)化。例如,專家可以輸入自然語言要求「優(yōu)化這個分子以減少毒性」,模型隨后會提供相應(yīng)的建議和方案。來源:水木分子如果說數(shù)學是描述物理學的完美語言,那么人工智能則被認為是破譯生物學復(fù)雜機理的關(guān)鍵。在訪談中,聶教授將分享其團隊在自然語言與生物數(shù)據(jù)融合方面的前沿研究成果,探討基于多模態(tài)大模型的對話式智能助手在藥物研發(fā)中的實際應(yīng)用與商業(yè)潛力,為我們揭示人工智能賦能藥物研發(fā)的全新可能。

時間戳

01:15 藥物研發(fā)痛點:干濕實驗不結(jié)合

02:28 做基于大模型的對話式藥物研發(fā)助手

06:30 構(gòu)建生物醫(yī)藥領(lǐng)域的基座大模型

10:03 多尺度建模與融合:統(tǒng)一到原子

17:45 藥物研發(fā)助手 ChatDD

21:16 商業(yè)模式:最終目標是成為行業(yè)入口

25:38 哪些行業(yè)適合研發(fā)垂直大模型?

28:37 藥物研發(fā)的未來

訪談文字整理

機器之心:聶再清教授好,非常高興您做客機器之心的《智者訪談》。我們知道您在自然語言處理和語音識別等方面有著深入的研究和實踐,目前在清華大學智能產(chǎn)業(yè)研究院(AIR),主要從事生物醫(yī)藥相關(guān)的研究工作,并且在 AlR 孵化的公司水木分子擔任首席科學家,很高興能與您就 AI 賦能藥物研發(fā)進行探討。您之前講過在藥物研發(fā)領(lǐng)域,一個核心的矛盾就是干濕實驗無法結(jié)合,比如說干實驗預(yù)測出來的結(jié)果在濕實驗上面可能并不成功。聶再清:因為干實驗一個最大的問題是,其結(jié)果是基于某一個數(shù)據(jù)集的,而那個數(shù)據(jù)集跟現(xiàn)實生活中的真實場景并不一定完全一致,所以基于這個數(shù)據(jù)集訓(xùn)練出的模型,用在真實場景時,有可能效果就差別很大,很難說一個精度 80%、90% 的模型在濕實驗的結(jié)果里能具體代表什么。當然,我們可以去建一個非常通用的數(shù)據(jù)集,用以去提升模型的通用性,但現(xiàn)在的問題是數(shù)據(jù)集的制定和現(xiàn)實制藥場景的制定,可能還沒有那么好的一致性。在具體任務(wù)上,最終效果還是得通過濕實驗檢驗,模型效果到底怎么樣,是否可用,濕實驗的效果是非常重要的。

01、做基于大模型的對話式藥物研發(fā)助手

機器之心:您在水木分子帶領(lǐng)團隊研發(fā)基于大模型的對話式藥物研發(fā)助手,這是一個非常新穎而獨特的賽道,因為說到藥物研發(fā),我們首先想到是預(yù)測結(jié)構(gòu)、生成新的分子、設(shè)計全新的抗體等等,您為什么會選擇解決這樣一個問題?聶再清:我一直從事自然語言理解這部分的工作,我發(fā)現(xiàn) ChatGPT 或者大模型確實是一個很大的技術(shù)進步,也讓大家看到很大的機會,有可能在通用 AI 能力上取得較大進展。選擇在這個時期加入大模型相關(guān)的工作,因為我看到未來大模型在每個行業(yè)里面都會產(chǎn)生非常重要的作用。那為什么選生物醫(yī)藥?首先生物醫(yī)藥這個領(lǐng)域,有很多可以拿來做自監(jiān)督學習的數(shù)據(jù),比如我們已經(jīng)積累了超過 20 億的蛋白質(zhì)氨基酸序列數(shù)據(jù)。我認為這個領(lǐng)域現(xiàn)在應(yīng)該可能處于自然語言的 GPT-2 時期,模型的能力尚不能夠在生物數(shù)據(jù)這個模態(tài)上涌現(xiàn)智能,也就是說不是每一款干實驗?zāi)P皖A(yù)測的藥物,都能超過專家。在這種情況下,我們希望能夠把專家的經(jīng)驗和直覺與大模型目前對生物這一部分的理解能力融合在一起,所以就提出了一個對話式助手的想法,一方面把專家的經(jīng)驗跟直覺用對話的形式告訴大模型,去幫助大模型,另一方面又把大模型設(shè)計的結(jié)果用自然語言解釋給專家聽。這樣讓人和大模型有效融合,去彌補現(xiàn)在生物模態(tài)本身還沒有完全實現(xiàn)涌現(xiàn)智能的不足。如果我只做生物模態(tài),就像很多公司那樣,一個最大的問題是我們推薦的分子或者說抗體,可能并不能夠在濕實驗上一做就有效果,臨床完就通過了,因為它現(xiàn)在還沒那么有效。很多時候,在干實驗上做得很好的結(jié)果,比如我拿排名第一的或排名前十的結(jié)果去做濕實驗,可能沒有一個成功。至于專家,盡管專家有制藥的經(jīng)驗與直覺,但他沒有辦法跟模型有效溝通,模型并沒有向?qū)<医忉尩降诪槭裁搭A(yù)測出這樣的結(jié)果。機器之心:因為設(shè)計模型的人并不是藥物研發(fā)專家。聶再清:對,藥物研發(fā)專家也沒有時間天天去寫模型,那專家能做的是什么呢?在小模型時代,專家可能做的就是去構(gòu)建一個訓(xùn)練數(shù)據(jù)集,用于訓(xùn)練模型,但這件事也要花很多時間,而且做了之后到底能不能大幅提升這個小模型的性能,也是一個問題,如果沒有提升,專家的信心就受挫了,就不去寫訓(xùn)練數(shù)據(jù)了。從怎么有效地把專家跟人工智能算法結(jié)合起來的角度,我覺得需要兩個模型的融合,這是在交互的層面,在知識融合這個層面,其實也需要兩個模態(tài)模型的融合,我們現(xiàn)在已經(jīng)有大量用自然語言寫下來的知識,比如發(fā)現(xiàn)了一個靶點,也就是發(fā)現(xiàn)了一個蛋白質(zhì)和疾病的關(guān)聯(lián),那么這一部分知識如何與生物模態(tài)的知識融合在一起,也是一個亟待打通的問題。所以基于這樣的考慮,我們決定做基于大模型的對話式藥物研發(fā)助手。

02、構(gòu)建生物醫(yī)藥領(lǐng)域的基座大模型

機器之心:水木分子團隊研發(fā)了一個叫做 ChatDD-FM 的大模型,您能給我們介紹一下這個模型嗎?聶再清:我們希望 ChatDD-FM 成為這個行業(yè)的基座模型。要成為基座模型,它首先就得能夠表示這個行業(yè)里面用到的所有數(shù)據(jù),當然也能夠去完成這個行業(yè)里的任務(wù),同時還要能夠與生物醫(yī)藥行業(yè)里面的專家去進行對話,能夠調(diào)用這個行業(yè)里面所有的工具去解決專家們的問題。所以在這里面天然就存在兩類模態(tài)數(shù)據(jù)的表示,一類是文本模態(tài),還有一類是生物模態(tài)。那文本模態(tài)除了自然語言,還有結(jié)構(gòu)化的知識(比如知識庫)和非結(jié)構(gòu)化的表示。生物模態(tài)里面則有蛋白質(zhì)分子、氨基酸序列、單細胞、活性小分子,等等。這里面的每一種生物數(shù)據(jù),我們都會去打造一個編碼器,比如我們會有一個蛋白質(zhì)的編碼器,也可以叫做蛋白質(zhì)語言大模型,也有小分子的大模型,單細胞的大模型……對于這每一個大模型,我們也希望專家能夠用自然語言去理解、去溝通,因為專家看到一個蛋白質(zhì),或者看到一個小分子,對于這個結(jié)構(gòu)本身,對于它的生物學功能,比如這個小分子基團放在這里可能會帶來什么樣的功能等等,這樣一些生物模態(tài)語義的信息,其實專家是希望能夠去與系統(tǒng)交互的。所以我們構(gòu)建了一個多模態(tài)的生物醫(yī)藥大模型,能夠在自然語言和生物語言之間進行翻譯,專家可以用自然語言去提問,他甚至可以用自然語言去說,「幫我再優(yōu)化一下這個分子,減少一下毒性」,然后模型反饋一些不同的建議。機器之心:比如說我可以直接輸入一句話,「給我設(shè)計一個感冒藥」,然后它就輸出一個感冒藥?聶再清:對,理論上是可以的,但從實踐角度講,基于現(xiàn)在這個大模型的能力,這樣做可能不是最優(yōu)的,現(xiàn)在最優(yōu)的方法可能是給它一個小分子或者一個骨架,專家用自然語言說「如果更換這個骨架,或者提升某一個性能,需要做什么,給我一些建議」。甚至最好也不是從頭生成一個分子,因為從頭生成分子涉及到很多復(fù)雜的過程和反應(yīng),我們需要了解其中的具體細節(jié),比如這個分子它是怎么合成的等等。因此,可能最好還是通過虛擬篩選的方法,或者說在生成一個分子的時候,然后找到一個跟這個分子相似的的可合成的藥物,在此基礎(chǔ)上再接著優(yōu)化。當然,在實踐中這個過程可能會有所不同,但一定是可以用自然語言去跟大模型溝通的,讓大模型可以朝語義方向去優(yōu)化。

03、多尺度建模及融合:統(tǒng)一到原子

機器之心:在生物模態(tài)里既有細胞,又有蛋白質(zhì)、組織等等,如何在一個模型里面把這些不同尺度、不同模態(tài)的數(shù)據(jù)都統(tǒng)一到一起,并且去表達它們之間的這些復(fù)雜關(guān)系呢?聶再清:這個是一個很好的問題。人體有很多組織,每個組織都有不同的功能,在肝臟就是排毒的,在眼球就是看東西的,因此存在很強的語義(Semantic meaning)。同時,眼球本身又具有空間結(jié)構(gòu),它里面有很多細胞,細胞之間要產(chǎn)生相互作用,在每個細胞里面又有蛋白質(zhì),蛋白質(zhì)和藥物如果要相互作用,可能要與小分子結(jié)合,那么化學小分子里的原子去產(chǎn)生作用,與蛋白里的氨基酸結(jié)合本身就是一個不同的尺度。我們的自然語言也是一樣,我們可能有圖書館,可能是分類別的圖書館,有不同功能的圖書館,圖書館里面又有一本本的書,書里面又有章節(jié)(Section),里面又有段落(Paragraph),最后到詞,對吧?所以我們覺得人體、生物語言,可能跟自然語言類似,這里面也可以找到一個最基本的 Token,那就是原子。所以,我們認為基于原子有可能打造一個非常好的生物模態(tài)的基礎(chǔ)模型,能夠表達包含小分子和蛋白等不同尺度的相互作用,并且未來可能有更多的生物語義發(fā)展起來,所以我們覺得這是一個解決多尺度建模問題的重要方法。最近我們有合作提出一個工作,起了個名字叫 ESM All-Atom(ESM-AA)。這個模型通過將蛋白質(zhì)的一部分氨基酸展開(Unzip),把它整合成對應(yīng)的原子,通過混合蛋白數(shù)據(jù)與分子數(shù)據(jù)進行預(yù)訓(xùn)練,這樣模型就同時具備了處理不同尺度生物結(jié)構(gòu)的能力。訓(xùn)練的時候,不光有蛋白質(zhì),我們還把分子、小分子數(shù)據(jù)也放在模型里面。為了幫助模型更好地學習和優(yōu)化原子尺度的信息,我們還利用原子尺度的分子結(jié)構(gòu)數(shù)據(jù)進行訓(xùn)練。通過引入多尺度位置編碼的機制,模型可以很好地對不同尺度的信息進行區(qū)分,確保模型能夠精準理解殘基層面和原子層面的位置和結(jié)構(gòu)的信息。

圖片

ESM-AA 模型多尺度預(yù)訓(xùn)練過程概覽。核心是多尺度位置編碼(Multi-scale PE)模塊,分別處理蛋白質(zhì)和分子的不同尺度信息。模型的輸入是單獨的蛋白質(zhì)或分子,而不是蛋白質(zhì)-分子對,這種設(shè)計使得模型能夠?qū)W習更通用的表示,適用于各種蛋白質(zhì)-分子相互作用任務(wù)。來源:Zhenget al., arXiv:2403.12995, 2024機器之心:在您看來,如果我們要把所有的生物模態(tài)都統(tǒng)一到一個框架下面來表示,還有哪些難點需要去克服?聶再清:如果要實現(xiàn)一個統(tǒng)一的框架來表示生物模態(tài)信息,首先要有很多的數(shù)據(jù),把人體的組織、細胞、蛋白以及小分子藥物之間的關(guān)系,通過高通量測序等技術(shù)進行數(shù)字化,這樣就能產(chǎn)生大量的數(shù)據(jù)。未來有了數(shù)據(jù)之后,怎么打磨一個模型?這個模型能夠既考慮宏觀又考慮細節(jié),我覺得有可能像視覺識別里面的物體檢測(Object Detection),每個區(qū)域都有語義,例如里面有一輛車、車上有輪子、輪子還有很多更細的 Object,當然最后它們都由最基本單元——像素(Pixel)組成。計算機視覺有很多跨尺度研究的工作,與我們最近研究的空間轉(zhuǎn)錄組單細胞表示學習工作有些類似。

圖片

團隊提出了單細胞與文本跨模態(tài)大模型 LangCell,將單細胞 RNA測序(scRNA-seq)數(shù)據(jù)和相關(guān)的元數(shù)據(jù)(如細胞類型、發(fā)育階段和疾病狀態(tài))整合到一個統(tǒng)一的框架中,實現(xiàn)對單細胞數(shù)據(jù)的全面理解和多模態(tài)表示。來源:S. Zhao et al., LangCell: Language-Cell Pre-training for Cell Identity Understanding, ICML 2024但是,在融合單細胞、蛋白質(zhì)和小分子這些跨尺度的生物數(shù)據(jù)上,在算法上又需要有大量的創(chuàng)新。不同尺度之間存在復(fù)雜的相互影響和依賴關(guān)系,如何在模型中準確捕捉和保持這些關(guān)系是一個重大挑戰(zhàn)。對此,可以設(shè)計跨尺度的注意力機制,確保不同尺度的信息能夠有效地互相影響和補充,幫助模型有效整合不同尺度的信息,從而提升模型的準確性和魯棒性。不同模態(tài)的數(shù)據(jù)在結(jié)構(gòu)、尺寸和特征分布上存在顯著差異,如何有效整合這些異質(zhì)數(shù)據(jù)是另一個關(guān)鍵挑戰(zhàn)。未來我們計劃將更多生物模態(tài)的數(shù)據(jù)都映射到原子表示空間,實現(xiàn)數(shù)據(jù)的兼容和互操作,確保不同尺度和模態(tài)的數(shù)據(jù)都在一個共享的表示空間中進行映射和交互,實現(xiàn)信息的無縫融合。在模型訓(xùn)練過程中,可以結(jié)合多任務(wù)學習,比如蛋白質(zhì)折疊、Co-folding、蛋白質(zhì)-小分子相互作用預(yù)測、藥物毒性預(yù)測、分子編輯等等,提升模型的泛化能力。利用大規(guī)模的生物數(shù)據(jù)進行預(yù)訓(xùn)練,捕捉豐富的生物知識和多尺度信息,為下游任務(wù)提供一個強大的生物數(shù)據(jù) Foundation Model。機器之心:那現(xiàn)在水木分子在數(shù)據(jù)這方面有什么投入,或者是說重點投入在哪里?聶再清:我們現(xiàn)在大量的數(shù)據(jù)還是基于公開數(shù)據(jù),就是已經(jīng)做了實驗也被公開出來的數(shù)據(jù)。除了這種實驗數(shù)據(jù)以外,我們還有很多文本數(shù)據(jù),其中可能有幾千萬的論文、專利,還有很多結(jié)構(gòu)化的知識庫數(shù)據(jù),那么,這些數(shù)據(jù)如何去跟生物模態(tài)的數(shù)據(jù)對齊,這部分的工作很有挑戰(zhàn),也是我們數(shù)據(jù)工作的重點。假設(shè)你要去找到一個小分子跟文本的對齊的 Pair,那這個文本不僅要能描述這個小分子,還應(yīng)該方方面面都講到,從不同的角度去描述,我們叫做多視角(Multiview representation),比如關(guān)于小分子的描述,可以是關(guān)于小分子的基團,每個基團起什么作用,也可以是小分子在宏觀上的性質(zhì),還可能是這個小分子在某些結(jié)構(gòu)上某些功能的描述,這樣才有利于大模型學習。不光是在數(shù)據(jù)處理上,在模型的研發(fā)上最好都能考慮到這些。

圖片

團隊提出的分子表示學習模型 MV-Mol,將化學結(jié)構(gòu)的專業(yè)知識和生物醫(yī)學文本中的非結(jié)構(gòu)化知識以及知識圖譜中的結(jié)構(gòu)化知識融合到一起,利用文本提示來模擬視圖信息,并設(shè)計了一個融合架構(gòu)來提取基于視圖的分子表示,實現(xiàn)了對分子特性的更準確預(yù)測以及在分子結(jié)構(gòu)和文本的多模態(tài)理解方面的性能提升。來源:Y. Luo et la., Learning Multi-view Molecular Representations with Structured and Unstructured Knowledge, KDD 2024

我們要做這個行業(yè)的助手,就得把知識搞準確,我剛才講的是用來訓(xùn)練模型的數(shù)據(jù),還有一部分數(shù)據(jù)是在用戶在提問的時候,我們也要把最準確的知識回答給用戶,為了具備這樣的能力,那對于這部分能力,我們正在建一個水木分子的知識庫。我在微軟做了很多實體挖掘、實體搜索的工作,其實在很早以前我做過一個叫做「人立方」的項目,把各個人的各個信息,不管是結(jié)構(gòu)化的、非結(jié)構(gòu)化的都集合起來,然后用一個搜索,一搜就能夠搜到關(guān)于這個人的各種各樣的信息,那個工作在知識圖譜那個年代還是比較有引領(lǐng)作用的,對于我們正在構(gòu)建的水木分子知識庫,也有很多的借鑒意義。我們正在做一個叫 EntityChat 的技術(shù),希望對一個實體的問題,可以利用它的結(jié)構(gòu)化知識、非結(jié)構(gòu)化的知識和生物模態(tài)的知識去回答。

04、藥物研發(fā)助手 ChatDD:

產(chǎn)品、服務(wù)及商業(yè)模式

機器之心:水木分子現(xiàn)在是已經(jīng)推出了產(chǎn)品級的應(yīng)用 ChatDD,您能夠結(jié)合具體的使用場景給我們介紹一下嗎?聶再清:我們希望 ChatDD 成為這個行業(yè)的助手,所以希望它能夠解決藥物研發(fā)各個環(huán)節(jié)中的問題。我們現(xiàn)在主要集中在三大類場景:立項、臨床前藥物研發(fā),以及臨床試驗。在每個領(lǐng)域我們都希望找一個燈塔客戶去合作,看一看他們的真實需求是什么,我們模型和數(shù)據(jù)的能力要怎么才能夠去解決他們最核心的痛點,所以每個場景都不大容易。以立項為例,我們也在與一個比較頭部的公司在合作。如果藥廠要開展一個項目,首先需要找到足夠的證據(jù)提交給這個公司的立項委員會,假設(shè)每個公司都有一個立項委員會,它肯定要去做一個規(guī)劃方案,提供足夠的材料證明這是一個好項目,能為公司帶來巨大的前景,或者說風險有限,或者我們必須去做等等。當然,藥物研發(fā)的項目有多種,可能是創(chuàng)新藥項目,也叫 First-in-class,也可能是 Best-in-class,就是這個藥人家已經(jīng)有了,那我們做得更好;還有一個就是仿制藥,別人專利過期了,我們把它給做出來,只要能賺錢也可以。不同的立項,用到的數(shù)據(jù)和模型的能力可能也不大一樣。但不管你做創(chuàng)新藥還是做 Best-in-class 或是仿制藥,都要去考慮市場和行業(yè)競爭對手。其他的藥發(fā)展怎么樣,這個疾病的人群怎么樣,這種藥現(xiàn)在有沒有專利,專利是不是要到期,這樣海量信息的融合、查找以及預(yù)測,如果讓人去做,是非常 Time consuming 的,那用大模型就能夠很好地解決這一部分的工作。然后還要與專家密切溝通,專家還得要用提示詞(Prompt),不斷地去利用經(jīng)驗和直覺,與大模型互動,最終還是得讓專家做出判斷。大模型則是能夠給專家提供足夠的證據(jù)或者建議,說發(fā)現(xiàn)了這個通路,或者發(fā)現(xiàn)了這個東西可能是個通路,或者說前人已經(jīng)在這個方面提出過這么一個觀點,正好能融合上……通過 ChatDD 這種不斷的交互,我們希望讓這個項目的帶頭人,他和他的團隊最后能夠找到一個非常好的市場空間,去助力他給公司提供立項證明。機器之心:ChatDD 已經(jīng)能夠在立項這個環(huán)節(jié)起到非常大的幫助了?聶再清:對,我們的客戶反應(yīng)還是非常好的。機器之心:那您公司的產(chǎn)品是模型還是服務(wù)或是其他呢?聶再清:我是覺得我們的盈利模式還是比較多種的,一種就是大模型,客戶可以進行賬號訂閱,也可以進行云部署或私有化部署。在剛開始階段這是一個比較好的盈利模式。我們現(xiàn)在正在啟動的一個模式,是提供一些服務(wù)。我們公司可能有些顧問,有些生物專家,用 ChatDD 幫客戶立項,或者去做臨床前的藥物發(fā)現(xiàn),或者做臨床,這個模式對我們打造產(chǎn)品也很有好處,能夠提升我們模型的能力,同時端到端地解決客戶問題。做到一定程度以后,如果我們成為這個行業(yè)里靠前的提供商,大量的生物醫(yī)藥任務(wù)都是由 ChatDD 在幫忙解決,我們可能還有一個模式,那就是應(yīng)用商店。因為 ChatDD 要解決問題,并不是完全靠自己的大模型,它還要去查閱行業(yè)內(nèi)最好的數(shù)據(jù),去調(diào)用行業(yè)內(nèi)別的好用的工具。通過這樣的一個助手,把行業(yè)里所有工具整合起來的應(yīng)用商店模式,我覺得在未來會是一個非常重要的盈利模式,不僅僅是 ChatDD,我覺得未來 ChatGPT,或者說 Llama,就是 Facebook(Meta)可能也會采用這樣的模式,因為它開源之后大家都在用,就有很多整合的空間。那這樣的話這個模式可能就變成了,如果我們 ChatDD 使用了第三方的工具,我們付費給第三方,但抽一部分成。同時也可以開展廣告,比如告訴客戶說有個新的工具,你要不要試一試。助手一旦真正在用戶心智中占了主要的地位,在賦能這個行業(yè)的生態(tài)上面其實有非常大的空間。最終,我覺得在生活上可能會有一個應(yīng)用商店,在工作上每個行業(yè)又會有一個行業(yè)的應(yīng)用商店。機器之心:經(jīng)過您剛才的介紹,徹底打開了我對于藥物研發(fā)助手的理解,最開始的時候我還局限在如何去研發(fā)更好的藥,如果真正成了一個入口級別的助手,將來的想象力是非常大的。聶再清:這樣一個(人機交互)入口模式,其實也不只是在大模型火之后才有的,之前我不是在做天貓精靈嗎,那時候很多大廠都在做語音助手。那個助手跟現(xiàn)在這個助手一樣,都是希望成為交互入口,為什么大家都投那么多錢去做?就是擔心一旦有的助手成了(新的)入口,以前的商業(yè)模式就不在了,所以大家都花了重金去做這件事。當時我們做的也是不錯的,就是在封閉域,也就是在經(jīng)過訓(xùn)練的領(lǐng)域,能夠做得非常不錯。舉個例子,我們在播放助手上就做得不錯,這就是一個封閉域,你可以播放音樂、播放電視,在語音助手出現(xiàn)之前,用戶需要使用遙控器輸入文字來搜索內(nèi)容,操作繁瑣。現(xiàn)在直接就用語音,就很簡單,而且最后它還要推薦,比如推薦某首歌,就很難拒絕,每次都問你不聽這首歌嗎?這很難的。在封閉領(lǐng)域,我們上一代的技術(shù)就已經(jīng)非常好了,準確度很高,對用戶也已經(jīng)產(chǎn)生了價值。機器之心:因為它是基于用戶的愛好學習過的。聶再清:對的,所以 ChatGPT,包括我們現(xiàn)在的 ChatDD,最大的技術(shù)進步就是在開放域上,也就是沒有經(jīng)過訓(xùn)練的領(lǐng)域,它也能夠觸類旁通,為什么說它是通用人工智能的曙光?你在 n 個任務(wù)上用自然語言提示作為訓(xùn)練,在第 n+1 個沒訓(xùn)練的任務(wù)上它也提升了,那離這個助手的愿景就更近了。機器之心:在生物醫(yī)藥行業(yè)里面,對這樣的一個全新的助手,接受程度怎么樣呢?聶再清:最近我們也在跟很多客戶聊,我覺得前景是非常好的。這樣一個助手它有幾個階段,第一個階段可能提供很多工具的調(diào)用以及翻譯的能力,就是把生物語言與自然語言進行翻譯,這是馬上就能幫到的。但是在生物模態(tài)上直接幫助進行藥物的設(shè)計,不管是小分子還是大分子設(shè)計,雖然現(xiàn)在也能幫,但效果可能在濕實驗上還不能完全超越人類專家,所以我們得人機協(xié)作。如果有一天模型能夠自行設(shè)計出每一個分子,人類基本上都只能仰視的時候,那我感覺我們生物醫(yī)藥的「ChatGPT 時刻」就到來了。

05、哪些行業(yè)適合研發(fā)垂直大模型

機器之心:現(xiàn)在關(guān)于通用大模型和垂直大模型有一個爭議,是從頭訓(xùn)練一個自己行業(yè)的大模型,還是拿一個開源的基座,用自己的數(shù)據(jù)來微調(diào),這兩者之間的差異如何判斷?聶再清:我個人覺得可能不需要從頭訓(xùn)練一個文本的大模型,因為文本這個自然語言的語法,通用大模型都學到了,因為它(數(shù)據(jù))多,多的話就學得更準,理解得更清楚。但是在垂直行業(yè)里面,可能有很多自己的數(shù)據(jù),這些數(shù)據(jù)不是自然語言,它有自己的語法,那這個時候你用通用大模型也學不了,對吧?那所以這個行業(yè)是否需要一個垂直大模型,關(guān)鍵是它有沒有自己獨特語法的數(shù)據(jù),這個數(shù)據(jù)非常影響它下游任務(wù)的性能,如果是,這就是一個需要垂直大模型的行業(yè)。當然,是不是只做這個行業(yè)模態(tài)的大模型就行了呢?也不行,為什么呢?因為每個行業(yè)里都有人,都積累了很多行業(yè)內(nèi)部的知識,這些知識是用自然語言構(gòu)成的,那人也希望用自然語言跟這個大模型進行交互。為了讓人能夠更好地交互,更好地去了解這個行業(yè)的數(shù)據(jù),我們還需要一個多模態(tài)大模型,將自然語言和這個行業(yè)數(shù)據(jù)對齊,進行翻譯。機器之心:尤其是生物醫(yī)藥這樣的行業(yè),包括化學、新材料。聶再清:自動駕駛。機器之心:那比如說法律大模型,其實就沒有必要自己從頭訓(xùn)練一個,就用基座大模型,然后用專有的數(shù)據(jù)微調(diào)就好了?聶再清:對,做持續(xù)訓(xùn)練(Continue train)和做 SFT 就比較足夠。機器之心:那這個非自然語言模態(tài)的行業(yè)大模型,要實現(xiàn)智能涌現(xiàn),或者是說足夠智能能夠幫助人或者是與人協(xié)作,它的規(guī)模有一個閾值嗎?聶再清:規(guī)模的來講我覺得肯定也不能太小,一般都說至少 10B 以上。如果有這樣的數(shù)據(jù),我們需要去找到訓(xùn)練這個多模態(tài)大模型的 Pair 數(shù)據(jù),也就是文本和這個行業(yè)模態(tài)數(shù)據(jù)的對齊的 Pair,找到很多這樣的 Pair,這是需要領(lǐng)域知識才能夠去找全、找準。如果不全不準,那可能不行。所以一個做行業(yè)大模型的公司,肯定也需要跟這個行業(yè)的專家一起構(gòu)建行業(yè)大模型。

06、藥物研發(fā)的未來

機器之心:您之前提到未來一定是人機協(xié)作式的藥物研發(fā),您能描述一下您理想中的人機協(xié)作式藥物研發(fā)具體是什么樣子的嗎?聶再清:人機協(xié)作的藥物研發(fā)最好的方式就是把人的長處和機器的長處都用上。人的長處在我看來是什么呢?更多的是這個人的經(jīng)驗和直覺。那機器的長處是什么呢?如今大模型能夠幫我們處理海量的數(shù)據(jù),調(diào)用各種各樣的工具,然后自動化地、高效率地去計算,所以把這兩個長處利用好,是我覺得人機協(xié)作最重要的一件事情。具體來講,像 ChatDD,我們就希望制藥的那些「老法師」,能夠把他們的經(jīng)驗和直覺用一段話,用文字總結(jié),也可以畫一張圖,或者說做成某個文件,總的來講就是把人的經(jīng)驗和直覺,能夠數(shù)字化下來,變成大模型的輸入,ChatDD 會根據(jù)這些輸入,迅速在模型學習過的海量數(shù)據(jù)、文獻或水木分子知識庫中找到相關(guān)的結(jié)構(gòu)化、非結(jié)構(gòu)化和生物模態(tài)數(shù)據(jù),并給出解答。這個解答過程可以看作是機器對人的一種提示(Prompt)。同樣,專家的提問也是對機器的一種提示。通過這種人機之間的不斷交互和相互提示,我們可以逐步縮小解空間,最終找到正確的解決方案。ChatDD 的目標是成為醫(yī)藥行業(yè)內(nèi)所有人都離不開的智能助手,大幅提升藥物研發(fā)全流程的效率。ChatDD 不光會利用大模型自己學到的知識,也會調(diào)用醫(yī)藥行業(yè)內(nèi)各種最好的專業(yè)工具(比方說最受歡迎的可視化 Docking 工具或者 SOTA 藥物屬性預(yù)測算法),同時也會實時查詢第三方的專業(yè)知識庫。我們也在和醫(yī)藥行業(yè)的專家緊密合作,將醫(yī)藥行業(yè)的日常工作任務(wù)和推理方式自動化。將類似 OpenAI o1 的更強大的推理能力引入生物醫(yī)藥大模型,讓推理過程更接近專家的推理過程。希望更多科研人員和生態(tài)合作伙伴和我們一起,構(gòu)建最有效的生物醫(yī)藥多模態(tài)大模型,共同迎接生物醫(yī)藥的「ChatGPT 時刻」,實現(xiàn)生物語言模型的智能涌現(xiàn)。

嘉賓簡介

聶再清博士,現(xiàn)任清華大學國強教授和 AIR 首席研究員、水木分子首席科學家。從事大數(shù)據(jù)與人工智能的前沿創(chuàng)新,以及健康醫(yī)療領(lǐng)域的產(chǎn)業(yè)應(yīng)用,是十四五國家重點研發(fā)計劃「新藥研發(fā)大模型」課題負責人。帶領(lǐng)團隊研發(fā)并且開源了全球首個多模態(tài)生物醫(yī)藥大模型 BioMedGPT 和 OpenBioMed 工具包,賦能生物醫(yī)藥行業(yè)科研和創(chuàng)新。提出并牽頭研發(fā)了全球首個車路協(xié)同自動駕駛數(shù)據(jù)集 DAIR-V2X,解決了自動駕駛產(chǎn)業(yè)以往缺乏真實場景車路協(xié)同數(shù)據(jù)集的痛點;團隊提出的貢獻感知聯(lián)邦學習框架獲得 AAAI-IAAI 2022 人工智能創(chuàng)新應(yīng)用獎,并在智慧醫(yī)療健康的產(chǎn)業(yè)應(yīng)用中得到驗證。聶再清博士 2004 年獲得美國亞利桑那州立大學博士學位,師從美國人工智能學會前主席 Subbarao Kambhampati 教授,本科和碩士畢業(yè)于清華大學計算機科學與技術(shù)系。2017 年加入阿里巴巴,任達摩院人工智能實驗室北京負責人。此前就職于微軟亞洲研究院,任首席研究員,是微軟學術(shù)搜索和人立方的發(fā)起人和負責人,也是微軟自然語言理解平臺 LUIS 的技術(shù)負責人。發(fā)明的知識圖譜相關(guān)技術(shù)、對象級別的信息搜索技術(shù)、語音語義一體化理解技術(shù)等,被廣泛應(yīng)用于互聯(lián)網(wǎng)搜索引擎、聊天機器人以及智能助手等領(lǐng)域。引領(lǐng)了業(yè)內(nèi)大數(shù)據(jù)驅(qū)動的知識圖譜挖掘和應(yīng)用相關(guān)技術(shù)的創(chuàng)新,在微軟期間被授予 Microsoft Golden Star 獎。在阿里巴巴期間,作為天貓精靈首席科學家,帶領(lǐng)團隊從無到有實現(xiàn)天貓精靈的算法研發(fā)和創(chuàng)新工作,把人工智能最前沿技術(shù)真正落地到千家萬戶。2019 年他所帶領(lǐng)的團隊獲得吳文俊人工智能科技進步獎。
相關(guān)推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內(nèi)容相關(guān)的任何行動之前,請務(wù)必進行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產(chǎn)生的任何金錢損失負任何責任。

熱門文章