首頁 > AI資訊 > 最新資訊 > 百圖生科再添虎將,國際機器學(xué)習(xí)大牛宋樂加入李彥宏生物計算軍團

百圖生科再添虎將,國際機器學(xué)習(xí)大牛宋樂加入李彥宏生物計算軍團

新火種    2023-09-19

近日,百圖生科首席 AI 科學(xué)家宋樂接受了機器之心專訪。作為世界知名機器學(xué)習(xí)專家,他領(lǐng)導(dǎo)著百圖生科 AI 算法團隊,為獨具特色的生物計算引擎研發(fā)提供技術(shù)動力。他眼中的生物計算未來,在于「高通量干濕實驗閉環(huán)」。

繼 ICML 2021 時間檢驗論文獎得主 Max Welling 宣布即將加入微軟主攻分子模擬后,國際機器學(xué)習(xí)專家宋樂博士也于近日被任命為百圖生科首席 AI 科學(xué)家。

不出一個月,兩位機器學(xué)習(xí)大牛相繼「下海」,投身 AI+生物計算,為人工智能在生化和制藥領(lǐng)域掀起的熱浪再添波瀾。

宋樂博士是著名的機器學(xué)習(xí)和圖深度學(xué)習(xí)專家,曾任美國佐治亞理工學(xué)院計算機學(xué)院終身教授、機器學(xué)習(xí)中心副主任,阿聯(lián)酋 MBZUAI 機器學(xué)習(xí)系主任,螞蟻金服深度學(xué)習(xí)團隊負(fù)責(zé)人(P10)、阿里巴巴達摩院研究員,國際機器學(xué)習(xí)大會董事會成員,具有豐富的 AI 算法和工程經(jīng)驗。


宋樂博士與同事合著的論文 Syntax-Directed Variational Autoencoder for Molecule Generation 獲得 NIPS2017 研討會「分子和材料機器學(xué)習(xí)」最佳論文獎,他在接受佐治亞理工學(xué)院采訪時表示,相關(guān)工作的計算機程序已被深度學(xué)習(xí)頂會 ICLR 2018 接收。圖片來源:cc.gatech.edu


自 2008 年起,宋樂博士在 CMU 從事生物計算相關(guān)的研究,利用機器學(xué)習(xí)技術(shù)對靶點挖掘、藥物設(shè)計取得了一系列突破性成果,獲得 NeurIPS、ICML、AISTATS 等主要機器學(xué)習(xí)會議的最佳論文獎。社區(qū)服務(wù)方面,他曾擔(dān)任 NeurIPS、ICML、ICLR、AAAI、IJCAI 等 AI 頂會的領(lǐng)域主席,并將出任 ICML 2022 的大會主席,他還是同行評議期刊 JMLR、IEEE TPAMI 的副主編。

人工智能和機器學(xué)習(xí)已經(jīng)證明能在藥物發(fā)現(xiàn)等過程中起到至關(guān)重要的加速作用。隨著新冠肺炎疫情在世界范圍內(nèi)的流行,用盡可能短的時間將安全、可靠的藥物和疫苗推向市場,比以往任何時候都更加重要。

7 月 30 日,成立不到一年的百圖生科(BioMap)宣布完成上億美元的 A 輪融資,這家由李彥宏牽頭發(fā)起并親任董事長、原百度風(fēng)投 CEO 劉維作為聯(lián)合創(chuàng)始人兼 CEO 掌舵的「中國首家生物計算驅(qū)動的生命科學(xué)平臺公司」向外界放出雄心:

「致力于通過長周期、大規(guī)模的投入,將先進AI技術(shù)與前沿生物技術(shù)融合創(chuàng)新,打造新型多組學(xué)檢測分析、高通量實驗?zāi)M、智能化分子發(fā)現(xiàn)引擎,加速新型藥物和診斷產(chǎn)品的研發(fā),造福人類健康。」

宋樂博士表示,他選擇加入百圖生科,除了從技術(shù)上說,AI+生物計算已經(jīng)到達了一個爆發(fā)點,可以切實去做一些事情,更主要是對「干濕實驗閉環(huán)的模式構(gòu)建非常有契合度」。

他在接受機器之心專訪說:「以前在學(xué)校做AI模型預(yù)測,很難有高通量多輪濕實驗的閉環(huán)驗證和數(shù)據(jù)補充,很難讓 AI 模型發(fā)揮關(guān)鍵價值。百圖生科規(guī)劃的干濕一體化智能實驗平臺,基本上國內(nèi)沒有其他 AI 制藥公司有,所以非常吸引人。」

「干濕實驗閉環(huán)后,如何用 AI 的方式來更好地規(guī)劃實驗,預(yù)測一些更加有可能成功的實驗,減少實驗次數(shù),一兩年就會看到一些成果。」

把實驗室儀器連入計算系統(tǒng)

構(gòu)建干濕閉環(huán)模式

問:您為什么選擇加入百圖生科?

我是從 2008 年開始做AI在生物信息處理這方面的工作,當(dāng)時的一個挑戰(zhàn)是數(shù)據(jù)不多,除了基因序列數(shù)據(jù)之外,其他的數(shù)據(jù)比較少,很難用 AI 模型做出預(yù)測效果會比實驗驗證的更好。

現(xiàn)在情況不同了。首先,生物數(shù)據(jù)量越來越大,比如說蛋白質(zhì)的序列數(shù)據(jù)已經(jīng)有上億條,現(xiàn)在也能夠?qū)渭毎龌虮磉_的測量。第二是計算能力的提升。第三是 AI 算法能力的積累,AI 和制藥領(lǐng)域出現(xiàn)了更多新的模型和方法,能夠產(chǎn)生更準(zhǔn)確的預(yù)測。

結(jié)合以上三點條件,至少從技術(shù)的角度來說,是到了一個點,AI 可以幫助制藥做得更好。未來,可測量的生物特征數(shù)量會越來越多,測量數(shù)據(jù)的成本也會不斷下降,生物數(shù)據(jù)會越來越多,相信在未來 10 年里「AI+生物計算」都會是一個非常好的方向。

選擇百圖生科,除了計算資源的實力外,更主要是對于干濕實驗閉環(huán)的模式構(gòu)建,我們非常有契合度。基本上國內(nèi)沒有其他AI制藥公司有這個模式,所以非常吸引人。

問:能具體介紹「干濕實驗閉環(huán)」的模式嗎?

以前在學(xué)校做 AI 模型預(yù)測,很難有高通量多輪濕實驗的閉環(huán)驗證和數(shù)據(jù)補充,很難讓 AI 模型發(fā)揮關(guān)鍵價值。AI 模型主要缺陷在于:它是一個模型,本身有一些參數(shù),沒有通過足夠?qū)嶒灁?shù)據(jù)校正和檢驗,跟現(xiàn)實有差距,不能取代真實數(shù)據(jù)的驗證。只有把 AI 模型和濕實驗有機結(jié)合,才能真正解決這個問題。

現(xiàn)在我們平臺設(shè)計時,同時會考慮需要用什么樣的實驗手段,例如高通量細胞視覺平臺,單細胞測序平臺,或高通量抗體和蛋白質(zhì)親和力實驗平臺,分別對應(yīng)涉及到要整合乃至自主研發(fā)什么先進儀器。

平臺將通過主動學(xué)習(xí)或強化學(xué)習(xí)的方式,通過 AI 模型規(guī)劃,有選擇性地做實驗,形成「干濕實驗閉環(huán)驗證」,未來通過 AI 大腦控制實現(xiàn)全自動實驗室。這是這個行業(yè)未來的方向。

我們的愿景是,把實驗室儀器都連入一個操作系統(tǒng),未來實驗都是 AI 模型在后面規(guī)劃,實驗員能夠騰出手來做更高層次、更有趣、更有創(chuàng)造力的事情。

問:構(gòu)建這種干濕一體化實驗平臺有什么門檻?

首先是人才,需要有一個非常交叉的團隊。既有能夠做實驗、對生物信息、對制藥、對前沿生物技術(shù)有理解的人才,也要有經(jīng)驗豐富的系統(tǒng)工程人才,以及 AI 算法人才,因此我們招人也是朝這個方向去招的。

其次是強大的硬件支持,包括實驗設(shè)備以及計算資源,以及把這兩種資源整合在一起的能力。如果一開始沒有將濕實驗的硬件以及計算資源規(guī)劃在一起,后期是很難再調(diào)整的。如果沒有足夠多的計算資源支持,一些大的模型,比如蛋白質(zhì)的預(yù)訓(xùn)練,三維結(jié)構(gòu)預(yù)測模型就比較難應(yīng)用起來。

用模型做預(yù)測來進行實驗規(guī)劃,需要對數(shù)據(jù)的擬合、調(diào)參,涉及到云計算等計算資源支持,而百圖生科擁有百度強大的算力支持。圖片來源:capacitymedia

生物人才+算法人才融合

側(cè)重大分子藥物研發(fā)

問:百圖生科希望用 AI 解決藥物研發(fā)的什么問題,側(cè)重哪些環(huán)節(jié)?

藥物研發(fā)過程一般分為三個階段,第一階段主要是發(fā)現(xiàn)一些潛在靶點和藥物,然后通過一些比較可控的細胞實驗或是其他生化實驗,去發(fā)現(xiàn)有效的方向。第二階段是更進一步的動物等驗證實驗。第三期是人類的臨床實驗。百圖生科會以第一階段為核心發(fā)力點,發(fā)現(xiàn)候選靶點和藥物,并進行類器官等先進細胞驗證。

這個過程從計算機的角度來說,實際上是一個組合優(yōu)化的問題。傳統(tǒng)藥物研發(fā)的難點在于,搜索空間太大,從計算角度、實驗的角度都比較難對整個空間進行篩選。人工智能在藥物發(fā)現(xiàn)方面的主要價值在于,怎樣根據(jù)歷史或者實驗數(shù)據(jù),構(gòu)建一個 AI 模型,能夠很快地在巨大的空間里把最有可能成藥、最有效的藥物空間縮小,比如從 10 的 60 次方縮短小到 10 的 5 次方,之后就有可能用一些更加精細的計算方式或?qū)嶒炇侄稳ヲ炞C這些藥物的性能。

生物制藥包含小分子藥物和大分子藥物,現(xiàn)在國內(nèi)外主要聚焦于 AI 在小分子制藥方面的應(yīng)用,我們側(cè)重于大分子藥物研發(fā)。具體說,首先是利用人工智能進行靶點發(fā)現(xiàn),主要是基于知識圖譜,比如圖神經(jīng)網(wǎng)絡(luò)去整合知識圖譜信息,以及自有多組學(xué)實驗數(shù)據(jù)、分子影像數(shù)據(jù)去預(yù)測靶點。在發(fā)現(xiàn)靶點之后,利用 AI 技術(shù)設(shè)計抗體藥物,比如對蛋白質(zhì)序列做預(yù)訓(xùn)練模型,針對一些靶點去設(shè)計一些蛋白質(zhì)的序列和抗體的序列,做到更好的親和力,更加穩(wěn)定,對靶點起到更好的作用。最后,完成濕實驗閉環(huán)驗證。

問:能否透露百圖生科目前的藥物探索方向,有哪些已經(jīng)在落地的項目?

近期 AlphaFold 2 預(yù)測蛋白質(zhì)空間結(jié)構(gòu)的成果引發(fā)了廣泛的關(guān)注,實際上百圖生科也在利用自有抗體親和力預(yù)測、結(jié)構(gòu)預(yù)測等算法開展獨特的藥物設(shè)計項目。例如研究胃癌、食道癌等亞洲人群高發(fā)的腫瘤疾病,進行靶點發(fā)現(xiàn)和抗體藥物設(shè)計,現(xiàn)在還處于早期階段,但實際上算法已經(jīng)迭代多次了,目前靶點發(fā)現(xiàn)的算法預(yù)測準(zhǔn)確度相較現(xiàn)有最好的文獻方法已經(jīng)有了 10% 以上的提升,進一步還會進行濕實驗的驗證。

日前,百圖生科投資 10 億元設(shè)立的「免疫圖譜卓越計劃」首批項目招募正式啟動,我們計劃聯(lián)合前沿的生物技術(shù)專家、藥物開發(fā)專家和臨床專業(yè)團隊,打造一個國際領(lǐng)先的免疫圖譜,為更精準(zhǔn)地探尋癌癥、自免、纖維化、衰老等疾病的復(fù)雜免疫規(guī)律,更高效率的靶點挖掘和藥物設(shè)計提供可能。目前已收到來自中科院、協(xié)和、北大、清華、復(fù)旦等系統(tǒng)的近百個臨床和研究團隊的申報。


2021 年 5 月,百圖生科宣布出資 10 億元設(shè)立「免疫圖譜卓越計劃」,并與 30 余家業(yè)內(nèi)領(lǐng)先技術(shù)企業(yè)簽訂戰(zhàn)略合作協(xié)議,基于百圖生科生物計算核心引擎,共同為免疫圖譜繪制提供技術(shù)能力支持。來源:百圖生科

問:主流藥企也在使用人工智能技術(shù),與百圖生科的 AI 驅(qū)動制藥有何差異?

首先,主流藥企也有生信、統(tǒng)計、數(shù)據(jù)分析的人員,但是濕實驗團隊和 AI 團隊是分開的,兩者的工作相對獨立,后期通過交流再各自調(diào)整方向。百圖生科希望兩者能夠形成一個閉環(huán)系統(tǒng),把 AI 模型和實驗平臺統(tǒng)一規(guī)劃,協(xié)同工作,一起把藥物發(fā)現(xiàn)向前推進。

這是一個新興的行業(yè),沒有一個成熟的解決方案可以直接套用,具有濕實驗和藥物發(fā)現(xiàn)知識的人對 AI 了解少,具有 AI 背景的人反之亦然,因此需要有對AI比較了解,而且也愿意去深入理解生物問題的人,才能核實模型,利用好這些數(shù)據(jù)去解決這里面涉及到的問題。

以我們現(xiàn)有的兩個最小可行性產(chǎn)品為例——靶點發(fā)現(xiàn)和藥物設(shè)計,我們會動態(tài)地將生物和AI算法人才,組合在一起去推進某一個管線或產(chǎn)品的研發(fā)。在這個過程中,一方面生物人員可以通過和算法人員的合作,更好地判斷現(xiàn)有算法能夠提供什么;算法人員可以從生物人員處了解到基于現(xiàn)有問題,如何去適配或者創(chuàng)造一個新的模型,從而更好解決問題。我認(rèn)為這是把生物人才、算法人才放在一起制藥的一個優(yōu)勢。

其次,主流藥企研發(fā)以人的假設(shè)和已有實驗?zāi)芰橹鲗?dǎo),AI 比較偏輔助型工具,所以能探索的潛在的靶點空間或者制藥空間就會受到已有研發(fā)積累的較大限制。因為人可以考慮的方面,以及現(xiàn)在能夠分析的維度復(fù)雜度,與今天快速增長的高維生物數(shù)據(jù)比起來實際上非常有限。用人工智能方法就可以把更加復(fù)雜的數(shù)據(jù)綜合考慮,能夠看到更高維度的信息。

基于此,百圖生科也希望能夠發(fā)揮 AI 模型和計算資源優(yōu)勢,結(jié)合自產(chǎn)的實驗數(shù)據(jù)和醫(yī)學(xué)、制藥等的專業(yè)領(lǐng)域知識,發(fā)現(xiàn)新的藥物靶點。在與藥企合作層面,也可以結(jié)合制藥企業(yè)未被充分挖掘的某些專業(yè)數(shù)據(jù),發(fā)現(xiàn)數(shù)據(jù)之間的更多關(guān)聯(lián),從而聯(lián)合進行靶點發(fā)現(xiàn)和管線開發(fā),成為傳統(tǒng)藥企非常有力的合作伙伴。未來,我們希望利用 AI 挖掘更多藥物信息,也包括通過開放自有免疫圖譜查詢,為這方面的專家、生態(tài)企業(yè)提供更多有價值的工具。

相關(guān)推薦
免責(zé)聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認(rèn)可。 交易和投資涉及高風(fēng)險,讀者在采取與本文內(nèi)容相關(guān)的任何行動之前,請務(wù)必進行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。

熱門文章