首頁 > AI資訊 > 最新資訊 > 上海AI實驗室歐陽萬里:科學家為AlforScience提供了好的原材料,就看AI學者如何加工|MEET2024

上海AI實驗室歐陽萬里:科學家為AlforScience提供了好的原材料,就看AI學者如何加工|MEET2024

新火種    2024-01-17

Nature今年的統計顯示,有78%的科學家還沒有將ChatGPT等AI工具納入日常研究中來。

從某種意義上來說,Al for Science這一新的研究范式其實早就幫科學家們搭好了利用AI能力的橋梁。

就在MEET2024大會現場,上海人工智能實驗室領軍科學家歐陽萬里教授也指出:

科學家們觀測到的實驗數據,相當于已經為Al for Science提供了好的原材料,而怎么加工這些原材料,就是AI學者能夠參與的地方。

上海AI實驗室歐陽萬里:科學家為Al for Science提供了好的原材料,就看AI學者如何加工|MEET2024

為了完整體現歐陽萬里對AI以及AI學者助力科學研究(即Al for Science)的思考,在不改變原意的基礎上,新火種對他的演講內容進行了編輯整理。希望也能給你帶來新的啟發。

關于MEET 智能未來大會:MEET大會是由新火種主辦的智能科技領域頂級商業峰會,致力于探討前沿科技技術的落地與行業應用。今年共有數十家主流媒體及直播平臺報道直播了MEET2024大會,吸引了超過300萬行業用戶線上參會,全網總曝光量累積超過2000萬。

演講要點科學研究有四范式,現在來到了最新階段:由人工智能驅動的數據密集型科學。科學家們的優勢和重點是高通量實驗和計算,薄弱項是人工智能和機器學習,等于有了非常好的原材料但沒有好的廚師。Al for Science面臨的挑戰和其他AI領域類似,都有小樣本、少標注、數據形式多樣等問題。人工智能是Al for Science關鍵的一環,但真正三足鼎立的是理論、實驗以及計算。

(以下為演講全文)

Al for Science有好的原材料,就看AI學者如何加工

大家好,今天主要給大家分享上海人工智能實驗室的一些科研探索。

我們主要面向三大任務:

第一,前沿的基礎理論;第二,基礎系統;第三,關鍵的共性技術。

在這個實驗室我主要負責AI for Science方向。

談到AI for Science,我以前做的是計算機視覺,現在為什么又來從事這樣一個新的方向呢?

這是因為,AI for Science在整個領域有很多應用以及很好的發展。

具體而言,我們的科學研究從最初的實驗歸納到模型推演到計算機仿真,目前又來到了新的范式:

我們有了大量的數據積累,科研推理給我們的經驗,以及計算機仿真給我們帶來的利用計算機模擬世界的能力。

上海AI實驗室歐陽萬里:科學家為Al for Science提供了好的原材料,就看AI學者如何加工|MEET2024

有了這樣數據和理論,我們就可以利用人工智能對我們的數據進行分析,從里面找到合適的規律,從而進一步反演我們的世界,讓我們能夠利用計算機對世界做更好的預測,而且能夠突破一些原來利用已有物理或者人們的知識而達不到的邊界。

在這里面,人工智能是最關鍵的一環。

它另外一個有效的地方在于,中國在自然科學方面相比以前有了很好的進展,但相對于國外的話,我們仍然有很多地方需要改善。

而有了人工智能加持以后,我們希望跟中國科學家們一起合作,在自然科學研究方面實現彎道超車,在整個世界舞臺上有更多的發展機會。

我們再回過頭來看,來自于自然科學的學者們,他們有的優勢是什么?

基礎理論,自然科學家們在這方面有了非常深厚的積累,包括高通量實驗以及計算經驗的積累。

當一個科學家花了很多時間積累經驗、積累高通量實驗,在人工智能方面花的時間相對于本身做人工智能學者來說是少的,畢竟人的精力總是有限。

所以這方面,正是人工智能學者能夠參與的地方。

總結來說,自然科學家們在這方面準備了好的實驗數據、理論、和計算方法,相當于為AI for Science方向提供了好的原材料。

怎么對原材料進行加工,這成為了我們需要考慮的問題。

這好比我們做一道菜,有了好的原材料還要有好的廚師將原材料進行加工。

AI for Science領域希望AI學者加入進來和自然科學家一起合作,做出一道美味的佳肴。

上海AI實驗室歐陽萬里:科學家為Al for Science提供了好的原材料,就看AI學者如何加工|MEET2024

在這方面不止我們實驗室看到這樣一個機會,國內很多高校以及企業也都看到了這個方向的重要性。

國外企業如大家知道的谷歌DeepMind,正在這方面發力;中國很多相應公司也開始往這方面進行相應的投入。

Al for Science面臨的挑戰和其他AI領域類似

再回到開始那個話題:對于我個人而言,我是一個學者,為什么我要從事AI for Science?

主要基于以下兩個原因。

第一,問題本身很重要,第二個,問題本身有趣。

關于問題重要性,在我個人看來,首先是它與其他AI領域具有類似的問題,比如小樣本、少標注。這在語音和視覺里面經常被提到的,到了自然科學里面,變得尤為嚴重。

舉一個例子,大家都知道AI for Science有一個著名的工作是將蛋白質折疊進行預測,來自DeepMind。

很多學者說未來它能獲得諾貝爾獎,它做的事情是什么:當我有了一維的序列,邊可以此得到蛋白質在空間結構上的三維結構。

原來大家是怎么干的?需要用上千萬的設備,大概花一年左右時間才能得到這樣的結構。

當做好這件事情以后,很可能一個科學家就能發表一篇Nature或者Science的文章。

這證明這類研究不是普通人就能做的,它需要大量的投入以及真正的專家才行。

有了AI for Science能干什么呢?

利用人工智能模型,AI for Science的學者能將這件事情做得不錯。

但是我們可以看到,要得到三維結構,可能需要一個學者投入一年時間才能得到一個樣本標注。

這樣一來,我們得到樣本數目的效率遠比語言模型、視覺模型的效率低很多,這必然讓我們在很多類似的科學問題上面臨少標注的問題。

樣本量也會有少的問題,像我們模擬非常底層的分子動力學的時候,有時顯微鏡都得不到相應的樣本,使得問題更加嚴重。

另一方面我們會面臨數據表現形式多樣性的問題。

自然科學從物理到生物到地球科學,有不同的表現形式,有非常底層的原子的表示、分子的表示,有基因蛋白等等的表示方式,如果來到地球科學又有大氣的表示。

表達形式本身多樣的形式下,怎么把數據處理好成為一個問題。

上海AI實驗室歐陽萬里:科學家為Al for Science提供了好的原材料,就看AI學者如何加工|MEET2024

當然,AI for Science本身也有一些獨特的挑戰,我需要跟科學家進行更多的合作,讓他們幫我們建立更多的知識背景。

同時需要注意,在這個領域,理論、實驗以及計算三足鼎立,AI不完全最重要的,它是其中重要的能帶來突破的一環。

我們跟科學家合作的時候需要尊重以及了解到他們在這方面已有的知識,從而在合作過程中建立互信,互相尊重做出更好的工作來。

兩項Al for Science科研成果介紹

下面將介紹我們在實驗室的工作。

RNA三維結構預測,顯著提高樣本利用率

在實驗室,我們希望能夠從微觀原子分子層次看到最宏觀的宇宙層次,我們這么做背后的原因是我們看到了自然科學本身是有共性的。

有一門科學建立了它們之間的關系:粒子天體物理學。

它利用的是在微觀粒子中的理論來幫助研究非常宏觀的宇宙天體的問題。

既然在科學上本身有共性,我們以AI眼光看待從微觀到宏觀的自然科學的時候,實際上它們也有共性的問題。比如我前面所提到的少樣本少標注。

由于時間關系我們不會介紹所有的。拿少標注問題來說,我舉其中一個例子:在生命科學方面,我們希望利用各個不同組學信息讓AI模型做各種各樣的問題。

比如我們在RNA轉錄組方面的探索。RNA是一個AUCG一維的序列,我們有了這樣的序列以后,希望從這樣的輸入信息對RNA本身有什么樣的功能和結構進行預測。

這樣一個看起來能夠利用深度學習做的事情,我們面臨什么樣的問題呢?

上海AI實驗室歐陽萬里:科學家為Al for Science提供了好的原材料,就看AI學者如何加工|MEET2024

我們做的是結構預測這件事情,但結構樣本的數目目前不足六千,如果你能得到重要的RNA結構又是剛才說的故事,一年發一篇Nature文章。這意味著只有頂尖學者才能得到其中的1—2個樣本,非常少。

如果要處理好這個問題——RNA本身有很多序列,不知道功能的序列很多。我們可以利用不知道的標簽數據做無監督學習,把數據本身當成標注做個自監督的學習方法,就能夠得到預訓練的模型。

利用這個模型再去做下游任務的時候,因為有了自監督方法,會讓我們下游任務做的更好。

上海AI實驗室歐陽萬里:科學家為Al for Science提供了好的原材料,就看AI學者如何加工|MEET2024

實驗發現,這個方法能在很多像結構功能這樣的預測上達到很好的效果。

風烏氣象大模型超越DeepMind

另外我們實驗室的一個探索是地球科學方面,目前主要關注的是氣象。

這個問題中國早在秦漢時期就開始嘗試感知氣象了,當時利用的設備叫做相風銅烏。首先感知到氣象才能預測到氣象。

上海AI實驗室歐陽萬里:科學家為Al for Science提供了好的原材料,就看AI學者如何加工|MEET2024

中國古代預測氣象依靠什么?觀天象,欽天監就是干這件事情的,但在那個時候主要依賴的是人的判斷,而不是利用科學模型。

來到現代,開始有人提出來我們是不是可以利用物理模型做這件事呢?

早在100多年以前,來自于歐洲和美國的兩位學者確實提了,經過一百年的探索以后大家發現,每經過十年的研究,能夠將有效預報的能力提高一天。

上海AI實驗室歐陽萬里:科學家為Al for Science提供了好的原材料,就看AI學者如何加工|MEET2024

這說明兩件事情:

第一,利用物理方法去做氣象預報是可行的。

第二,隨著物理方法的改善以及計算量能力的增長,預報能力在逐年提高。

在國內外,研究機構和高校相應地開設了研究部門來做這方面的研究。

上海AI實驗室歐陽萬里:科學家為Al for Science提供了好的原材料,就看AI學者如何加工|MEET2024

我們的實驗室也是,基于多任務學習的印度洋偶極子預測,首次將印度洋核心氣候指標的可用預報技巧提前至7個月。

上海AI實驗室歐陽萬里:科學家為Al for Science提供了好的原材料,就看AI學者如何加工|MEET2024

另外一個工作就是風烏模型,它的名字來自于我們剛才說的相風銅烏。

該模型輸入全球當前時刻五個氣象要素,溫度、濕度、風速等,利用這些要素來預測下一個小時的溫度、濕度等。然后把它的結果和數據放到風烏里面再預測下一個時刻,下下時刻。

這是風烏的整個運行模式,跟目前利用物理方法做這個事情是同一個邏輯。

利用這個模式我們可以預測未來1天、2天、10天、14天的結果。

并且還可以利用歷史上的數據,比如前年的數據去預測去年。這個時候我們數據本身就是要預測的標注了,它的邏輯跟做疾病預測是類似的。

風烏模型的創新點包括基于多模態多任務的網絡設計。

以往方法只是認為它們是跟圖象里的RGB一樣,直接把它們全部對接到一起,給到一個模型就行。然而我們利用多模態方法做這件事情,效果很好。

另一方面,我們認為既然這是多模態問題,那就可以類似地來看輸出,讓它成為多任務的問題,利用多任務學習方法可以自動調節各個不同要素的重要性。

最終對比DeepMind在Science上發表的GraphCast模型,我們的方法在80%指標上都獲得了更好的性能。

上海AI實驗室歐陽萬里:科學家為Al for Science提供了好的原材料,就看AI學者如何加工|MEET2024

此外,我們也是首次讓有效預報天數超過10天的氣象預報模型,利用我們的方法可以只用一張GPU一分鐘生成未來14天全球所有的地區的高精度氣象預報結果。

上海AI實驗室歐陽萬里:科學家為Al for Science提供了好的原材料,就看AI學者如何加工|MEET2024

這是我們的方法在中國氣象局實際操作預測的結果。

上海AI實驗室歐陽萬里:科學家為Al for Science提供了好的原材料,就看AI學者如何加工|MEET2024

右上角是不同預報模型的結果,包括來自于歐洲、美國等等的,右下角結果是最終他們測定的真實結果。

可以看到,我們比較準確的預測到這個臺風能走到雷州半島,這個方法準確率最高。

另一方面,第三方機構對于前面一年和最近以來在中國登錄的所有臺風預測也做過統計,結果發現,我們方法相對已有的物理方法以及AI方法都是更好的。

總結而言,AI for Science是跟其他領域有著類似問題的領域,AI for Science在未來將會對于整個自然科學領域帶來更深刻的影響。

在這方面我們希望能夠與自然科學方面頂尖的學者進行合作,來做出來更多的突破工作,也歡迎大家聯系我們進行合作,謝謝大家。

— 完 —

相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章