北京智源發布悟道3.0大模型,院長黃鐵軍:實現AGI有三條路線
·要實現AGI,有三條技術路線:第一是“大數據+自監督學習+大算力”形成的信息類模型;第二是具身智能,是基于虛擬世界或真實世界、通過強化學習訓練出來的具身模型;第三是腦智能,直接“抄自然進化的作業”,復制出數字版本的智能體。
·據智源初步統計,今年以來大語言模型開源的項目,全世界范圍內共有42項,中國有9項。“相比之下,我認為我們的開源開放力度還遠遠不夠。”

北京智源人工智能研究院院長黃鐵軍。
6月9日,北京智源人工智能研究院(以下簡稱智源)院長黃鐵軍在2023北京智源大會上作報告,發布悟道3.0大模型系列,并宣布進入全面開源的新階段。此次悟道3.0包含悟道·天鷹(Aquila)語言大模型系列、“天秤(FlagEval)”大語言評測體系及開放平臺以及悟道·視界視覺大模型系列。
黃鐵軍在演講中表示,要實現通用人工智能(AGI),有三條技術路線:第一是“大數據+自監督學習+大算力”形成的信息類模型;第二是具身智能,是基于虛擬世界或真實世界、通過強化學習訓練出來的具身模型;第三是腦智能,直接“抄自然進化的作業”,復制出數字版本的智能體。
OpenAI做GPT(生成式預訓練Transformer模型)就遵循第一條技術路線;以谷歌DeepMind的DQN(深度Q網絡,Deep Q-network)為核心取得的一系列進展即基于第二條技術路線。
“從夢想角度來說,智源期望不同于前兩個技術路線,從‘第一性原理’出發。從原子到有機分子、到神經系統、到身體,構建一個完整的智能系統AGI。這是一個大概20年才可能實現的目標,所以智源作為新型研發機構平臺,在三個方向都在開展工作。”黃鐵軍的這段描述也梳理了此次多項發布的背后邏輯,分別包括大模型方向、具身方向,以及智源自己期望方向的進展。
悟道3.0大模型系列
北京智源人工智能研究院是國內最早系統化布局大模型的科研機構,2021年3月和6月,智源在兩個多月時間里先后發布悟道1.0和悟道2.0。悟道1.0是我國首個超大規模智能模型系統,悟道2.0參數規模更是達到1.75萬億,是當時中國首個、全球最大的萬億級模型。
黃鐵軍認為,大模型有三個特點:第一是規模大,神經網絡參數達到百億規模以上。第二是涌現性,產生預料之外的新能力。第三是通用性,不限于單類問題或專門領域,能夠解決各類問題。
自悟道2.0開始,智源就不僅僅研發模型。據黃鐵軍介紹,智源更偏向于構建以大模型為核心的生態,包括底層數據處理和匯聚、模型能力和算法評測、開源開放,形成一套高效的大模型技術和算法體系。
黃鐵軍認為,現在的智能時代是開源開放的時代,一個封閉的生態很難長遠發展下去。開源的生態在軟件上要開源,在硬件上要開放,既要競爭又要合作,這會是一個千千萬萬企業共同競爭、共同合作營造出來的開源開放的生態體系。
據智源初步統計,今年以來語言大模型開源的項目,全世界范圍內共有42項,中國有9項。“相比之下,我認為我們的開源開放力度還不夠。開源開放也是競爭,好算法應該公開評測比較才能證明技術水平,而不是僅靠結果來說優秀與否。”黃鐵軍說。
在悟道3.0大模型系列中,智源發布并全面開源悟道·天鷹(Aquila)語言大模型系列和悟道·視界視覺大模型系列,與多個高校和科研院所合作構建“天秤(FlagEval)”大語言評測體系及開放平臺,還有FlagOpen飛智大模型技術開源體系。
據黃鐵軍介紹,悟道·天鷹語言大模型是第一個中英文雙語、支持商用、符合數據合規要求的大模型。通過數據質量控制和多種訓練優化,悟道·天鷹(Aquila)實現了在更小數據集、更短訓練時間獲得比其他開源模型更優的性能。這是系列模型,這次發布了70億參數和330億參數的基礎模型,以及AquilaChat對話模型(類ChatGPT模型),AquilaCode文本代碼生成大模型(70億參數)。
此外,對于大模型的評測是當下生成式人工智能發展中的一個難點。此次智源發布“天秤(FlagEval)”大語言評測體系及開放平臺,希望協助研究人員全方位評估基礎模型及訓練算法的性能,同時探索利用AI方法對主觀評測進行輔助,大幅提升評測的效率和客觀性。
具體而言,天秤(FlagEval)大語言評測體系構建了“能力-任務-指標”三維評測框架,測評30多種能力,5種任務以及4大類指標構成的超過600個維度,其中包括22個主觀和客觀評測數據集,以及84433道題目。天秤評測平臺已經開放,提供在線和離線評測。目前已支持英偉達、寒武紀、昆侖、昇騰等多種芯片架構,以及PyTorch、MindSpore深度學習框架。
在視覺大模型方面,此次智源大會直接放出6項成果,包括在多模態序列中補全一切的多模態大模型Emu、最強十億級視覺基礎模型EVA、性能最強開源CLIP模型EVA-CLIP、首創了上下文圖像學習技術路徑的通用視覺模型Painter、分割一切的視界通用分割模型、以及首個零樣本視頻編輯方法vid2vid-zero。
具身多模態交互模型和類腦智能
“我們探索在虛擬世界中讓智能體學習完成用各種語言描述的任務,比如告訴智能體制作一個石錘子,建造一個木質的避難所。也就是說告知它一個任務,它就可以不用鼠標控制而在游戲世界里自己完成。這是通用人工智能的一個新賽道,全世界范圍內有不少機構在嘗試。”黃鐵軍說。
目前的方法主要依賴人類的知識和提示,下一個目標是讓智能體在此基礎上學習策略集和在專門針對多模態交互的大模型方面進一步研究,從而讓它在開放世界中自適應完成更多任務,并且具備自己的創造力。
“在類腦智能和生命模擬的方向,我們的工作也在繼續,去年智源大會發布了最高精度的仿真線蟲,這到現在為止仍然是精度最高的,論文正在評審過程中。”黃鐵軍說,有了這個工作基礎,我們把仿真線蟲所用的生命模擬平臺“Evaluation天演”全面開源,并提供在線服務。
天演平臺有四項最顯著的特點:第一,是當今效率最高的精細神經系統仿真平臺;第二,支持超大規模的神經網絡仿真,目前已經高效地復現了領域內多個大規模的神經模型;第三,提供在線工具,只要有生物數據就可以一站式的建模、仿真、可視化,“可視化是天演獨有的,可以觀察神經系統在運行過程中信號發生了怎樣的變化。我們最終想知道生命智能的每一步,每個細節,而不像今天的黑箱。”黃鐵軍說。
目前,在三條技術路線中,大模型的進展最快。為何如此?黃鐵軍認為,主要是語言數據,無論是論文、圖書還是代碼,資源都非常豐富且質量高,從海量數據中發現內在蘊含的規律正是大模型的優勢。
不過,黃鐵軍繼續說道,人腦可以看成脈沖神經網絡,與今天的大模型有本質區別,想要AI產生類似人腦的能力,光靠大模型一個方向是遠遠不夠的。從基礎的神經網絡結構到信號加工機理的類腦智能是一個方向,讓智能體有物理身體與環境互動的具身智能是另一個方向。
作為大模型領域年度巔峰盛會,智源大會至今已經舉辦了五屆。今年大會共同主席為智源人工智能研究院理事長張宏江,以及加州大學伯克利分校教授、智源學術顧問委員邁克爾·喬丹(Michael I. Jordan)。共同程序主席為智源人工智能研究院院長黃鐵軍,以及清華大學教授、智源首席科學家朱軍。
本屆大會邀請到了圖靈獎得主杰弗里·辛頓(Geoffrey Hinton)、楊立昆(Yann LeCun)、約瑟夫·斯發基斯(Joseph Sifakis)和姚期智,OpenAI首席執行官山姆·奧特曼(Sam Altman)、加州大學伯克利分校人工智能系統中心創始人斯圖爾特·羅素(Stuart Russell)、中國科學院院士張鈸及中國工程院院士鄭南寧、中國工程院外籍院士、美國藝術與科學院院士張亞勤、Midjourney創始人大衛·霍爾茲(David Holz)等嘉賓,共議人工智能前沿與熱點話題。

- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。