智源王仲遠(yuǎn):多模態(tài)大模型對產(chǎn)業(yè)更加重要,得多模態(tài)大模型得天下|MEET2025
大模型的出現(xiàn),成了AI第三次浪潮的新拐點。
正值“Scaling Law是否撞墻”熱議之際,北京智源人工智能研究院院長王仲遠(yuǎn)表示:
看過去七、八十年,每一次新的科技浪潮背后都有一些本質(zhì)規(guī)律,即隨著模型參數(shù)、訓(xùn)練數(shù)據(jù)及計算能力提升,模型效果也會有巨大提升。
也就是說,如果拉長時間維度,其實Scaling Law在人工智能發(fā)展領(lǐng)域中一直起著作用。
此外,在本次量子位MEET 2025智能未來大會上,他還介紹了智源在過去6年里,建立了一支最早在國內(nèi)從事大模型研發(fā)的頂尖團(tuán)隊,并且從2020年10月開始,就成立了技術(shù)攻關(guān)團(tuán)隊來持續(xù)推動大模型技術(shù)研發(fā)探索。
至于大模型未來的發(fā)展方向,在他看來,除了文本數(shù)據(jù),世界上還存在大量的圖像、音頻、視頻等多模態(tài)數(shù)據(jù)。如何激發(fā)這些數(shù)據(jù)中的智能,是未來大模型研究的重要方向。
原生統(tǒng)一的多模態(tài)大模型才能更好支撐產(chǎn)業(yè)落地應(yīng)用,實現(xiàn)人工智能對世界的感知、理解和推理。
為了完整體現(xiàn)王仲遠(yuǎn)的思考,在不改變原意的基礎(chǔ)上,量子位對演講內(nèi)容進(jìn)行了編輯整理,希望能給你帶來更多啟發(fā)。
MEET 2025智能未來大會是由量子位主辦的行業(yè)峰會,20余位產(chǎn)業(yè)代表與會討論。線下參會觀眾1000+,線上直播觀眾320萬+,獲得了主流媒體的廣泛關(guān)注與報道。
核心觀點梳理
當(dāng)下我們正處在人工智能七八十年歷程的第三次浪潮新拐點,尤其是出現(xiàn)了大模型;
可以預(yù)期明年會有越來越多基于大模型的各種場景應(yīng)用的誕生;
Scaling Law在大語言模型上開始放緩的一個非常重要的原因是文本數(shù)據(jù)消耗殆盡;
多模態(tài)數(shù)據(jù)如何進(jìn)一步激發(fā)大模型的智能,是一個非常重要的研究方向;
原生統(tǒng)一的多模態(tài)大模型才能更好支撐產(chǎn)業(yè)落地應(yīng)用,實現(xiàn)人工智能對世界的感知、理解、推理;
……
以下為王仲遠(yuǎn)演講全文:
大模型:AI第三次浪潮的新拐點
大家上午好,我是來自北京智源人工智能研究院的王仲遠(yuǎn)。
當(dāng)下我們正處在人工智能七八十年歷程的第三次浪潮新拐點,尤其是出現(xiàn)了大模型。
以2023年大模型出現(xiàn)前后做一個分界線,可以認(rèn)為過去屬于弱人工智能,也就是針對特定的場景,特定的任務(wù),收集特定的數(shù)據(jù),訓(xùn)練一個模型,然后在特定場景解決問題。
像AlphaGO,能夠戰(zhàn)勝世界圍棋冠軍,但是無法直接用來解決醫(yī)療問題,解決無人駕駛問題等。
在大模型之后,弱人工智能開始向通用人工智能方向轉(zhuǎn)變,從專精尖的模型到通用模型,開啟了一個新的時代。由于能力還在不斷提升的過程中,所以我們還會覺得大模型依然不夠好用。
但是可以看到,過去七八十年每一次新的浪潮背后都有的本質(zhì)規(guī)律:模型參數(shù)、訓(xùn)練數(shù)據(jù)以及計算能力的提升,會帶來模型效果的巨大提升,這就是反復(fù)討論的Scaling Law。
最近關(guān)于Scaling Law是否失效,有很多爭論。
如果時間維度足夠長,會發(fā)現(xiàn)Scaling Law一直都在整個人工智能的發(fā)展歷程中不斷發(fā)揮作用。至于最近談到的Scaling Law已經(jīng)失效,一個很大原因是數(shù)據(jù)、算力,這些支撐Scaling Law發(fā)展的要素出現(xiàn)瓶頸。
智源研究院:國內(nèi)最早、國際同步布局大模型研發(fā)
通用人工智能時代的到來,對各行各業(yè)都有非常多的影響。
今年以來,大模型開始加速落地。
如果說過去兩年,中國依然在不斷地追基礎(chǔ)模型的能力,那么現(xiàn)階段國產(chǎn)模型的能力已經(jīng)接近GPT4了,足以支撐更多的應(yīng)用落地,因此可以預(yù)期在明年會有越來越多基于大模型的各種場景應(yīng)用的誕生。
智源研究院是第三次浪潮中在北京成立的一家非營利性質(zhì)的新型研發(fā)機(jī)構(gòu)。
在過去六年時間里建立起了一支非常頂尖的科研團(tuán)隊,科研人員60%有博士學(xué)位,30%有海外教育研究背景和經(jīng)歷。正是因為有這樣一支年輕有活力、有國際視野的團(tuán)隊,智源研究院在國內(nèi)最早開始了大模型的研發(fā)。
而且智源研究院在2020年10月就成立了一支百余人的技術(shù)攻關(guān)團(tuán)隊,專做大模型研發(fā)。并在2021年分別發(fā)布了悟道1.0、悟道2.0,2023年發(fā)布悟道3.0系列。
ChatGPT發(fā)布之后,產(chǎn)業(yè)界開始關(guān)注大模型,智源實際對國內(nèi)大模型創(chuàng)業(yè)公司做了非常大的貢獻(xiàn),包括孵化了一些公司,轉(zhuǎn)化了一些技術(shù)。就在今年智源大會上,頭部大模型公司對智源在過去這些年的貢獻(xiàn)也給予了充分肯定。
面向未來,大模型還遠(yuǎn)沒有到發(fā)展的盡頭。百模大戰(zhàn),很大程度上依然聚焦于大語言模型,Scaling Law在大語言模型上開始放緩的一個非常重要的原因是文本數(shù)據(jù)消耗殆盡。
ChatGPT后的o1,想要通過Post-Training(后訓(xùn)練)的方式進(jìn)一步激發(fā)大語言模型的智能。
面向未來看更多的技術(shù)發(fā)展趨勢,可以看到除了文本數(shù)據(jù),還存在著大量的圖像、音頻、視頻等多模態(tài)數(shù)據(jù),這些數(shù)據(jù)如何進(jìn)一步激發(fā)大模型的智能,是一個非常重要的研究方向。
我們知道現(xiàn)階段有多模態(tài)理解的模型,也有多模態(tài)生成的模型。像Sora是Diffusion-Transformer的技術(shù)路線,多模態(tài)理解的模型基本上還是以大語言模型為核心,把不同模態(tài)的視覺信號等往語言模型上做映射。
我們認(rèn)為原生統(tǒng)一的多模態(tài)大模型才能更好支撐產(chǎn)業(yè)落地應(yīng)用,實現(xiàn)人工智能對世界的感知、理解、推理。如果與真實物理世界的硬件結(jié)合就是具身智能,與微觀世界的生命科學(xué)結(jié)合就是AI for Science,這一切最終都推動整個AGI時代的到來。
過程中,智源研究院會針對一些產(chǎn)業(yè)界的共性問題,進(jìn)行科研層面的解決,以始終引領(lǐng)未來大模型的發(fā)展,支撐產(chǎn)業(yè)發(fā)展方向。
大模型一直有一個非常大的痛點就是幻覺。
去年,我們發(fā)布的通用向量模型被廣泛用在檢索增強(qiáng)中,在過去的兩年里,BGE已經(jīng)成為全球知名開源平臺Hugging face上120多萬個開源AI模型中下載量最高的模型(超過20%)。
不僅在社區(qū)里廣受歡迎,而且主流的云廠商平臺集成了BGE模型。因為我們完全開源,也允許商用。這就是智源研究院對產(chǎn)業(yè)界的支撐。
前沿探索中,智源一直在開展視覺和多模態(tài)方向的研究。
當(dāng)前階段,不同模態(tài)的模型依然采用不同的技術(shù)架構(gòu),它能夠在局部上展現(xiàn)出非常好的效果,但從長期的技術(shù)發(fā)展或最終落地來講,還是會面臨很多挑戰(zhàn)。
所以我們一直都在挑戰(zhàn)一個終極形態(tài)的技術(shù)路線——將所有的模態(tài),包括理解和生成統(tǒng)一。
今年10月正式發(fā)布的Emu3原生多模態(tài)世界模型,我們將視覺信號和所有文本變成了token,通過類似大語言模型的訓(xùn)練架構(gòu)訓(xùn)練出了一個統(tǒng)一的原生多模態(tài)大模型。
- 免責(zé)聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認(rèn)可。 交易和投資涉及高風(fēng)險,讀者在采取與本文內(nèi)容相關(guān)的任何行動之前,請務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。