智譜AICEO張鵬:擔(dān)心ScalingLaw碰到天花板,為時過早|WISE2024商業(yè)之王
環(huán)境持續(xù)變化,時代總在迭變,“商業(yè)之王”們緊隨時代浪潮,堅持創(chuàng)造,謀求新動能。立足中國經(jīng)濟大轉(zhuǎn)型的當(dāng)下,WISE2024 商業(yè)之王大會,一同發(fā)現(xiàn)真正有韌性的“商業(yè)之王”,探尋中國商業(yè)浪潮里“正確的事”。
11月28-29日,為期兩日的36氪WISE2024 商業(yè)之王大會于北京隆重召開,作為中國商業(yè)領(lǐng)域的全明星盛典,WISE大會今年已經(jīng)是第十二屆,在不斷變化的時代里見證著中國商業(yè)的韌性與潛力。
2024,是有些模糊且變化多于穩(wěn)定的一年。相比過去十年,大家的腳步正放緩,發(fā)展更加理性。2024,也是尋求新的經(jīng)濟動力的一年,新的產(chǎn)業(yè)變化對每個主體的適應(yīng)性提出了更高的要求。今年WISE大會以Hard But Right Thing(正確的事)為主題,在2024,什么是正確的事,成為我們更想交流的話題。
在上午的WISE會場上,智譜CEO張鵬對近期的AI熱議話題,以及AI發(fā)展階段做了一次題為《GLM大模型與通用人工智能》的分享。
智譜AI是國內(nèi)大模型明星初創(chuàng)。早在OpenAI的ChatGPT推出之前,國內(nèi)還沒有多少人深入大模型領(lǐng)域之時,智譜AI就已經(jīng)開展了大模型的探索。
GLM大模型作為通用人工智能的重要基石,不僅融合了深度學(xué)習(xí)的強大算力與泛化能力,更在語義理解、知識推理等方面展現(xiàn)出卓越的性能。
在演講中,張鵬不僅回顧了人工智能領(lǐng)域發(fā)展的經(jīng)典曲線,并且也對近期大模型領(lǐng)域Scaling Law碰壁、大模型研發(fā)進度延緩等熱門話題,進行了闡釋。
張鵬表示,但本質(zhì)上,從研究、技術(shù)角度來看,這一代大模型并不像上一代的人工智能技術(shù)。隨著語言能力的大幅提升,大模型在包括視覺、聽覺等其他模態(tài)上,還有長足的發(fā)展空間。
“大量研究人員在做新的突破,每一次新的突破都會帶來一些新的機會,我們擔(dān)心碰到天花板或者碰到南墻,這個事情確實是有一點過早。”張鵬說。
此外,張鵬也提出了AI的五個發(fā)展階段,包括語言能力、邏輯思維能力、工具調(diào)用能力、自我學(xué)習(xí)能力等。

張鵬
以下是張鵬的演講實錄:
張鵬:大家中午好!已經(jīng)過了12點了,在外面很冷的情況下館里面還熱火朝天,現(xiàn)在還在這兒聽我講的應(yīng)該是真愛。
今天我在來的路上在想應(yīng)該跟大家聊什么事情,我們的市場部要求比較早做出來,交給我們的主辦方,可能里面的內(nèi)容還是我們之前準備的一些東西。
最近兩天大家也在討論一些新的東西,包括Scaling Law是不是已經(jīng)碰到天花板,大模型這個事情是不是還會走下去,有很多的看法,我也不斷被大家來問這樣的問題。所以我也不一定會按照這個里面的所有內(nèi)容來講,還是跟大家講一講我們最近的思考。
這是今年年中發(fā)布的關(guān)于人工智能曲線,可以看到這上面有很多跟人工智能,跟大語言模型相關(guān)的詞匯,這些詞處在里面不同的位置上,也代表著公眾對于這件事的關(guān)注度。我個人理解,現(xiàn)在已經(jīng)越來越像輿論,媒體熱度的曲線,而不是真正技術(shù)引領(lǐng)上的曲線了。
大家可以看到,里面有很多的新的東西,包括具身智能、智能體等等的技術(shù),仍然處在非常快速上升的曲線上。所以,從這一波人工智能發(fā)展的角度來看,當(dāng)下還是處在非常快速上升的階段。
所以,大家因為Scaling Law撞墻,就擔(dān)心整個行業(yè)會突然進入低谷期,這個擔(dān)心可能有點多余。就像我們擔(dān)心人工智能會統(tǒng)治人類一樣,還有點太早,不妨讓子彈飛一會兒。
在非常狹窄的意義上來說,Scaling Law確實遇到了一些挑戰(zhàn)。可以看這條曲線,在語言能力上,單單從語言能力上來看,大模型確實已經(jīng)類似到了上一代人工智能遇到的天花板問題:所有的能力已經(jīng)接近了人類的極限、人類專家可以評價的極限。
大家可以回想一下,上一代人工智能之所以進入發(fā)展瓶頸期,就是因為這個,我們?nèi)祟愐呀?jīng)沒有辦法教AI如何來突破了。我們?nèi)祟惖奶旎ò逶谀莾簲[著,所有數(shù)據(jù),喂給AI的數(shù)據(jù)都是來自人類。是不是能突破這個天花板?這可能是現(xiàn)在大家要想的問題。
這是從語言模型的角度來看。但本質(zhì)上,從研究、技術(shù)角度來看,它不像上一代的人工智能技術(shù)。
上一代人工智能技術(shù)底層的神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)等等,現(xiàn)在看起來還比較簡單,基本上大家已經(jīng)非常快速收斂,并且趨于穩(wěn)定了。
但是預(yù)訓(xùn)練模型或者大訓(xùn)練模型底層的研究,仍然在非常快速地迭代,還有大量空白的空間,大量研究人員在做新的突破,每一次新的突破都會帶來一些新的機會,我們擔(dān)心碰到天花板或者碰到南墻,這個事情確實是有一點過早。
我們剛才說的是語言模型,語言模型確實碰到了很現(xiàn)實的問題,數(shù)據(jù)好像都喂進去了,智能提升速度已經(jīng)有一些放緩。但是除了語言之外,還有很多的事情,比如說視覺、聽覺,這些空間還非常非常的大。
比如,視覺理解還有大量的問題需要去研究。對于人眼所看到的復(fù)雜情景,現(xiàn)在的模型還不能很好地全面地類比,跟人類的差距還是非常非常明顯,這里面我們還有很多事情要做。
我們最近也在這方面花了很多的力氣做這樣的事情,讓我們的視覺理解的能力跟硬件、端側(cè)的設(shè)備結(jié)合,讓端側(cè)設(shè)備具備更強的理解能力。因為我們現(xiàn)實世界很多的任務(wù),都是要結(jié)合不同模態(tài)信息的輸入,包括語言、視覺、聽覺。
總結(jié)起來看,我們可以看這一張圖。我們把人工智能發(fā)展的階段、進步的階梯分為五個層次,其實OpenAI也有類似的分法。
在我們的理解里面,前三級跟OpenAI非常類似。首先,最簡單的、最重要的是語言能力,以及其他模態(tài),我們統(tǒng)稱為多模態(tài)能力——視覺、聽覺還有大量的空間。
第二層,邏輯思維能力,也是最近大家熱議的OpenAI的o1。我們國內(nèi)也有很多的團隊在做強推理能力,復(fù)雜問題解決能力的模型,也在持續(xù)往前演進。邏輯推理能力上,我們大概能走到接近60%的人類水平。
再往上,我們怎么讓大模型,AI長出手腳,使用各種各樣豐富的工具,產(chǎn)生更大的生產(chǎn)力,也就是工具調(diào)用的能力,也是最近熱議的一件事。
我們最近也有小小的突破,讓 agent 幫助人操作手機上的APP,PC上的應(yīng)用,解決一些重復(fù)性的、過程性的工作。
再往上,可能(和OpenAI)略微有一些差異,我們認為四五兩級分別是AI的自我學(xué)習(xí)能力。
人的能力、人的智能之所以能持續(xù)不斷的更新迭代,在于人是有自我學(xué)習(xí)能力的。人可以在不斷的實踐,反饋當(dāng)中不斷的提升自己,創(chuàng)造新的數(shù)據(jù)、經(jīng)驗、智能、工具,這些能力才是人類往前得以突進,創(chuàng)造新事物的核心能力。
我們希望AI能夠具備更強的自我學(xué)習(xí)能力,這樣才有可能像人一樣去突破現(xiàn)有的天花板,創(chuàng)造新的東西,未來利用這種能力去探索、研究、尋找科學(xué)的新邊界。
我們最近做的一件事,包括在多模態(tài)能力上研究如何把視覺、聽覺能力,聲音的能力融合起來,加上非常強大的語言理解能力,去解決現(xiàn)實當(dāng)中的一些問題。
OpenAI對于人工智能發(fā)展的分級發(fā)展脈絡(luò),叫通用人工智能之路,大家可以看到清晰的演進路線。大語言模型到多模態(tài),到工具的使用,到自學(xué)習(xí),我們可以看到整個路徑是非常清晰的。
為什么會這樣?語言是基礎(chǔ),人類本身的大腦智能就是多模態(tài)的,再使用工具連接物理世界,最終實現(xiàn)自我學(xué)習(xí)。
我們跟腦科學(xué)研究的專家、神經(jīng)科學(xué)專家等等跨學(xué)科的專家一起來做了一些探討。現(xiàn)在人工智能技術(shù)的演進,已經(jīng)觸及到通用人工智能的一些方面。
人類的大腦分區(qū)塊,多樣化,這是現(xiàn)代腦科學(xué)證實的事情,包括語言能力、邏輯推理能力、視覺能力、觸覺能力、運動能力等等。彩色部分,其實是現(xiàn)在AI或者大模型已經(jīng)觸及到的部分,灰色的部分,是我們暫時還沒有觸及或者相對比較少的部分,包括手腳這種使用外部工具的能力。就跟剛才我們畫的階梯狀圖一樣,在自然語言的理解和使用這方面,已經(jīng)接近人類最好的上限。
在邏輯推理、情感、創(chuàng)新方面、工具使用方面,我們也有一定的突破,但是仍然還有一些地方仍有大量的空白,所以下一代的Scaling law到底是什么?我們可能在這些空白區(qū)域,或者說發(fā)展得還沒有那么完善的區(qū)域,去找到更多的Scaling law發(fā)揮效果的地方。
在這個過程里,我們可以發(fā)現(xiàn),智譜的發(fā)展路徑其實是在對標OpenAI。對標OpenAI,在于我們的理念非常相似。我們認為,人類智能或者通用人工智能一定不是單向能力上限的突破。
大家想一想,上一代人工智能,不管是NLP(自然語言處理)還是計算機視覺,單向能力上限突破最終結(jié)局是什么?仍然是工具型的成果,無法解決現(xiàn)實生活當(dāng)中、我們期待解決的通用性問題,只能利用大數(shù)據(jù)解決小任務(wù)。
這一代生成式人工智能或者大模型能夠解決的問題,恰恰是另外的問題,我用大數(shù)據(jù)、小任務(wù),簡單的任務(wù)進行訓(xùn)練,去解決更多的問題,這才是這一代生成式人工智能要解決的核心問題。
但是要解決多樣化問題,一定是多項目能力的組合。很難想象大家在日常工作的任務(wù)當(dāng)中,或者說跟社交的生活當(dāng)中,只使用一種感知能力,僅僅只使用一種感知能力,這是很難想象的事情。
解決現(xiàn)實生活、工作當(dāng)中的問題,一定是多項能力的組合,這也是為什么我們做各種類型的,不同模態(tài)各種能力的全面組合。
我們8月份新發(fā)布的新一代模型,是包含了各種能力組合的產(chǎn)品矩陣,從文本能力開始作為最好的底座,上面結(jié)合視覺、語言、代碼能力,我們讓它能夠具備全面的、通用化的能力,來面對通用化的任務(wù)。
8月,我們也接受了業(yè)界、學(xué)術(shù)界、公眾公開的評測和檢查檢驗,效果還是非常不錯的。四代的模型跟國際上第一梯隊模型打得有勝有負,這是我們很欣慰看到的事情。
在這個基礎(chǔ)之上,還會有更新的能力,比如視頻生成的能力,我們做了全新升級,有更高的碼率,每秒60禎視頻生成,更高的4K清晰度,更逼真的畫面,并且還可以結(jié)合我們的聲音能力,為視頻自動的進行配音。
大家知道,電影從默片到有聲電影的進步,是電影史上非常重要的跨越,視頻的生成從完全無聲畫面,到能夠同時生成配音,也是巨大的進步,表示著我們再一步向物理世界的理解和生成邁進一步。
我們不僅能夠生成更高清晰度的視頻,而且視頻比例,更高的生成速度,多通道同時生成多個視頻,這樣大家可以效率更高一些。
這是AutoGLM,讓大家體驗用語言、語音操縱手機的能力,相信關(guān)注我們的朋友,最近也看過這樣的視頻介紹,體驗過我們相應(yīng)產(chǎn)品的內(nèi)測。
我們這個產(chǎn)品發(fā)布以后,收到了廣泛的關(guān)注,過程當(dāng)中確實有很多的反饋給到我們,雖然還是比較早期的嘗試。經(jīng)過這一個月的測試和反饋,我們努力讓這個產(chǎn)品繼續(xù)迭代,大家如果感興趣的話可以持續(xù)關(guān)注,我們還會有新的更新,開放給大家。
時間原因,給我的時間比較少,這個視頻我們就不再放完了,大家感興趣可以自己體驗一下。
通過強化學(xué)習(xí)的路徑,我們使得大模型像人的大腦一樣,使用工具的成功率大大得到了提高,我們認為由原來通用任務(wù)上可能只有20%左右的成功率,翻了 1 倍,接近 40%的準確率。
未來,希望借助與我們?nèi)婺P偷哪芰Γ嗄B(tài)、跨模態(tài),以及通用的AI Agent能力連接大模型大腦,和更多智能化設(shè)備,讓AI能力更快落地,走入物理顯示的世界,有著人機交互的新體驗。
我感覺這個時代已經(jīng)正在到來,智譜在這個過程當(dāng)中,也秉持雙輪驅(qū)動理念,不斷在技術(shù)上進行突破,同時也不忘把我們技術(shù)轉(zhuǎn)化成更新的產(chǎn)品,在市場上給大家創(chuàng)造更多的客戶價值。
我的分享就到這里,謝謝大家!
- 免責(zé)聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風(fēng)險,讀者在采取與本文內(nèi)容相關(guān)的任何行動之前,請務(wù)必進行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產(chǎn)生的任何金錢損失負任何責(zé)任。