智源張宏江對話谷歌盧一峰:什么才是大模型「皇冠上的明珠」?
作者 | Li Yuan、鄭玥
編輯 | 衛(wèi)詩婕
自 OpenAI 發(fā)布讓全世界矚目的 ChatGPT 以來,時(shí)間已經(jīng)過去一年有余。
大模型技術(shù)在這一年里不斷進(jìn)化:無論是越來越強(qiáng)的多模態(tài)能力,還是智能體(agent)的潛力初現(xiàn),都讓人們對這一場 AI 革命充滿期待。但在 LLM 技術(shù)飛速發(fā)展的當(dāng)下,要想使得大模型的能力落地關(guān)鍵領(lǐng)域,還存在哪些挑戰(zhàn)及亟待解決的問題?
我們特別邀請了兩位頂尖的技術(shù)極客——美國工程院院士、智源研究院原理事長張宏江院士,與 Google DeepMind 資深工程師盧一峰進(jìn)行了一場有關(guān)前沿技術(shù)的對話。
作為北京智源人工智能研究院的首任理事長,在 2020 年 GPT-3.0 發(fā)布之后,張宏江曾帶領(lǐng)一眾國內(nèi)學(xué)者探索大模型技術(shù),在他主導(dǎo)下的智源傾斜了大量資源投入大模型訓(xùn)練,并發(fā)布了中國首個(gè)大模型,奠定了中國大模型領(lǐng)域的技術(shù)積累。
而盧一峰所在的谷歌,則一直以來是 AI 領(lǐng)域的先行者。目前,所有大模型所基于的 Transformer 架構(gòu)最初都來自于谷歌對于 AI 的研究。2020 年,谷歌基于 Transformer 架構(gòu)開發(fā)的 AI 聊天機(jī)器人第一代 LaMDA(當(dāng)時(shí)項(xiàng)目名為Meena) 開發(fā)和推出,盧一峰就是項(xiàng)目發(fā)起人之一。作為技術(shù)專家,他也一直在產(chǎn)業(yè)第一線推進(jìn)大模型能力的邊界。
這次對談中涉及了多個(gè)極為關(guān)鍵的話題:如何解決大模型幻覺(AI hallucination)、使大模型擁有「超人類」的能力、訓(xùn)練數(shù)據(jù)枯竭的下一步應(yīng)對、以及底層技術(shù)架構(gòu)創(chuàng)新等。正如盧一峰的調(diào)侃,不少提問是價(jià)值「百億美元」級別的問題。
以下為訪談實(shí)錄,發(fā)生在極客公園創(chuàng)新大會2024,經(jīng)極客公園整理編輯后發(fā)布
我們?nèi)绾文軌蚋刨嚧竽P停孔屗纬陕伎迹⒈磉_(dá)不確定
張宏江:大家最近都在關(guān)注 OpenAI,尤其這一系列變化中間有一個(gè)代號為 Q* 的神秘項(xiàng)目。在 Sam Altman 被開除的 4 天前,有幾名 OpenAI 的研究人員向董事會發(fā)出的聯(lián)名信里寫道, Q* 可能會威脅全人類。一峰,你怎么看?
盧一峰:畢竟我不在OpenAI里面,以下也僅僅是我的一些猜測。
我自己一直有一個(gè)觀點(diǎn):我覺得現(xiàn)在的大語言模型實(shí)際上還是屬于一種「快思考」的模式。它的知識是來自于整個(gè)互聯(lián)網(wǎng)的數(shù)據(jù),壓縮以后進(jìn)行的重組、匯編,憑此來試著回答用戶的問題。它實(shí)際上離我們真正所謂的「慢思考」——即幫助人類去解決一些很難的問題,還有很長的路要走。
區(qū)別就在于,你可以讓它幫你寫一些日常的郵件,但是如果你問它,「我們怎么能夠把人類帶到?」這樣的問題,那它就無法用一次問答的方式獲得完整的答案。這個(gè)時(shí)候,我認(rèn)為它需要像我們做科學(xué)做實(shí)驗(yàn)一樣——需要運(yùn)用很多的工具,去探索不同的可能性,把其中比較好的方向摘出來,再往前進(jìn)一步。
而這種方式,目前在大模型中還沒有太多的出現(xiàn)。所以我并不擔(dān)心(Q*會威脅人類)。未來,如果大模型能夠自我進(jìn)化、自己推進(jìn)研究,那可能是我會更擔(dān)心的時(shí)候。 Q* 可能就是朝著這個(gè)方向,取得了一些比較有前景的早期成果,或者是他們看到了它自我進(jìn)化的能力,這可能是他們比較擔(dān)心的。
張宏江:那我們接著討論一下,大模型怎么樣才能夠慢思考?對比一下人類的慢思考能力怎么獲得,大模型的訓(xùn)練有沒有可以借鑒的地方?
盧一峰:大模型現(xiàn)在一次成型回答問題,依靠生成一個(gè)詞元,用這個(gè)詞元加到它的上下文里面,來生成下一個(gè)詞元,我們稱之為自回歸的解碼(autoregressive decoding)。
我個(gè)人覺得如果我們要獲得慢思考,實(shí)際上我們要回答兩個(gè)問題。
第一個(gè)問題是,大模型在一個(gè)一個(gè)解碼的時(shí)候,在什么時(shí)候會不確定?就像如果別人問我,一峰你怎么樣造一個(gè)火箭去?那可能我說「我覺得...」,之后的下一個(gè)詞,我可能就會卡住,思考我到底該說什么。我們要找到模型這樣不確定的時(shí)候。
第二個(gè)問題就是,在它不確定的時(shí)候,我們怎么停止它,讓它進(jìn)行探索。這個(gè)探索可以有幾類。實(shí)際上和我們?nèi)祟惡芟瘛.?dāng)我不確定的時(shí)候,我會做什么呢?我會上網(wǎng),我會去翻書,我會做實(shí)驗(yàn),我會去想一些莫名其妙的想法,我會去跟別人討論。大模型也有對應(yīng)這幾種方向的技術(shù)路線。
上網(wǎng)和翻書,對應(yīng)的是檢索增強(qiáng)生成(RAG、Retrieval Augmented Generation),就是把搜索引擎加到模型中來。用各種實(shí)驗(yàn)系統(tǒng)(包括仿真)對應(yīng)的是工具的使用。和別人聊一聊,對應(yīng)的是大語言模型智能體(agent)和智能體之間通過多智能體之間(multi agent)的交流和組合,來獲得一些共識。
做研究的代表可能是搜索,比如說 AlphaGo 里面的蒙特卡洛樹搜索(Monte Carlo Tree Search),或者說我們之前做 AutoML 時(shí)使用的神經(jīng)結(jié)構(gòu)搜索(NAS Architecture search),或者進(jìn)化算法,本質(zhì)上都是搜索算法。
最終的狀態(tài)可能是達(dá)到一個(gè)循環(huán),條件為「我不確定」時(shí),那我就去找一些相關(guān)的信息來。繼續(xù)判斷這個(gè)條件,達(dá)成了「我確定」,就繼續(xù)解碼下一個(gè)詞元,否則就再去找一些相關(guān)的信息來。
當(dāng)我們能夠準(zhǔn)確地回答大模型什么時(shí)候不確定,以及不確定以后應(yīng)該怎么確定這兩個(gè)問題時(shí),我們就能夠很自然地引入大模型的「慢思考」。
張宏江:今天,大模型幻覺問題(hallucination)還比較嚴(yán)重,這些不準(zhǔn)確性使得我們在一些所謂的關(guān)鍵任務(wù)中不太敢用大模型。最近業(yè)界如何試圖解決這個(gè)問題?
盧一峰:在這個(gè)問題上,我最早的思考角度源自 John Schuman。
他提到,預(yù)訓(xùn)練的大模型內(nèi)部已經(jīng)壓縮了很多知識,模型內(nèi)部已經(jīng)有了一個(gè)概率分布,了解自己知道什么不知道什么了。而我們在做第二步微調(diào),或者我們稱為對齊的這個(gè)步驟時(shí),如果我們沒有很仔細(xì)地去做,那我們有可能會促使它撒謊。
一個(gè)簡單的例子就是,如果它的訓(xùn)練數(shù)據(jù)是到 2021 年截止,還不知道 Elon Musk 后來當(dāng)了 Twitter 的 CEO,我們對齊時(shí)強(qiáng)迫它說 CEO 是 Elon Musk,有可能你最后教會它的,并不是這一條知識,而是教會了它說謊。它就會學(xué)會,哪怕我不確定、不知道,也可以瞎說。
我們需要非常仔細(xì)、非常謹(jǐn)慎地去選擇對齊數(shù)據(jù),保證我們讓它說的東西是真實(shí)地反映了它的知識水平、它的數(shù)據(jù)庫里面的數(shù)據(jù)。
這是一種想法,后來實(shí)際上業(yè)界也會有很多更新的方向:
其中一個(gè)比較熱門的方向就是檢索增強(qiáng)生成(RAG)。就是說,通過去發(fā)送一些搜索引擎的查詢?nèi)カ@得一些很客觀事實(shí)的簡短的文字,然后再把這些簡短的客觀事實(shí),像維基百科這樣的相關(guān)的文字放在這個(gè)上下文窗口里面。
我們嘗試過所有這些方向后,發(fā)現(xiàn)現(xiàn)在大模型的幻覺問題的解決,比起年初已經(jīng)有了不錯(cuò)的進(jìn)展,但是離真正的靠譜還有很遠(yuǎn)。
張宏江:是的,大概一個(gè)月以前,我跟伯克利的 Michael Jordan 有過一次見面,他講到我們在市場營銷上也好,金融行業(yè)也好,都在處理一件事情,就是不確定性。了解不確定性,提前算入或者避免不確定性,十分重要。和人類一樣,大模型的幻覺是無法減少到零的——但是,當(dāng)我們回答問題的時(shí)候,人類會說「讓我想一想」。
盧一峰:是的。如果它能夠很坦誠地表達(dá)不確定,它就能贏得用戶的信任,因?yàn)橛脩糁浪倪吔缭谀睦铩,F(xiàn)在它最大的問題是一本正經(jīng)地說瞎話。如果它能夠表達(dá)不確定的話,這件事情已經(jīng)算成功了很多。
打造「超人類」大模型?合成數(shù)據(jù)、架構(gòu)創(chuàng)新、多模態(tài)、和agent的未來
張宏江:能夠做到這些,要求我們對于整個(gè)大模型的學(xué)習(xí)架構(gòu)有個(gè)很大的改變。這就引出一個(gè)很重要的問題,Transformer 這種基本的架構(gòu)是不是就是現(xiàn)在唯一可靠的架構(gòu)?大模型向未來的發(fā)展的過程,中間技術(shù)路徑上還會不會有新的,根本上的變化?
盧一峰:宏江老師,你提的問題非常深刻,我覺得問題的正確答案可能是值百億美金,或者甚至更多錢。我的思考是這樣的:
現(xiàn)在,我們提到的 Transformer 這個(gè)架構(gòu),實(shí)際上已經(jīng)不僅僅指 17 年 18 年 Transformer 的那個(gè)論文包含的內(nèi)容,而是指一整套的算法和解決方案。而且,即使說到最窄的范疇,現(xiàn)在Transformer 的架構(gòu)也已經(jīng)比當(dāng)年的 Transformer 的架構(gòu)有了很大的優(yōu)化和改進(jìn)。
Transformer 是針對 GPU 和 TPU 這種非常擅長做稠密計(jì)算的硬件的軟件加速器。包含了架構(gòu),也包含了下一個(gè)詞元生成(next token generation)這種非常有效的訓(xùn)練目標(biāo)等。它非常優(yōu)雅地讓我們通過壓縮數(shù)據(jù)獲得了智能。
我認(rèn)為我們可以繼續(xù)改進(jìn)它,還有很大的空間,但要顯著改變它則有一定難度。 這個(gè)難度在于這幾個(gè)維度已經(jīng)彼此交織在一起。從 16 年到現(xiàn)在,整個(gè)業(yè)界在軟件、硬件和數(shù)據(jù)方面進(jìn)行了許多組合優(yōu)化,已經(jīng)將其推進(jìn)到了一個(gè)局部最優(yōu)狀態(tài)。
而在這樣的狀態(tài)下,通常我們要打破它,可能需要跳出來。你要到下一個(gè)山峰,必須得先下山再上山,才能到達(dá)更高的山峰。
如果要發(fā)生大的變化的話,我猜測可能從幾個(gè)點(diǎn)上:
首先是硬件的變化。Transformer起飛和硬件關(guān)系很大。大概 17 年、18 年的時(shí)候,Google 的 TPU 以及英偉達(dá)的 GPU,到了一個(gè)相對比較成熟的一個(gè)狀態(tài)。Transformer 團(tuán)隊(duì)設(shè)計(jì)出這個(gè)結(jié)構(gòu),最大化地利用了硬件的優(yōu)勢。
我的期待是說,如果有全新的硬件推出,可能會誕生很不一樣的軟件系統(tǒng)。或者軟件和硬件能夠相互推動(dòng),走出一條新的路。
另一個(gè)點(diǎn),可能是訓(xùn)練目標(biāo)的改變。我認(rèn)為多模態(tài)可能成為下一個(gè)前沿領(lǐng)域。大模型通過看書的方式,學(xué)習(xí)到了人類文明的許多有意義的部分。而看書并不能學(xué)到所有的知識,有的時(shí)候一圖勝千言。如果我們能夠訓(xùn)練模型學(xué)習(xí)多模態(tài)數(shù)據(jù),并且是對我們?nèi)祟愑幸饬x的這些重要數(shù)據(jù),比如很好的電影,或者說我們?nèi)祟惖膽?zhàn)爭的紀(jì)錄片,將是非常有意義的。
我認(rèn)為視頻在下一個(gè)詞元的預(yù)測上具有與文字相似的訓(xùn)練特性。你可以將視頻視為一系列詞元,例如觀看第一集后,嘗試預(yù)測第二集的情節(jié),觀看片段后,預(yù)測接下來會發(fā)生什么。通過這種預(yù)測工作,可能使模型具備更全面的世界知識,或者成為更完善的世界模型。
張宏江:今天,我們已經(jīng)用盡了人類的所有的文字記錄進(jìn)行訓(xùn)練。文字?jǐn)?shù)據(jù)的瓶頸應(yīng)該再怎么突破?合成的數(shù)據(jù)會不會是一個(gè)趨勢?
盧一峰:我覺得這是一個(gè)非常非常好的問題,宏江老師。數(shù)據(jù)是現(xiàn)有的這個(gè) Transformer 架構(gòu)下面一個(gè)非常非常重要的一個(gè)組成模塊,甚至稱之為最重要的組成部分之一都不為過。
我的看法是,數(shù)據(jù)不僅僅是數(shù)據(jù),數(shù)據(jù)是一個(gè)過分抽象、過分籠統(tǒng)的一個(gè)概念。在我看來,數(shù)據(jù)實(shí)際上是任務(wù),實(shí)際上是目標(biāo)。
比如說我們通常把數(shù)據(jù)劃分為兩部分,一個(gè)是預(yù)訓(xùn)練的數(shù)據(jù),一個(gè)是我們后面做對齊的數(shù)據(jù)。我們以預(yù)訓(xùn)練的數(shù)據(jù)為例。大家會覺得預(yù)訓(xùn)練就是說,把整個(gè)互聯(lián)網(wǎng)的語料拿來,預(yù)測下一個(gè)詞元就好了。但實(shí)際上,這個(gè)過程中,我們在做各種各樣的任務(wù)。
有些是語言任務(wù),比如說你說了「this」,那下面可能接「is」。有些是做推理、去做總結(jié)、甚至去做分析判斷的任務(wù),比如說把整個(gè)偵探小說所有線索、所有故事都作為上下文,讓模型預(yù)測誰是兇手。它還會做數(shù)學(xué)的,編程的,寫詩的,事實(shí)問答的各種任務(wù)。
我們現(xiàn)在稱預(yù)訓(xùn)練過后的這種模型為世界模型。因?yàn)樗隽烁鞣N各樣的任務(wù),它最后顯得什么都懂得一點(diǎn)。但是我們好像現(xiàn)在是把這個(gè)世界上所有的語料都扔進(jìn)去了,訓(xùn)練出來的模型有時(shí)候還是有點(diǎn)笨,不太可靠——因?yàn)榛ヂ?lián)網(wǎng)的數(shù)據(jù)是魚龍混雜的,它只能代表普通人類的認(rèn)知水平,而不能變成超人類,無法成為百分之一的聰明人的水平,怎么辦?
從這個(gè)問題出發(fā),我覺得我們就能推導(dǎo)出,我們還需要什么樣的數(shù)據(jù)?如果我們要造所謂的合成數(shù)據(jù),我們應(yīng)該去造什么樣的數(shù)據(jù)。我能看到合成數(shù)據(jù)的一個(gè)機(jī)會,是超人類的數(shù)據(jù)。
Demis Hassabis 之前講過,創(chuàng)新有三個(gè)境界。大模型達(dá)到的就是第一個(gè)境界。似乎出現(xiàn)了一些創(chuàng)新,但實(shí)際上本質(zhì)上是在達(dá)到現(xiàn)有人類已有的知識的平均線,沒有突破人類知識的邊界。
要到下一個(gè)層次,突破人類知識的邊界,需要類似于AlphaGo 里面的第 37 步的那種操作,或者說 AlphaFold 里面能夠把這個(gè)世界所有的蛋白質(zhì)折疊,精準(zhǔn)預(yù)測的能力。要完成這樣的任務(wù),需要的數(shù)據(jù)很難通過從互聯(lián)網(wǎng)上去收集,或者找人來撰寫。
在這種情況下,實(shí)際上我們可能應(yīng)該要用 AlphaGo 的這條思路去思考這個(gè)問題,就是說你可能需要的是只是給定一個(gè)環(huán)境,給定環(huán)境最終的目標(biāo),然后讓大模型或者 AI 系統(tǒng)通過自我博弈、自我進(jìn)化去達(dá)到一種超人類的解法,這個(gè)超人的解法實(shí)際上是最好的合成數(shù)據(jù),也是我提到的慢思考的過程。
然后我們把慢思考的成果——因?yàn)槟慊诉@么多算力把它給搞出來了——蒸餾回模型里頭,能夠讓模型能更有效率地、一次成型地回答出這個(gè)問題。我覺得是可能合成數(shù)據(jù)的一個(gè)可能更深的一個(gè)邏輯所在。
你能在這場革命中做什么?找到獨(dú)屬于自己的數(shù)據(jù)和問題
張宏江:我們今天在座的觀眾中,有很多是大模型應(yīng)用的行業(yè)人士。我們都知道,每當(dāng) OpenAI 召開發(fā)布會,無論是發(fā)布新的插件還是像這次發(fā)布的 GPT store,都會讓許多人感到驚嘆說,「OpenAI 的 GPT 的能力太強(qiáng)大了,把我原來要在一個(gè)垂直領(lǐng)域做的東西做掉了。我過去六個(gè)月做的事情白做了。」 在這種情況下,作為創(chuàng)業(yè)者,我們還能做些什么呢?
盧一峰:我的第一個(gè)觀點(diǎn)是,每個(gè)人在自己的賽道上的時(shí)候勝率是最高的。每個(gè)人都擁有自己獨(dú)特的生活、工作和學(xué)習(xí)環(huán)境,以及獨(dú)特的經(jīng)歷和社會關(guān)系,都能獨(dú)特地感知到屬于他自己的那個(gè)機(jī)會,在這樣的情況下進(jìn)行應(yīng)用是勝率最高的。
第二,無論是大模型、當(dāng)年的AI,還是未來的智能體,我們都可以將其視為家里的汽車或電腦一樣的工具,只是一種方便實(shí)用的工具而已。
當(dāng)你有了這兩個(gè)東西時(shí),我與其去糾結(jié)于別人做提示詞工程師我也要做,或者別人做應(yīng)用我也去做一個(gè),我覺得不妨退一步,冷靜思考一下:如果突然間上天賜予我這樣一個(gè)魔法工具,我能為我的生活,我能為周圍的人帶來什么改變?我能為我的日常生活帶來多大變化?這是我的思考角度。
還是要親自下水去玩這個(gè)模型,也許在這個(gè)過程中你會了解現(xiàn)在這個(gè)工具的邊界在哪里,你也許能體感到,它現(xiàn)在可能還沒有準(zhǔn)備好。你再過一段時(shí)間再去玩一玩它。等到有一天你發(fā)現(xiàn)它能夠幫你解決問題時(shí),也許那就是你應(yīng)該全力擁抱它的時(shí)候了。
張宏江:我同意,每個(gè)人都應(yīng)該從自己的體驗(yàn)、經(jīng)歷、工作和愛好的領(lǐng)域來思考 AI 的潛在應(yīng)用。移動(dòng)互聯(lián)網(wǎng)的成功源于一系列原生的應(yīng)用,而如今我們?nèi)蕴幱诖竽P蜁r(shí)代的早期,正在不斷探索 AI 時(shí)代和大模型時(shí)代的原生應(yīng)用和體驗(yàn)。
剛才你提到的這點(diǎn),也是我也想跟所有的朋友分享的一點(diǎn):讓自己跳進(jìn)水中成為一個(gè)實(shí)踐者,成為一個(gè)玩家。只有在游泳的過程中,你才能夠?qū)Υ竽P偷臐摿Γ瑢λ膯栴}有更深刻的認(rèn)識,對可能潛在的運(yùn)用和自己能做的事情有激情。
- 免責(zé)聲明
- 本文所包含的觀點(diǎn)僅代表作者個(gè)人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險(xiǎn),讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前,請務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。