谷歌Gemini負(fù)責(zé)人詳解:如何理解AI的下一步?
近日,Drastic Research副總裁兼Gemini聯(lián)合負(fù)責(zé)人Oriol Vinyals在Google DeepMind播客訪談中分享了對(duì)AI模型的看法,涉及多模態(tài)模型背后的過(guò)程、創(chuàng)新的重要性以及AI的下一步。
他認(rèn)為,AI目前的挑戰(zhàn)是實(shí)現(xiàn)算法的通用性。他還表示,在預(yù)訓(xùn)練中沒(méi)有所謂的無(wú)限數(shù)據(jù)狀態(tài),數(shù)據(jù)是有限的。他傾向于相信未來(lái)可以稍微推高數(shù)據(jù)的極限,超過(guò)目前的極限,并將打破一些scaling laws和在純預(yù)訓(xùn)練中看到的限制。
以下為訪談要點(diǎn):
算法本身,我們努力讓它們非常通用,以便我們可以繼續(xù)攀登難度階梯,游戲課程, 并做更多復(fù)雜的事情。
AI訓(xùn)練,有兩個(gè)基本步驟一直保持相對(duì)不變,第一個(gè)步驟,即預(yù)訓(xùn)練或模仿學(xué)習(xí)。強(qiáng)化學(xué)習(xí)或后期訓(xùn)練的部分,這是訓(xùn)練的第二階段。這兩個(gè)步驟實(shí)際上從AlphaGo到AlphaStar到當(dāng)前大型語(yǔ)言模型幾乎是相同的。 當(dāng)然,還有一些細(xì)節(jié)很重要。而且這個(gè)領(lǐng)域已經(jīng)發(fā)展,但原則幾乎沒(méi)有改變。
計(jì)算單元是神經(jīng)元,神經(jīng)元之間的連接實(shí)際上就是權(quán)重。所以你可以想象有一個(gè)神經(jīng)元,有幾個(gè)神經(jīng)元與之相連。你基本上是將所有傳入神經(jīng)元的激活值乘以權(quán)重。
這些模型實(shí)際上做一些事情,采取一些行動(dòng),學(xué)習(xí)任何可用的新東西,這是相當(dāng)強(qiáng)大的。這是推動(dòng)通用性最大的因素,這就是許多人稱之為的AGI,感覺(jué)更接近。
為了推動(dòng)前沿,你需要給計(jì)算機(jī)一個(gè)數(shù)字身體,這樣它不僅可以思考,給出指令或文字輸出,還可以在線或在你可能上傳的文件上做一些事情,或問(wèn)非常復(fù)雜的問(wèn)題,并為你個(gè)性化等等。
因?yàn)橛?xùn)練模型的過(guò)程是昂貴的。所以我們需要非常小心地積累創(chuàng)新,以便最終,當(dāng)我們準(zhǔn)備好時(shí),我們有足夠的創(chuàng)新,可能也會(huì)有更好的規(guī)模來(lái)運(yùn)行下一次模型的迭代。我們運(yùn)行它,然后我們不僅通過(guò)數(shù)據(jù)和計(jì)算獲得算法上的突破。
預(yù)訓(xùn)練中,我們沒(méi)有所謂的無(wú)限數(shù)據(jù)狀態(tài),數(shù)據(jù)是有限的。
我們只有有限的數(shù)據(jù)來(lái)訓(xùn)練這個(gè)仲裁者,而真正的標(biāo)準(zhǔn)可能需要專家的判斷。然而,這種方式不可擴(kuò)展。
通過(guò)給模型提供這些工具,它們可以開始實(shí)現(xiàn)更多超越訓(xùn)練語(yǔ)料庫(kù)的高階功能,比如依賴最新的新聞來(lái)解釋或總結(jié)前一天的重大事件。
我們希望通過(guò)延長(zhǎng)模型處理時(shí)間,它能更好地總結(jié)新聞、寫詩(shī),甚至解決數(shù)學(xué)問(wèn)題。但這肯定是另一個(gè)scaling軸,我們正開始解鎖,我們希望解鎖。同樣,我們將打破一些scaling laws和我們?cè)诩冾A(yù)訓(xùn)練中看到的限制。
當(dāng)你需要考慮個(gè)性化和時(shí)間安排時(shí),模型需要從多個(gè)信息來(lái)源中整合數(shù)據(jù),才能給出最佳答案。這不再是一個(gè)簡(jiǎn)單的‘天空是什么顏色’的問(wèn)題。
今年的一個(gè)突破是能在上下文中處理數(shù)百萬(wàn)個(gè)標(biāo)記,你可以從過(guò)去檢索一些東西,然后將其帶到未來(lái),然后進(jìn)行非常詳細(xì)的分析。
以下為訪談原文,部分內(nèi)容略有刪減:
AI訓(xùn)練的兩個(gè)基本步驟:預(yù)訓(xùn)練和強(qiáng)化學(xué)習(xí)主持人:
上次見到你時(shí),你正在研究一個(gè)可以使用鍵盤和鼠標(biāo)的智能代理,它可以在畫圖、繪畫或玩《星際爭(zhēng)霸》。從那時(shí)起,事情已經(jīng)取得了很大進(jìn)展。
Oriol Vinyals:
我們當(dāng)時(shí)所做的是制定一系列越來(lái)越難的任務(wù)。我們談到電子游戲《星際爭(zhēng)霸》時(shí),這是當(dāng)今最復(fù)雜的現(xiàn)代策略游戲之一。當(dāng)然,DeepMind以開創(chuàng)了雅達(dá)利游戲的趨勢(shì)而聞名, 這是一個(gè)簡(jiǎn)單的左右移動(dòng)球拍和打球的游戲。
這是算法本身,我們努力讓它們非常通用,以便我們可以繼續(xù)攀登難度階梯,游戲課程, 并做更多復(fù)雜的事情。現(xiàn)在發(fā)生的事情是,我們訓(xùn)練的模型比我們當(dāng)時(shí)開發(fā)的模型應(yīng)用范圍更廣。
所以想想創(chuàng)建這個(gè)數(shù)字大腦的過(guò)程并沒(méi)有改變太多。但當(dāng)時(shí)該大腦能夠做的事情相對(duì)有限,盡管非常復(fù)雜, 比如玩《星際爭(zhēng)霸》或圍棋。現(xiàn)在,這些模型可以做更多廣泛的應(yīng)用,當(dāng)然,還有與我們聊天的聊天機(jī)器人等等。
主持人:
那時(shí)候,強(qiáng)化學(xué)習(xí)是你主要的杠桿吧。我想知道現(xiàn)在有什么不同?
Oriol Vinyals:
是的,所以從算法上說(shuō),AlphaGo和AlphaStar使用了相同的一套算法序列來(lái)創(chuàng)建這個(gè)數(shù)字大腦。它與當(dāng)前大型語(yǔ)言模型或多模態(tài)模型的創(chuàng)建方式并沒(méi)有太大不同。 在我們參與的許多項(xiàng)目中,有兩個(gè)基本步驟一直保持相對(duì)不變,第一個(gè)步驟,即預(yù)訓(xùn)練或模仿學(xué)習(xí)。
也就是說(shuō),從隨機(jī)權(quán)重開始,有一個(gè)算法會(huì)嘗試模仿人類為玩游戲而創(chuàng)建的大量數(shù)據(jù),或者在這種情況下,模仿互聯(lián)網(wǎng)上所有我們可以獲取的知識(shí)。在這第一階段,你只需調(diào)整權(quán)重以盡可能好地模仿那些數(shù)據(jù)。
主持人:
這些權(quán)重本質(zhì)上是每個(gè)神經(jīng)元內(nèi)部的一系列數(shù)字,這些數(shù)字描述了它與其他事物的聯(lián)系?
Oriol Vinyals:
是的,所以基本上計(jì)算單元是神經(jīng)元,神經(jīng)元之間的連接實(shí)際上就是權(quán)重。所以你可以想象有一個(gè)神經(jīng)元,有幾個(gè)神經(jīng)元與之相連。你基本上是將所有傳入神經(jīng)元的激活值乘以權(quán)重。而這些權(quán)重是唯一會(huì)改變的東西。輸入激勵(lì)神經(jīng)元,這很像大腦的運(yùn)作方式,有一些自由度的創(chuàng)造性。
主持人:
好吧,如果我們做一個(gè)類比,那就像你有神經(jīng)元,水流過(guò)它,而權(quán)重就像神經(jīng)元之間管道的寬度?
Oriol Vinyals:
是的,沒(méi)錯(cuò)。然后你可以想象有數(shù)百萬(wàn)個(gè)神經(jīng)元,數(shù)十億甚至萬(wàn)億的管道。這就是我們花費(fèi)大部分計(jì)算資源訓(xùn)練這些模型的地方,特別是語(yǔ)言模型,就是在預(yù)訓(xùn)練或模仿所有我們可以獲取的數(shù)據(jù)。
主持人:
好吧,所以你現(xiàn)在有了一張巨大的網(wǎng)絡(luò),有很多管道連接所有的神經(jīng)元。那就是你的模仿階段完成了。接下來(lái),如果你在做,比如說(shuō)AlphaGo或AlphaZero,你會(huì)讓它自己跟自己對(duì)弈。
Oriol Vinyals:
是的。當(dāng)然,這些句子在英語(yǔ)中看起來(lái)很合乎邏輯。或者如果它在玩一個(gè)游戲,它會(huì)合理地點(diǎn)擊東西,以移動(dòng)棋盤上的棋子等等。但這個(gè)模型還沒(méi)有學(xué)會(huì)的是學(xué)習(xí)這些行為會(huì)產(chǎn)生回報(bào)。
那就是強(qiáng)化學(xué)習(xí)或后期訓(xùn)練的部分,這是訓(xùn)練的第二階段。 所以你可以通過(guò)“嘿,平均來(lái)說(shuō),互聯(lián)網(wǎng)上的詩(shī)是什么樣的?”來(lái)寫一首詩(shī)。但接下來(lái)的問(wèn)題是,“我只想要好的部分”
所以我如何基于某種信號(hào)進(jìn)一步調(diào)整這些管道,現(xiàn)在寫完整首詩(shī)后,它會(huì)給一個(gè)0或1的分?jǐn)?shù)。
比如說(shuō),如果是一首平庸的詩(shī),你得到0分;如果是一首好詩(shī),你得到1分。再用一個(gè)游戲的類比,這是我們傳統(tǒng)上使用強(qiáng)化學(xué)習(xí)的地方,如果你贏得了游戲,你得到1。如果你輸了,你得到0,然后你進(jìn)一步調(diào)整權(quán)重。
但現(xiàn)在,不再是模仿人類, 而是說(shuō),忘掉過(guò)去,我想超越人類能夠做到的,嘗試讓我的所有詩(shī)歌都成為完美的詩(shī)歌,或者我的所有棋局都成為完美的棋局。在語(yǔ)言模型中,這個(gè)第二階段, 即強(qiáng)化學(xué)習(xí)后訓(xùn)練階段,往往相對(duì)短暫,因?yàn)槲覀儧](méi)有獲得超級(jí)干凈的獎(jiǎng)勵(lì)。
主持人:
所以一旦完成,那就是所有幕后進(jìn)行的事情。然后你就說(shuō),大家保持原地不動(dòng)。我們要對(duì)整個(gè)網(wǎng)絡(luò)進(jìn)行一個(gè)快照,這就是你作為用戶實(shí)際能夠訪問(wèn)的東西。
Oriol Vinyals:
是的。所以現(xiàn)在這個(gè)驚人的過(guò)程完成了。這些權(quán)重非常珍貴,所以你找到的這個(gè)配置,你真的花了幾個(gè)月的時(shí)間來(lái)完善它,調(diào)整一切。所以訓(xùn)練結(jié)束,你不再改變配置。
你可能想讓它非常高效。比如說(shuō)你發(fā)現(xiàn)這個(gè)神經(jīng)元沒(méi)有多大用處,它對(duì)任何事情都沒(méi)有用,你把它移除,一切都變得更快,更便宜,以便大規(guī)模運(yùn)行它。
然后作為用戶,你就得到了相同的權(quán)重,每個(gè)人都會(huì)得到我們訓(xùn)練過(guò)的相同權(quán)重。。 這就是我們所稱的Gemini 1.5 Flash。這僅僅意味著一組凍結(jié)的權(quán)重,不會(huì)再進(jìn)一步訓(xùn)練或任何事情。
所以這兩個(gè)步驟實(shí)際上從AlphaGo到AlphaStar到當(dāng)前大型語(yǔ)言模型幾乎是相同的。 當(dāng)然,還有一些細(xì)節(jié)很重要。而且這個(gè)領(lǐng)域已經(jīng)發(fā)展,但原則幾乎沒(méi)有改變。
AGI是推動(dòng)通用性最大的因素主持人:
這是雅達(dá)利的例子,或 AlphaGo中使用的算法類型,或者在大型語(yǔ)言模型中,架構(gòu)是不同的,對(duì)吧?
Oriol Vinyals:
是的。所以有一些組件構(gòu)成了數(shù)字大腦。其中之一是架構(gòu),所以有這些神經(jīng)網(wǎng)絡(luò)。現(xiàn)在我們有變壓器模型,這在DQN時(shí)代我們肯定沒(méi)有。所以總是有一些架構(gòu)上的突破,更好地從數(shù)據(jù)中學(xué)習(xí)。
但從變壓器模型到今天,幾乎都是一些小調(diào)整。即使你看看AlphaFold,它也是由變壓器驅(qū)動(dòng)的,團(tuán)隊(duì)有時(shí)需要數(shù)年只是為了找到一些小的調(diào)整,比如,“嘿,讓我們移除這一組神經(jīng)元,讓我們?cè)偌右粚樱屛覀儼堰@個(gè)弄得更寬一點(diǎn)”, 所以你塑造大腦的形狀,它稍微改變一下,有時(shí)候這會(huì)影響性能的實(shí)現(xiàn)。
主持人:
如果這些都是迄今為止取得的成就,我的理解是,目標(biāo)是創(chuàng)造更多的代理行為,讓這些東西能夠做出自主決策。這些如何幫助實(shí)現(xiàn)這一目標(biāo)?
Oriol Vinyals:
是的。所以讓我們深入一點(diǎn)當(dāng)前的趨勢(shì)。我們稱之為大型語(yǔ)言模型,但它們是多模態(tài)的。
想象一下,能夠添加圖像,然后提出問(wèn)題、繼續(xù)提問(wèn),這是多么好的一件事。所以這項(xiàng)技能,我們?nèi)匀粫?huì)改進(jìn)它。這些權(quán)重集能夠?qū)斎脒M(jìn)行的這些驚人的推斷。這張圖像是什么?用戶在問(wèn)什么?我能寫一首更好的詩(shī)嗎?我能把它寫得更長(zhǎng)嗎或別的什么嗎?
就像我們現(xiàn)在這些互動(dòng),我們都能玩這些東西,但這只是一種組件,我們可以想,嘿,這現(xiàn)在是我們的中央處理器,我們可以在它周圍添加更多內(nèi)容。
如果模型能去為你做研究呢,比如說(shuō),我舉的一個(gè)例子,我們?cè)缇烷_始考慮這個(gè)問(wèn)題。我可以要求一個(gè)語(yǔ)言模型或視覺(jué)語(yǔ)言模型學(xué)習(xí)玩《星際爭(zhēng)霸》游戲。這與創(chuàng)建一個(gè)玩游戲的代理是非常不同的方法,在另一個(gè)例子中,它可以上網(wǎng)、看關(guān)于游戲的視頻。當(dāng)然,它可以下載游戲,開始與之互動(dòng)學(xué)習(xí)。
在網(wǎng)上做研究,去論壇、閱讀論壇。去玩并發(fā)現(xiàn)它在某方面薄弱并加以改進(jìn)。經(jīng)過(guò)幾周后,它可能會(huì)給你發(fā)一封電子郵件說(shuō),我現(xiàn)在知道如何玩這個(gè)游戲了,讓我們來(lái)玩。這不是一個(gè)太遙遠(yuǎn)的現(xiàn)實(shí)。
但這些模型實(shí)際上做一些事情,采取一些行動(dòng),學(xué)習(xí)任何可用的新東西,這是相當(dāng)強(qiáng)大的。這是推動(dòng)通用性最大的因素,這就是許多人稱之為的AGI,感覺(jué)更接近。
數(shù)字身體能擴(kuò)展答案主持人:
所以如果我的理解沒(méi)錯(cuò)的話,目前我們擁有的東西,大型語(yǔ)言模型,多模態(tài)模型,無(wú)論你怎么稱呼它們,那是核心。但下一步是你在這個(gè)核心之上構(gòu)建東西,讓它能夠脫去穩(wěn)定器,去做自己的事情。
Oriol Vinyals:
是的,確實(shí)如此。如果它能夠訪問(wèn)所有的知識(shí),并且可以利用它的時(shí)間進(jìn)行一些真正的研究, 編寫假設(shè),編寫一些代碼等等,并花時(shí)間真正回答非常非常復(fù)雜的問(wèn)題。現(xiàn)在的可能性大大擴(kuò)展了。
雖然我們當(dāng)然不是在所有事情上都需要這樣。如果我們問(wèn)一個(gè)問(wèn)題,比如,“嘿,我喜歡米飯。今晚我該準(zhǔn)備什么?”可能不需要進(jìn)行深入的思考或者持續(xù)三周的研究,你可能對(duì)等待時(shí)間不太滿意。
但我認(rèn)為,為了推動(dòng)前沿,你需要給計(jì)算機(jī)一個(gè)數(shù)字身體,這樣它不僅可以思考,給出指令或文字輸出,還可以在線或在你可能上傳的文件上做一些事情,或問(wèn)非常復(fù)雜的問(wèn)題,并為你個(gè)性化等等。
主持人:
我喜歡這個(gè)想法,你有了電子大腦,現(xiàn)在你給它一個(gè)數(shù)字身體。我知道大型模型的大想法之一就是把它擴(kuò)大、讓它們?cè)絹?lái)越大。你認(rèn)為通過(guò)擴(kuò)展看到的結(jié)果現(xiàn)在已經(jīng)穩(wěn)定下來(lái)了嗎?
Oriol Vinyals:
是的,這是一個(gè)非常重要的問(wèn)題。我們研究了隨著模型變大,也就是這些模型有多少神經(jīng)元,它們?cè)谖覀冇忻鞔_指標(biāo)的某些任務(wù)上變得多么出色。例如,一個(gè)非常容易理解的例子是機(jī)器翻譯,所以當(dāng)你從數(shù)百萬(wàn)到數(shù)十億甚至可能數(shù)萬(wàn)億個(gè)神經(jīng)元擴(kuò)展時(shí),你會(huì)看到性能不斷提高。
這在通俗意義上意味著,在過(guò)去三年中,我們?nèi)〉昧艘恍┻M(jìn)展,你不應(yīng)該期望在接下來(lái)的三年中取得相同的進(jìn)步。實(shí)際上這條路變得越來(lái)越難走。這意味著計(jì)算投入也在超線性速度下進(jìn)步,但可能沒(méi)有這些趨勢(shì)所顯示的那么好,你會(huì)看到一些收益遞減。
因?yàn)楹?jiǎn)單地?cái)U(kuò)大x軸,即參數(shù)數(shù)量,你需要增加10倍才能看到相同的改進(jìn)。這就給我們帶來(lái)了一些壓力,嘿,也許我們不能擴(kuò)展那么多,我們需要考慮其他方法來(lái)擴(kuò)展以使模型更好。
事實(shí)上,這個(gè)類比甚至可以應(yīng)用于模型的表現(xiàn)。即使你有非常好的表現(xiàn),如果你想讓這些模型完全準(zhǔn)確,不會(huì)編造事實(shí)。但實(shí)際上,有時(shí)通過(guò)測(cè)試可以發(fā)現(xiàn)它們會(huì)產(chǎn)生不準(zhǔn)確的內(nèi)容。要達(dá)到完全的準(zhǔn)確性仍然非常困難,這給大規(guī)模部署帶來(lái)了一些有趣的挑戰(zhàn)。
主持人:
我聽到了你所說(shuō)的收益遞減。但就如何讓這些事情變得更好、如何讓這些模型變得更好而言,僅僅是數(shù)據(jù)、計(jì)算能力和規(guī)模嗎?這些是唯一需要拉動(dòng)的杠桿嗎?
Oriol Vinyals:
是的。如果你凍結(jié)架構(gòu),比如說(shuō)在接下來(lái)的一年里沒(méi)有創(chuàng)新,我們只是擴(kuò)展,因?yàn)橛懈玫挠布?wèn)世,那肯定會(huì)有一個(gè)看起來(lái)不錯(cuò)的趨勢(shì)。但發(fā)生了什么,特別是在Gemini, 我們有其他創(chuàng)新,其他技巧,技術(shù),關(guān)于如何從何種順序展示模型數(shù)據(jù)的細(xì)節(jié),到架構(gòu)的細(xì)節(jié),如何運(yùn)行訓(xùn)練過(guò)程,運(yùn)行多長(zhǎng)時(shí)間,我們實(shí)際向模型展示什么樣的數(shù)據(jù)?我們?nèi)绾芜^(guò)濾?我們展示更多高質(zhì)量的數(shù)據(jù),展示更少低質(zhì)量的數(shù)據(jù),所有我們稱之為超參數(shù)的不同內(nèi)容。
當(dāng)然還有其他算法進(jìn)展,我們也非常仔細(xì)地研究,因?yàn)橛?xùn)練模型的過(guò)程是昂貴的。所以我們需要非常小心地積累創(chuàng)新,以便最終,當(dāng)我們準(zhǔn)備好時(shí),我們有足夠的創(chuàng)新,可能也會(huì)有更好的規(guī)模來(lái)運(yùn)行下一次模型的迭代。我們運(yùn)行它,然后我們不僅通過(guò)數(shù)據(jù)和計(jì)算獲得算法上的突破。
訓(xùn)練AI的過(guò)程中,數(shù)據(jù)實(shí)際上是有限的主持人:
我想關(guān)于這種擴(kuò)展的另一件事是,沒(méi)有真正的限制,你可以輸入的節(jié)點(diǎn)數(shù)量實(shí)際上沒(méi)有限制,也許在理論上輸入的計(jì)算能力葉沒(méi)有限制。但你可以投入的數(shù)據(jù)是有限的。人類語(yǔ)言的數(shù)量是有限的。
Oriol Vinyals:
很好的觀點(diǎn)。所以我認(rèn)為節(jié)點(diǎn)是有極限的,因?yàn)槟銛U(kuò)展這些模型的方式是,它們不能在一個(gè)單一的芯片上運(yùn)行。所以現(xiàn)在你有一個(gè)芯片網(wǎng)格。它們?cè)谕ㄐ拧S幸恍┫拗疲热绻馑俚鹊取K蚤_始有一個(gè)時(shí)間點(diǎn),訓(xùn)練這樣一個(gè)大模型的效率也很不值得,即使是從你手頭硬件的利用率來(lái)看。
另一個(gè)關(guān)鍵點(diǎn)是在這個(gè)預(yù)訓(xùn)練中,模仿所有數(shù)據(jù),我們沒(méi)有所謂的無(wú)限數(shù)據(jù)狀態(tài),數(shù)據(jù)是有限的。因此一旦模型需要——你可以想象,讓我們?cè)谒袛?shù)據(jù)上訓(xùn)練。如果你想訓(xùn)練所有的東西,全部互聯(lián)網(wǎng)。所以我們剛剛開始思考,我們快要用完數(shù)據(jù)了。有些技術(shù),比如合成數(shù)據(jù),我們可以用多種方式書寫或重寫現(xiàn)有數(shù)據(jù)嗎?
語(yǔ)言是一個(gè)顯而易見的思路,你可以用不同的方式編寫互聯(lián)網(wǎng)。它主要是用英語(yǔ)寫的,但有辦法用不同的方式重寫相同的知識(shí)。我們正在探索這些。這是一個(gè)很多人開始投資的研究領(lǐng)域。因?yàn)槿绻阌猛陻?shù)據(jù),scaling laws會(huì)進(jìn)一步懲罰你。
主持人:
那么,例如,你可以讓Gemini寫自己的互聯(lián)網(wǎng)版本,然后用它來(lái)訓(xùn)練新的Gemini版本? 如果你開始輸入相同模型的輸出,會(huì)不會(huì)有創(chuàng)造出小的,不太有幫助的反饋循環(huán)的危險(xiǎn)?
Oriol Vinyals:
他們當(dāng)然可以做一些有趣的實(shí)驗(yàn)來(lái)測(cè)試像你剛才提到的想法。的確,從表面上看,這不是個(gè)好主意。如果你讓模型重新創(chuàng)建整個(gè)互聯(lián)網(wǎng),模型會(huì)受苦。確實(shí),從信息和內(nèi)容的角度來(lái)看,實(shí)際上,從信息內(nèi)容的角度來(lái)看,這個(gè)數(shù)據(jù)集具有它所具有的信息。你怎么能創(chuàng)造新的信息,對(duì)吧?我不知道,這些想法可能會(huì)有所幫助,我們并未達(dá)到從互聯(lián)網(wǎng)真正提取所有信息的根本能力。我們有好的算法,但它們并不完美。
主持人:
如果你能找到人類概念的E=MC2,然后僅用它生成新數(shù)據(jù),那么這似乎更現(xiàn)實(shí)。
Oriol Vinyals:
是的。這些語(yǔ)言模型只是重復(fù)在線上的內(nèi)容而不能創(chuàng)造任何新東西嗎?或者他們正在學(xué)習(xí)一個(gè)世界模型,然后你就可以基于它提取的原理,可能超越數(shù)據(jù)所包含的范圍?在更樂(lè)觀的版本下,我更傾向于相信,我們可以將數(shù)據(jù)的極限稍微推高一點(diǎn),超過(guò)我們目前的極限。
不過(guò),有一些數(shù)據(jù)來(lái)源我們還沒(méi)有看到突破,比如視頻數(shù)據(jù)。盡管這些數(shù)據(jù)量龐大,我們還沒(méi)有找到一個(gè)能夠從所有視頻中提取出大量知識(shí)和物理規(guī)律的突破口,即使這些視頻中沒(méi)有文字說(shuō)明。即便如此,我也不認(rèn)為我們利用了那個(gè)來(lái)源。
主持人:
它不是那樣運(yùn)作的?或者你不知道?
Oriol Vinyals:
是的。它感覺(jué)它應(yīng)該。早期有一些語(yǔ)言學(xué)習(xí),但我們也通過(guò)觀察三維世界進(jìn)行學(xué)習(xí)等等。所以可能還有更多知識(shí)我們還沒(méi)有提取出來(lái)。顯然,我們已經(jīng)做得很好了,你可以通過(guò)測(cè)試模型看到,將視頻中的概念聯(lián)系起來(lái)。然后你可以做一些很棒的事情,比如,“嘿,把這個(gè)完整的視頻提取三個(gè)有趣的時(shí)刻”。但模型本身,是否真正利用了這些信息?可能還沒(méi)有。
主持人:
如果我理解的話,目前它可以告訴你視頻中有什么,但它不能然后說(shuō)出“E = MC2”。 或者如果你給它展示夜空的照片,它不會(huì)突然能夠像人類天文學(xué)家那樣預(yù)測(cè)行星運(yùn)動(dòng)。
Oriol Vinyals:
是的,確實(shí)如此。我們?cè)谶@里采取的捷徑是我們?cè)谟?xùn)練圖像或視頻時(shí),幾乎總是附帶有文本說(shuō)明。所以它可能是一個(gè)解釋這張圖像或視頻有什么的說(shuō)明等等。當(dāng)然,這很了不起。
你可以放一張家庭作業(yè)的照片和一個(gè)小的概念圖,它它就會(huì)連接起來(lái),并基于此做出很多很好的邏輯。但我在這里說(shuō)的是,是否可以僅通過(guò)視頻,不借助語(yǔ)言,來(lái)訓(xùn)練模型理解發(fā)生的事情,甚至在某種程度上推導(dǎo)出一種語(yǔ)言(當(dāng)然不是我們的語(yǔ)言),并提取概念。目前這還沒(méi)實(shí)現(xiàn),但這可能會(huì)實(shí)現(xiàn)。
主持人:
回到你一開始提到的Deep Mind所構(gòu)建的模型,基本上都有兩個(gè)階段。
Oriol Vinyals:
是的。
主持人:
模仿階段,然后是在其上的強(qiáng)化學(xué)習(xí)階段。Alpha Go和Alpha Zero以及許多其他模型通過(guò)自我對(duì)弈變得更好。這也適用于這里嗎?
模型會(huì)尋找bug掌握游戲Oriol Vinyals:
是的。這是主要的開放挑戰(zhàn)之一不僅是預(yù)訓(xùn)練,還有后期訓(xùn)練或強(qiáng)化學(xué)習(xí)。在游戲中,強(qiáng)化學(xué)習(xí)的妙處在于有一套明確的規(guī)則。
如果你贏了,你就知道自己贏了。比如在下棋時(shí),如果你贏了,程序會(huì)驗(yàn)證所有步驟,確認(rèn)將軍并表示祝賀。
然而,在語(yǔ)言中,這就更棘手了。比如,這首詩(shī)比那首更好嗎?即便在我們之間討論也很難達(dá)成一致。因此,這種泛化使得精確計(jì)算變得非常困難。如何評(píng)估這是不是一部電影的更好總結(jié)? 或者這是不是視頻中最有趣的部分?這很難量化,但我們嘗試在做。你訓(xùn)練一個(gè)模型,根據(jù)一些人的偏好,要求它進(jìn)行泛化。讓模型批評(píng)自己的輸出,結(jié)果不會(huì)太糟,也許在80%的時(shí)間里表現(xiàn)尚可,雖然這不完美,但可以提供一些信號(hào)。
然而,當(dāng)你開始根據(jù)一個(gè)不完美的獎(jiǎng)勵(lì)模型進(jìn)行訓(xùn)練時(shí),模型會(huì)利用獎(jiǎng)勵(lì)的弱點(diǎn)。比如在國(guó)際象棋中,假設(shè)一個(gè)兵在某個(gè)位置總能贏,而這個(gè)位置是沒(méi)有人會(huì)下的。那么,算法可能會(huì)發(fā)現(xiàn)這一點(diǎn),并利用它贏得比賽。盡管算法掌握了游戲,但從研究人員的角度來(lái)看,這種策略并不理想。
所以這就是挑戰(zhàn)。基本上你是在尋找漏洞,而非真正理解優(yōu)秀策略的真正含義。
主持人:
你能不能通過(guò)增加另一個(gè)模型,作為終極仲裁者來(lái)解決這個(gè)問(wèn)題?
Oriol Vinyals:
好建議,但問(wèn)題是,你如何訓(xùn)練那個(gè)模型?我們只有有限的數(shù)據(jù)來(lái)訓(xùn)練這個(gè)仲裁者,而真正的標(biāo)準(zhǔn)可能需要專家的判斷。然而,這種方式不可擴(kuò)展。
想象一下,如果我們?cè)?秒內(nèi)完成了參數(shù)更新,然后要求專家審核這10000件事情,因?yàn)檫@是一個(gè)可靠的來(lái)源。我們沒(méi)有足夠的數(shù)據(jù)來(lái)訓(xùn)練一個(gè)足夠好的獎(jiǎng)勵(lì)模型。因此,雖然有一些想法,但我們無(wú)法獲得真實(shí)的標(biāo)準(zhǔn)。
將打破一些scaling laws和限制主持人:
而現(xiàn)在我們正在建立數(shù)字身體,你希望這個(gè)數(shù)字身體擁有什么樣的能力, 比如推理,因?yàn)樵谀欠矫嬉灿泻芏喙ぷ鳎皇菃幔?/p>
Oriol Vinyals:
是的。所以當(dāng)你開始思考時(shí),我們可以給這些模型有限的訪問(wèn)權(quán)限,以便它們能夠看到它們權(quán)重之外的東西,而這些權(quán)重是凍結(jié)的,能夠收集知識(shí)或者做一些可能更復(fù)雜的事情,而不僅僅是根據(jù)它們?cè)谏舷挛闹袚碛械膬?nèi)容,以及它們?cè)跈?quán)重中擁有的內(nèi)容來(lái)預(yù)測(cè)下一個(gè)單詞?
那么顯而易見的是,給它們?cè)L問(wèn)搜索引擎的權(quán)限。這是我們?cè)贕oogle擅長(zhǎng)的。另外,賦予它們運(yùn)行自己編寫代碼的能力,可能更廣泛的是給予它們與有互聯(lián)網(wǎng)訪問(wèn)權(quán)限的瀏覽器互動(dòng)的能力。
在所有這些過(guò)程中,你必須小心sandbox,這意味著保護(hù)這些環(huán)境,以確保即使模型不那么先進(jìn),也不會(huì)執(zhí)行意外的操作。因此,當(dāng)模型超出訓(xùn)練時(shí),安全性問(wèn)題變得更加引人關(guān)注。但如果我們只是夢(mèng)想有什么可能,通過(guò)給模型提供這些工具,它們可以開始實(shí)現(xiàn)更多超越訓(xùn)練語(yǔ)料庫(kù)的高階功能,比如依賴最新的新聞來(lái)解釋或總結(jié)前一天的重大事件。所有這些事情,你需要給予它們這些工具。
主持人:
好的,那么推理如何融入這一切呢?
Oriol Vinyals:
是的。推理很有趣,對(duì)吧? 我剛才描述的內(nèi)容可以概括為:如果我想了解昨天發(fā)生的事情,我可以說(shuō),"嘿,模型,我是Oriol,我對(duì)這些事情感興趣,我的政治觀點(diǎn)是這樣的或那樣的。給我一個(gè)關(guān)于昨天新聞的積極看法。"然后模型可能會(huì)進(jìn)行搜索,檢索所有新聞,按照我的要求以我喜歡的方式呈現(xiàn)。如果我不滿意,還可以反饋說(shuō)我不喜歡這個(gè)或這個(gè)笑話不好,然后在對(duì)話中進(jìn)行調(diào)整。
現(xiàn)在,推理是一個(gè)不同的擴(kuò)展軸。所以你可以想象模型決定了哪些中間步驟,以給我一個(gè)更好的答案。想象一下,谷歌搜索檢索到大約一百家新聞媒體的信息,模型可能會(huì)決定不只是簡(jiǎn)單地閱讀和總結(jié)所有內(nèi)容,而是先逐篇總結(jié)所有文章。這意味著模型會(huì)為自己總結(jié)每篇文章,而不是直接給用戶。
然后,它可能將這些總結(jié)按主題分組,甚至還會(huì)對(duì)某些看似可疑的文章進(jìn)行進(jìn)一步驗(yàn)證,比如查看網(wǎng)上討論。這種多步驟的研究過(guò)程可以持續(xù)很長(zhǎng)時(shí)間,直到模型認(rèn)為它得出了更高質(zhì)量的答案,才會(huì)提供簡(jiǎn)潔的總結(jié)。
此時(shí),模型有充足的時(shí)間來(lái)處理信息和進(jìn)行推理。我們希望通過(guò)延長(zhǎng)模型處理時(shí)間,它能更好地總結(jié)新聞、寫詩(shī),甚至解決數(shù)學(xué)問(wèn)題。但這肯定是另一個(gè)擴(kuò)展軸,我們正開始解鎖,我們希望解鎖。同樣,我們將打破一些scaling laws和我們?cè)诩冾A(yù)訓(xùn)練中看到的限制。
主持人:
這是否也包括計(jì)劃能力?比如說(shuō),模型能否瀏覽你的日歷,計(jì)算出你的發(fā)薪日,并在即將到來(lái)的一月打折季前提醒你推遲假期預(yù)訂?
Oriol Vinyals:這可能會(huì)變得非常復(fù)雜。當(dāng)你需要考慮個(gè)性化和時(shí)間安排時(shí),模型需要從多個(gè)信息來(lái)源中整合數(shù)據(jù),才能給出最佳答案。這不再是一個(gè)簡(jiǎn)單的‘天空是什么顏色’的問(wèn)題。
我想起一個(gè)例子,在我們的一篇早期論文中提到,語(yǔ)言模型能夠自發(fā)回答而無(wú)需編程指令,這令人驚訝。但如果涉及到行星位置、時(shí)間、天氣等的推理和規(guī)劃,答案就會(huì)變得非常微妙。所以思考和計(jì)劃,這些模型可以做到這一點(diǎn)。
主持人:
我想起2019年的一個(gè)對(duì)話,對(duì)方談到關(guān)于人腦的兩種思維系統(tǒng):一種是快速直覺(jué)型,另一種是慢速計(jì)算型,比如做數(shù)學(xué)和下棋。第二種更容易用計(jì)算機(jī)實(shí)現(xiàn),但現(xiàn)在我們也開始看到快速直覺(jué)反應(yīng)的可能性。你在談?wù)搶⑦@兩者結(jié)合,對(duì)吧?
Oriol Vinyals:
是的,的確如此。他可能也在談?wù)撓到y(tǒng),這確實(shí)是你更多地思考的一個(gè)方面。在游戲中這很明顯,直覺(jué)上覺(jué)得對(duì)的就直接行動(dòng),但深思熟慮可能帶來(lái)更好的決策。挑戰(zhàn)在于這些模型的通用性。
為了在非常通用的功能基礎(chǔ)上添加思考能力,你可能需要一種通用的思考方式。因此,你使用模型本身來(lái)生成它應(yīng)該如何思考任何事情。然后模型會(huì)想出,我要總結(jié)每一篇文章,我要做這做那。這不是我們編程,這是一個(gè)非常深刻的見解。這是唯一的方法嗎?是最優(yōu)的方法嗎?目前尚處于早期階段,五年后。我們拭目以待。
AI實(shí)現(xiàn)了記憶并能進(jìn)行深度分析主持人:
你正在談?wù)撚?jì)劃和推理,記憶是另一個(gè)非常重要的問(wèn)題。它實(shí)現(xiàn)了嗎?人們經(jīng)常談?wù)撻L(zhǎng)短上下文。我想這在某種程度上就是工作記憶,不是嗎?
Oriol Vinyals:
是的,有一些技術(shù)可以應(yīng)用于語(yǔ)言模型,至少有三種,而且它們相當(dāng)容易解釋。我們擁有一個(gè)記憶整個(gè)互聯(lián)網(wǎng)的系統(tǒng)的第一種方法是通過(guò)執(zhí)行預(yù)訓(xùn)練步驟。這實(shí)際上是一個(gè)特定格式的記憶步驟,我們有這些權(quán)重,它們是隨機(jī)的,然后我們將它們組裝成這些驚人的架構(gòu)。
第二個(gè)層次,我可能稍微解釋了一下。如何將谷歌等搜索引擎工具提供給模型。你可以說(shuō),這就是神經(jīng)科學(xué)家所說(shuō)的情景記憶,作為人類,也許就像我們很久以前就有這些記憶一樣。
它們不是很精確,所以它們往往有點(diǎn)模糊。如果我必須思考,我在谷歌的第一天是怎樣的?我記得一些零零碎碎的事情,在一個(gè)房間里,或者我遇到的某個(gè)人,諸如此類。
現(xiàn)在,有趣的是,這些模型可能沒(méi)有這個(gè)限制。你可以在網(wǎng)上找到一篇多年前寫的文章,它將包含所有圖像,一切都將是完美的,完美地重建。所以第二種模式稱為情景記憶,很明顯當(dāng)你將特別強(qiáng)大的搜索引擎集成到我們的模型中時(shí),我們會(huì)看到這一點(diǎn)。
第三個(gè)是你可以稱之為工作記憶的東西,實(shí)際上我描述的整個(gè)思維就是其中之一。如果我們把每一篇新聞文章都拿出來(lái),然后我們想創(chuàng)建摘要,找出它們之間的關(guān)系,批評(píng)其中的一些,這就開始結(jié)合工作記憶,這意味著我將有一個(gè)摘要的草稿本。這結(jié)合了工作記憶,比如在處理長(zhǎng)短上下文時(shí),可以更好地進(jìn)行推理。
今年的一個(gè)突破是能在上下文中處理數(shù)百萬(wàn)個(gè)標(biāo)記,你可以從過(guò)去檢索一些東西,然后將其帶到未來(lái),然后進(jìn)行非常詳細(xì)的分析。比如,我們可以上傳并總結(jié)電影或長(zhǎng)視頻內(nèi)容,我們可以在每一幀內(nèi)進(jìn)行相當(dāng)多的關(guān)聯(lián),電影中的每個(gè)對(duì)象等等。
主持人:
更長(zhǎng)的上下文窗口是否總是更好,因?yàn)槲抑皇窃谙耄也恢滥銈冞€在多大程度上將神經(jīng)科學(xué)作為你們所做工作的靈感。但人類的工作記憶是有限制的。當(dāng)然,有些時(shí)候你會(huì)覺(jué)得,我的大腦已經(jīng)滿了,我做完了。
Oriol Vinyals:
有時(shí)大腦是一種靈感,但計(jì)算機(jī)肯定有優(yōu)勢(shì)。我們應(yīng)該利用它的優(yōu)勢(shì),所以也許事實(shí)上他們可以記住每一篇維基百科文章,不管是什么,我們做不到,但如果模型可以,那么就行了。
但同時(shí),即使對(duì)于這些神經(jīng)網(wǎng)絡(luò)來(lái)說(shuō),太多的信息也可能會(huì)讓人感到困惑。所以壓縮可能是一個(gè)好主意。所以你可能想從中獲得一些靈感,讓我們做我們做的事情,這在記憶檢索等方面是相當(dāng)了不起的。
- 免責(zé)聲明
- 本文所包含的觀點(diǎn)僅代表作者個(gè)人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對(duì)本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險(xiǎn),讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前,請(qǐng)務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對(duì)因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。