首頁 > AI資訊 > 最新資訊 > Ilya離職后第一個(gè)動(dòng)作:點(diǎn)贊了這篇論文,網(wǎng)友搶著傳看

Ilya離職后第一個(gè)動(dòng)作:點(diǎn)贊了這篇論文,網(wǎng)友搶著傳看

新火種    2024-05-20

自Ilya Sutskever官宣離職OpenAI后,他的下一步動(dòng)作成了大家關(guān)注焦點(diǎn)。

甚至有人密切關(guān)注著他的一舉一動(dòng)。

這不,Ilya前腳剛剛點(diǎn)贊??了一篇新論文——

Ilya離職后第一個(gè)動(dòng)作:點(diǎn)贊了這篇論文,網(wǎng)友搶著傳看

——網(wǎng)友們后腳就搶著都看上了:

Ilya離職后第一個(gè)動(dòng)作:點(diǎn)贊了這篇論文,網(wǎng)友搶著傳看Ilya離職后第一個(gè)動(dòng)作:點(diǎn)贊了這篇論文,網(wǎng)友搶著傳看

論文來自MIT,作者提出了一個(gè)假說,用一句話總結(jié)是這樣?jì)饍旱模?/p>

Ilya離職后第一個(gè)動(dòng)作:點(diǎn)贊了這篇論文,網(wǎng)友搶著傳看

他們將這種推測(cè)起名為柏拉圖表示假說,參考了柏拉圖的洞穴寓言以及其關(guān)于理想現(xiàn)實(shí)本質(zhì)的觀念。

Ilya離職后第一個(gè)動(dòng)作:點(diǎn)贊了這篇論文,網(wǎng)友搶著傳看

Ilya甄選還是有保障的,有網(wǎng)友看過后將其稱為是今年看到的最好的論文:

Ilya離職后第一個(gè)動(dòng)作:點(diǎn)贊了這篇論文,網(wǎng)友搶著傳看

還有網(wǎng)友真的有才,看完后化用《安娜·卡列尼娜》開篇的一句話來總結(jié):所有幸福的語言模型都是相似的,每個(gè)不幸的語言模型都有自己的不幸。

Ilya離職后第一個(gè)動(dòng)作:點(diǎn)贊了這篇論文,網(wǎng)友搶著傳看

化用懷特海名言:所有機(jī)器學(xué)習(xí)都是柏拉圖的注腳。

Ilya離職后第一個(gè)動(dòng)作:點(diǎn)贊了這篇論文,網(wǎng)友搶著傳看Ilya離職后第一個(gè)動(dòng)作:點(diǎn)贊了這篇論文,網(wǎng)友搶著傳看

俺們也來看了一下,大概內(nèi)容是:

作者分析了AI系統(tǒng)的表征收斂(Representational Convergence),即不同神經(jīng)網(wǎng)絡(luò)模型中的數(shù)據(jù)點(diǎn)表征方式正變得越來越相似,這種相似性跨不同的模型架構(gòu)、訓(xùn)練目標(biāo)乃至數(shù)據(jù)模態(tài)。

是什么推動(dòng)了這種收斂?這種趨勢(shì)會(huì)持續(xù)下去嗎?它的最終歸宿在哪里?

經(jīng)過一系列分析和實(shí)驗(yàn),研究人員推測(cè)這種收斂確實(shí)有一個(gè)終點(diǎn),并且有一個(gè)驅(qū)動(dòng)原則:不同模型都在努力達(dá)到對(duì)現(xiàn)實(shí)的準(zhǔn)確表征。

一張圖來解釋:

Ilya離職后第一個(gè)動(dòng)作:點(diǎn)贊了這篇論文,網(wǎng)友搶著傳看

其中圖像(X)和文本(Y)是共同底層現(xiàn)實(shí)(Z)的不同投影。研究人員推測(cè),表征學(xué)習(xí)算法將收斂到對(duì)Z的統(tǒng)一表征上,而模型規(guī)模的增加、數(shù)據(jù)和任務(wù)的多樣性是推動(dòng)這種收斂的關(guān)鍵因素。

只能說,不愧是Ilya感興趣的問題,太深?yuàn)W了,俺們也不太懂,下面請(qǐng)AI幫忙解讀了一下給大家分享~

Ilya離職后第一個(gè)動(dòng)作:點(diǎn)贊了這篇論文,網(wǎng)友搶著傳看表征收斂的證據(jù)

首先,作者分析了大量先前的相關(guān)研究,同時(shí)也自己上手做了實(shí)驗(yàn),拿出了一系列表征收斂的證據(jù),展示了不同模型的收斂、規(guī)模與性能、跨模態(tài)的收斂。

Ps:這項(xiàng)研究重點(diǎn)關(guān)注向量嵌入表征,即數(shù)據(jù)被轉(zhuǎn)化成向量形式,通過核函數(shù)描述數(shù)據(jù)點(diǎn)之間的相似性或距離。文中“表征對(duì)齊”概念,即如果兩種不同的表征方法揭示了類似的數(shù)據(jù)結(jié)構(gòu),那么這兩種表征被視為是對(duì)齊的。

1、不同模型的收斂,不同架構(gòu)和目標(biāo)的模型在底層表示上趨于一致。

目前基于預(yù)訓(xùn)練基礎(chǔ)模型構(gòu)建的系統(tǒng)數(shù)量逐漸增加,一些模型正成為多任務(wù)的標(biāo)準(zhǔn)核心架構(gòu)。這種在多種應(yīng)用上的廣泛適用性體現(xiàn)了它們?cè)跀?shù)據(jù)表征方式上具有一定通用性。

雖然這種趨勢(shì)表明AI系統(tǒng)正朝著一組較小的基礎(chǔ)模型集合收斂,但并不能證明不同的基礎(chǔ)模型會(huì)形成相同的表征。

不過,最近一些與模型拼接(model stitching)相關(guān)的研究發(fā)現(xiàn),即使在不同數(shù)據(jù)集上訓(xùn)練,圖像分類模型的中間層表征也可以很好地對(duì)齊。

比如有研究發(fā)現(xiàn),在ImageNet和Places365數(shù)據(jù)集上訓(xùn)練的卷積網(wǎng)絡(luò)的早期層可以互換,表明它們學(xué)習(xí)到了相似的初始視覺表征。還有研究發(fā)現(xiàn)了大量“羅塞塔神經(jīng)元”(Rosetta Neurons),即在不同視覺模型中被激活的模式高度相似的神經(jīng)元……

2、模型規(guī)模和性能越大,表征對(duì)齊程度越高。

研究人員在Places-365數(shù)據(jù)集上使用相互最近鄰方法衡量了78個(gè)模型的對(duì)齊情況,并評(píng)估了它們?cè)谝曈X任務(wù)適應(yīng)基準(zhǔn)VTAB的下游任務(wù)表現(xiàn)。

Ilya離職后第一個(gè)動(dòng)作:點(diǎn)贊了這篇論文,網(wǎng)友搶著傳看

結(jié)果發(fā)現(xiàn),泛化能力更強(qiáng)的模型集群之間的表征對(duì)齊度明顯更高。

之前還有研究觀察到,較大模型之間的CKA內(nèi)核對(duì)齊度更高。在理論上也有研究證明了輸出性能相似的模型內(nèi)部激活也必然相似。

3、不同模態(tài)的模型表征收斂。

研究人員在維基百科圖像數(shù)據(jù)集WIT上使用相互最近鄰方法來測(cè)量對(duì)齊度。

結(jié)果揭示了語言-視覺對(duì)齊度與語言建模分?jǐn)?shù)之間存在線性關(guān)系,一般趨勢(shì)是能力更強(qiáng)的語言模型與能力更強(qiáng)的視覺模型對(duì)齊得更好。

Ilya離職后第一個(gè)動(dòng)作:點(diǎn)贊了這篇論文,網(wǎng)友搶著傳看

4、模型與大腦表征也顯示出一定程度的一致性,可能由于面臨相似的數(shù)據(jù)和任務(wù)約束。

2014年就有研究發(fā)現(xiàn),神經(jīng)網(wǎng)絡(luò)的中間層激活與大腦視覺區(qū)的激活模式高度相關(guān),可能是由于面臨相似的視覺任務(wù)和數(shù)據(jù)約束。

此后有研究進(jìn)一步發(fā)現(xiàn),使用不同訓(xùn)練數(shù)據(jù)會(huì)影響大腦和模型表征的對(duì)齊程度。心理學(xué)研究也發(fā)現(xiàn)人類感知視覺相似性的方式與神經(jīng)網(wǎng)絡(luò)模型高度一致。

5、模型表征的對(duì)齊程度與下游任務(wù)的性能呈正相關(guān)。

研究人員使用了兩個(gè)下游任務(wù)來評(píng)估模型的性能:Hellaswag(常識(shí)推理)和GSM8K(數(shù)學(xué))。并使用DINOv2模型作為參考,來衡量其他語言模型與視覺模型的對(duì)齊程度。

實(shí)驗(yàn)結(jié)果顯示,與視覺模型對(duì)齊程度更高的語言模型在Hellaswag和GSM8K任務(wù)上的性能也更好??梢暬Y(jié)果顯示,對(duì)齊程度與下游任務(wù)性能之間存在明顯的正相關(guān)。

Ilya離職后第一個(gè)動(dòng)作:點(diǎn)贊了這篇論文,網(wǎng)友搶著傳看

之前的研究這里就不展開說了,感興趣的家人們可查看原論文。

收斂的原因

接著,研究團(tuán)隊(duì)通過理論分析和實(shí)驗(yàn)觀察,提出了表征收斂的潛在原因,并討論了這些因素如何共同作用,導(dǎo)致不同模型在表示現(xiàn)實(shí)世界時(shí)趨于一致。

機(jī)器學(xué)習(xí)領(lǐng)域,模型的訓(xùn)練目標(biāo)需減少在訓(xùn)練數(shù)據(jù)上的預(yù)測(cè)誤差。為了防止模型過擬合,通常會(huì)在訓(xùn)練過程中加入正則化項(xiàng)。正則化可以是隱式,也可以是顯式。

研究人員在這部分闡述了這個(gè)優(yōu)化過程中,下圖每個(gè)彩色部分如何可能在促進(jìn)表征收斂中發(fā)揮作用。

Ilya離職后第一個(gè)動(dòng)作:點(diǎn)贊了這篇論文,網(wǎng)友搶著傳看

1、任務(wù)通用性導(dǎo)致收斂(Convergence via Task Generality)

隨著模型被訓(xùn)練來解決更多任務(wù),它們需要找到能夠滿足所有任務(wù)需求的表征:

能夠勝任N個(gè)任務(wù)的表征數(shù)量少于能夠勝任M個(gè)(M < N)任務(wù)的表征數(shù)量。因此,當(dāng)訓(xùn)練能同時(shí)解決多個(gè)任務(wù)的更通用模型時(shí),可行的解決方案將會(huì)減少。

Ilya離職后第一個(gè)動(dòng)作:點(diǎn)贊了這篇論文,網(wǎng)友搶著傳看

此前也有過過類似的原理被提出,圖解是這樣?jì)饍旱模?/p>

Ilya離職后第一個(gè)動(dòng)作:點(diǎn)贊了這篇論文,網(wǎng)友搶著傳看

而且,容易的任務(wù)有多種解決方案,而困難的任務(wù)解決方案較少。因此,隨著任務(wù)難度的增加,模型的表征趨于收斂到更優(yōu)的、數(shù)量更少的解決方案上。

2、模型容量導(dǎo)致收斂(Convergence via Model Capacity)

研究人員指出了容量假設(shè),如果存在一個(gè)全局最優(yōu)的表征,那么在數(shù)據(jù)足夠的條件下,更大的模型更有可能逼近這個(gè)最優(yōu)解。

因此,使用相同訓(xùn)練目標(biāo)的較大模型,無論其架構(gòu)如何,都會(huì)趨向于這一最優(yōu)解的收斂。當(dāng)不同的訓(xùn)練目標(biāo)有相似的最小值時(shí),較大的模型更能有效地找到這些最小值,并在各訓(xùn)練任務(wù)中趨于相似的解決方案。

Ilya離職后第一個(gè)動(dòng)作:點(diǎn)贊了這篇論文,網(wǎng)友搶著傳看

圖解是這樣?jì)饍旱模?/p>

Ilya離職后第一個(gè)動(dòng)作:點(diǎn)贊了這篇論文,網(wǎng)友搶著傳看

3、簡(jiǎn)單性偏差導(dǎo)致收斂(Convergence via Simplicity Bias)

關(guān)于收斂的原因,研究人員還提出了一種假設(shè)。深度網(wǎng)絡(luò)傾向于尋找數(shù)據(jù)的簡(jiǎn)單擬合,這種內(nèi)在的簡(jiǎn)單性偏差使得大模型在表示上趨于簡(jiǎn)化,從而導(dǎo)致收斂。

Ilya離職后第一個(gè)動(dòng)作:點(diǎn)贊了這篇論文,網(wǎng)友搶著傳看

也就是說,較大的模型擁有更廣泛的覆蓋范圍,能夠以所有可能的方式擬合相同的數(shù)據(jù)。然而,深度網(wǎng)絡(luò)的隱性簡(jiǎn)單性偏好鼓勵(lì)較大的模型找到這些解決方案中最簡(jiǎn)單的一個(gè)。

Ilya離職后第一個(gè)動(dòng)作:點(diǎn)贊了這篇論文,網(wǎng)友搶著傳看收斂的終點(diǎn)

經(jīng)過一系列分析與實(shí)驗(yàn),如開頭所述,研究人員提出了柏拉圖表示假說,推測(cè)了這種收斂的終點(diǎn)。

即不同的AI模型,盡管在不同的數(shù)據(jù)和目標(biāo)上訓(xùn)練,它們的表示空間正在收斂于一個(gè)共同的統(tǒng)計(jì)模型,這個(gè)模型代表了生成我們觀察到的數(shù)據(jù)的現(xiàn)實(shí)世界。

Ilya離職后第一個(gè)動(dòng)作:點(diǎn)贊了這篇論文,網(wǎng)友搶著傳看

他們首先構(gòu)建了一個(gè)理想化的離散事件世界模型。該世界包含一系列離散事件Z,每個(gè)事件都是從某未知分布P(Z)中采樣得到的。每個(gè)事件可以通過觀測(cè)函數(shù)obs以不同方式被觀測(cè),如像素、聲音、文字等。

接下來,作者考慮了一類對(duì)比學(xué)習(xí)算法,這類算法試圖學(xué)習(xí)一個(gè)表征fX,使得fX(xa)和fX(xb)的內(nèi)積近似于xa和xb作為正樣本對(duì)(來自臨近觀測(cè))的對(duì)數(shù)odds與作為負(fù)樣本對(duì)(隨機(jī)采樣)的對(duì)數(shù)odds之比。

Ilya離職后第一個(gè)動(dòng)作:點(diǎn)贊了這篇論文,網(wǎng)友搶著傳看

經(jīng)過數(shù)學(xué)推導(dǎo),作者發(fā)現(xiàn)如果數(shù)據(jù)足夠平滑,這類算法將收斂到一個(gè)核函數(shù)是xa和xb的點(diǎn)互信息(PMI)核的表征fX。

Ilya離職后第一個(gè)動(dòng)作:點(diǎn)贊了這篇論文,網(wǎng)友搶著傳看

由于研究考慮的是一個(gè)理想化的離散世界,觀測(cè)函數(shù)obs是雙射的,因此xa和xb的PMI核等于相應(yīng)事件za和zb的PMI核。

Ilya離職后第一個(gè)動(dòng)作:點(diǎn)贊了這篇論文,網(wǎng)友搶著傳看

這就意味著,無論是從視覺數(shù)據(jù)X還是語言數(shù)據(jù)Y中學(xué)習(xí)表征,最終都會(huì)收斂到表示P(Z)的相同核函數(shù),即事件對(duì)之間的PMI核。

Ilya離職后第一個(gè)動(dòng)作:點(diǎn)贊了這篇論文,網(wǎng)友搶著傳看

研究人員通過一個(gè)關(guān)于顏色的實(shí)證研究來驗(yàn)證這一理論。無論是從圖像的像素共現(xiàn)統(tǒng)計(jì)中還是從文本的詞語共現(xiàn)統(tǒng)計(jì)中學(xué)習(xí)顏色表征,得到的顏色距離都與人類感知相似,并且隨著模型規(guī)模增大,這種相似性也越來越高。

Ilya離職后第一個(gè)動(dòng)作:點(diǎn)贊了這篇論文,網(wǎng)友搶著傳看

這符合了理論分析,即更大的模型能力可以更準(zhǔn)確地建模觀測(cè)數(shù)據(jù)的統(tǒng)計(jì)量,進(jìn)而得到更接近理想事件表征的PMI核。

最后的一些思考

論文最后,作者總結(jié)了表征收斂對(duì)AI領(lǐng)域和未來研究方向的潛在影響,以及柏拉圖式表征假設(shè)的潛在限制和例外情況。

他們指出,隨著模型規(guī)模的增加,表示的收斂可能會(huì)帶來的影響包括但不限于:

雖然簡(jiǎn)單擴(kuò)大規(guī)模可以提高性能,但不同方法在擴(kuò)展效率上存在差異。如果存在模態(tài)無關(guān)的柏拉圖式表征,那么不同模態(tài)的數(shù)據(jù)應(yīng)當(dāng)被聯(lián)合訓(xùn)練以找到這種共享表征。這解釋了為什么將視覺數(shù)據(jù)加入語言模型訓(xùn)練是有益的,反之亦然。對(duì)齊的表征之間的轉(zhuǎn)換應(yīng)相對(duì)簡(jiǎn)單,這可能解釋了:有條件生成比無條件生成更容易、無配對(duì)數(shù)據(jù)也可實(shí)現(xiàn)跨模態(tài)轉(zhuǎn)換。模型規(guī)模擴(kuò)大可能會(huì)減少語言模型的虛構(gòu)內(nèi)容傾向和某些偏差,使其更準(zhǔn)確反映訓(xùn)練數(shù)據(jù)中的偏差,而非加劇偏差。

作者強(qiáng)調(diào),上述影響的前提是,未來模型的訓(xùn)練數(shù)據(jù)要足夠多樣和無損,才能真正收斂到反映實(shí)際世界統(tǒng)計(jì)規(guī)律的表征。

同時(shí),作者也表示,不同模態(tài)的數(shù)據(jù)可能包含獨(dú)特的信息,可能導(dǎo)致即使在模型規(guī)模增加的情況下,也難以實(shí)現(xiàn)完全的表示收斂。此外,目前并非所有表征都在收斂,例如機(jī)器人領(lǐng)域還沒有標(biāo)準(zhǔn)化的狀態(tài)表征方式。研究者和社區(qū)的偏好可能導(dǎo)致模型向人類表征方式收斂,從而忽略了其他可能的智能形式。

而且專門設(shè)計(jì)用于特定任務(wù)的智能系統(tǒng),可能不會(huì)與通用智能收斂到相同的表征。

作者還強(qiáng)調(diào)了測(cè)量表示對(duì)齊的方法存在爭(zhēng)議,不同的度量方法可能會(huì)導(dǎo)致不同的結(jié)論。即使不同模型的表征相似,但還有差距有待解釋,目前無法確定這種差距是否重要。

更多細(xì)節(jié)及論證方法,給大噶把論文放這兒了~

Ilya離職后第一個(gè)動(dòng)作:點(diǎn)贊了這篇論文,網(wǎng)友搶著傳看


相關(guān)推薦
免責(zé)聲明
本文所包含的觀點(diǎn)僅代表作者個(gè)人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對(duì)本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險(xiǎn),讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前,請(qǐng)務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對(duì)因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。

熱門文章