在线播放午夜理论片,最新国产精品视频,国产精品欧美激情

首頁 > AI資訊 > 最新資訊 > Hinton揭秘Ilya成長歷程：ScalingLaw是他學生時代就有的直覺

Hinton揭秘Ilya成長歷程：ScalingLaw是他學生時代就有的直覺

新火種 2024-05-27

2003年夏天的一個周日，AI教父Hinton在多倫多大學的辦公室里敲代碼，突然響起略顯莽撞的敲門聲。

門外站著一位年輕的學生，說自己整個夏天都在打工炸薯條，但更希望能加入Hinton的實驗室工作。

Hinton問，你咋不預約呢？預約了我們才能好好談談。

學生反問，要不就現在吧？

這位年輕學生就是Ilya Sutskever，剛剛完成本科二年級的數學課程，從教務處打聽到“想學機器學習，最好去找Hinton教授”。

他照做了，也因此成就了一段傳奇：

從AlexNet到AlphaGo，他兩次參與改變世界的研究。

OpenAI創立之初挖他去當首席科學家，在他的領導下，推出了GPT系列早期版本、DALL·E系列、代碼大模型Codex，直到ChatGPT，再次改變世界。

多年后，他發動董事會內訌，最終與OpenAI徹底分道揚鑣，全世界都在等待著他的下一個動作。

在OpenAI的時候，Ilya并不像Altman那樣到處拋頭露面，也不像Brockman天天在網上分享自己的“編程之禪”。

僅有的幾次演講和訪談中也多是聊技術、宏觀思考，不常談及自己的經歷，最近半年更是銷聲匿跡。

這次的故事，正是來自他的博士導師Geoffrey Hinton。

在與Sana Labs創始人的最新對話節目中，Hinton不僅講了自己的事，還回憶了師徒共事期間的一些往事。

20多年過去了，很多細節在Hinton的敘述里還是那么鮮活。

這段訪談錄像理所當然的火了，除了軼事之外，還涉及Ilya的一些學術思想怎么來的，又是如何發展：

2010年Ilya就用GPU開發了一種語言模型Scaling Law最早是他的一種直覺兩人都認為”語言模型不只是預測下一個token“兩人都認同“預測即壓縮壓縮即智能” Hinton揭秘Ilya成長歷程：Scaling Law是他學生時代就有的直覺

那么，Hinton眼中的Ilya，到底是什么樣子？

驚人的原始直覺

Ilya加入實驗室后，Hinton給他布置的第一個任務是讀論文，一篇關于反向傳播的論文。

下一個周會，Ilya回來報告了，說“我不理解”。

Hinton很失望，內心OS：“這孩子看著挺機靈的，咋連鏈式法則求導這么基礎的東西都看不懂？”

Ilya連忙解釋，哦這個部分我懂了，我不理解的是，為什么不給梯度加一個sensible functional optimizer？

Hinto團隊后來花了好幾年來解決這個問題，最初指出問題的卻是剛入門一周的Ilya。

像這樣的情況后面還在反復發生……Hinton如此評價Ilya：

但Hinton也說搞不清楚Ilya這種直覺從何而來，或許歸功于他從小就對人工智能問題感興趣，再加上數學基礎很棒。

除了研究直覺，學生時期的Ilya也展現了超強的代碼和工程能力。

當時還沒有TenserFlow或Torch之類流行框架，機器學習的主要工具和平臺是Matlab。

一項工作需要在Matlab里調整大量矩陣乘法代碼，Ilya做了一段時間就很不耐煩，說要為Matlab寫一個界面：

Hinton聽說后苦口婆心勸他，你可別，這得花上一個月時間，我們不要分心，把手頭項目先做完。

Ilya卻輕描淡寫地說，害，沒事，今天早上我已經寫完了。

△這項工作出現在Ilya的博士畢業論文里

打小就堅信Scaling Law

正如Hinton所言，Ilya在很多問題上有驚人的直覺。

今天全AI圈不少人信奉的Scaling Law，Ilya學生時代就已堅信，并抓住各種機會向身邊的人安利：

后來到OpenAI成立之初，Ilya的表述更加完善了：

早年間Hinton看來，這就像是研究者在沒有創新的想法時，一種“逃避責任”的表現。

Hinton提到在當年那個時間節點，沒人敢預料計算機速度今后會快上10億倍，最多想象到快100倍就不得了。

（此處應插入比爾蓋茨曾預言64k內存就足夠任何人用了笑話)

Ilya在2003年加入Hinton的實驗室，不知具體何時開始有了Scaling Law的想法，可能在他腦海里已經盤旋了20多年。

后來直到2020年，GPT-3發布的幾個月前，OpenAI團隊才正式在論文中向世人完整定義和介紹這一理念。

在語言模型上用GPU，比AlexNet更早

2010年底，Ilya和另一個學生James Martens（現DeepMind研究科學家）合作研究了一種語言模型，后來入選ICML 2011。

RNN架構，使用維基百科數據，在8張當時最先進的GPU上訓練，比在AlexNet上使用GPU還早兩年。

與今天的大語言模型預測下一個token不一樣，當時他們嘗試的是一次預測一個字符。

這款模型能力有限，比如給一段起始文字，模型可以繼續生成看起來像維基百科文章的語句。

雖然語意上像是胡言亂語，但語法和標點符號大部分是準確的，引號和括號已經能成對出現，主語和動詞形態一致，比如論文中的一段：

當時多倫多大學校刊的采訪中，Ilya認為這已經超出了所有人的預期：

Hinton理智上也無法去相信這個系統能“理解”任何事，但它看起來就像是理解了。

比如給它一個地點組成的列表，它可以繼續生成地點，盡管還分不出國家和州的區別。

當年的Ilya并不愿意討論這項工作的潛在應用。

在維基百科上成功后，團隊又嘗試了紐約時報文章數據，目標是教會它根據文字識別不同作者的身份。

但Ilya已經想到并承認，如果做的足夠好，這項技術有一天可能成為洗稿軟件的基礎。

如今，這篇論文的代碼依然存放在多倫多大學的服務器上，供感興趣的人研究。

不止是預測下一個token

后來的AlexNet、師徒三人“拍賣”自己加入谷歌等大家已熟知的故事，這里先略過。

Ilya加入OpenAI后，雖然不再與Hinton共事，但兩人的學術思想始終在一條路上。

ChatGPT問世后，不少人批評大模型本質上只是統計學，預測下一個token，就像隨機模仿人類說話的鸚鵡。

但Hinton和Ilya師徒二人都認為，遠不止如此。

在Hinton眼中，問題之后的下一個token，便是答案的第一個token。

因此學會預測，就意味著必須學會理解問題。

這種理解的方式與人類相似，同時與老式基于三元組數據的自動補全有根本不同。

Ilya更是不遺余力傳播這套理論，在去年和英偉達老黃的爐邊對話中說了這個，在OpenAI內訌兩周前最后一個公開采訪中也講了這個：

在另一場采訪中，他走的更遠：

這就是Ilya認為的，為什么“預測下一個token”范式有可能抵達AGI，甚至有可能超越人類直至ASI。

預測即壓縮，壓縮即智能

在不同場合提到“預測下一個Token”時，Ilya大概率會同時提到“壓縮”，他認為預測即是壓縮，壓縮就是智能的來源。

但Ilya總是從理論的角度去解釋這個想法，并不容易讓所有人都能理解。

比如在UC Berkley的一場演講中，他這樣解釋：

– “Kolmogorov壓縮器”，是理論上能生成特定數據集的、長度最短的一段程序，能最小化遺憾值。

– 隨機梯度下降，可以看成在軟計算機（比如大型Transformer）的權重里，搜索隱含的“Kolmogorov壓縮器”。

– 神經網絡越大，就越能更好的近似“Kolmogorov壓縮器”，遺憾值越低。

Hinton也認同這個說法，并且在訪談中舉了非常形象的例子。

如果你問GPT-4堆肥和原子彈相似性在哪，大多數人類都回答不出來，認為它們是非常不同的兩種東西。

GPT-4會告訴你，雖然他們的能量規模不同，時間尺度不同，但仍有相同之處：

當堆肥變熱時，產生熱量的速度就更快。當原子彈產生更多中子時，產生中子的速度也更快。

通過類比，AI就理解了“鏈式反應”的概念。

Hinton認為，AI在利用這種理解去將所有信息壓縮到自己的權重中。

Hinton眼中什么是好學生？

說回到兩人相遇時，Hinton談到，與他交談沒多久就能看出他很聰明。

再多交談一會，就能發現他有很好的直覺，而且擅長數學。

所以選Ilya做學生是非常容易做出的決定。

那么如何挑選其他學生？Hinton也用了Ilya最擅長的方法：跟著直覺走。

如果試圖吸收被告知的一切，最終會得到一個非常模糊的框架。相信一切，但是沒有用處。

所以Hinton眼中的好學生，應該擁有一個堅定的世界觀，并試圖擺弄輸入的事實以適應你的觀點。

后來我們也能看到，兩人都是秉持這樣的理念，堅持著“大模型不止是預測下一個token”，堅持著“預測即壓縮，壓縮即智能”。

他們也都堅持認為，這個世界應該更加重視AI帶來的風險，一個因此離開了工作10年的谷歌，一個因此離開了一手拉扯大的OpenAI。

— 完 —

Tags:

直覺時代

圖靈獎遺忘的AI之父，GAI時代再發聲：Jurgen重談AI“創業”史

2024-09-07

2024外灘大會開幕：互聯網教父凱文·凱利發布AI時代三大預測

2024-09-05

AI時代QLC怎么玩？PCIe6.0SSD啥時候來？聽聽慧榮怎么說

2024-09-04

寧德時代孟祥峰：未來大模型的計算能力很重要，寧德時代正在建造超算中心

2024-09-01

寧德時代孟祥峰：未來大模型的計算能力很重要寧德時代正在建造超算中心