首頁 > AI資訊 > 最新資訊 > 強化學習之父入局AGI創業!聯手傳奇程序員卡馬克,不依賴大模型

強化學習之父入局AGI創業!聯手傳奇程序員卡馬克,不依賴大模型

新火種    2023-10-09
夢晨 發自 凹非寺量子位 | 公眾號 QbitAI傳奇程序員卡馬克(John Carmack),與強化學習之父薩頓(Richard Sutton)強強聯手了,All in AGI。2030年向公眾展示通用人工智能的目標是可行的。并且與主流方法不同,不依賴大模型范式,更追求實時的在線學習。兩人在薩頓任教的阿爾伯塔大學機器智能研究所(Amii)特別活動上宣布了這一消息。薩頓會加入卡馬克的AI創業公司Keen Technologies,同時保持在阿爾伯塔的教職。兩人在活動中都承認,與擁有成百上千員工的大公司相比,Keen Technologies的團隊規模很小。目前還在剛起步階段,公司整個技術團隊都到了現場——只有站著的這4個人。其融資規模2000萬美元,與OpenAI、Anthropic這樣動輒幾十億的也沒法比。但他們相信,最終AGI的源代碼是一個人就能編寫的量級,可能只有幾萬行。而且當前AI領域正處在杠桿效應最大的特殊時刻,小團隊也有機會做出大貢獻。傳奇程序員與強化學習之父卡馬克的傳奇經歷,從開發世界第一款3D游戲,到轉型造火箭,再到加入Oculus成為后來Meta VR關鍵人物的故事都已被人熟知。后來他與AI結緣,還和OpenAI有關。他曾在另一場訪談中透露,Sam Altman曾邀他加入OpenAI,認為他能在系統優化方面發揮重要作用。但卡馬克當時認為自己對機器學習范式的現代AI沒有任何了解,也就沒有答應。這卻成了他開始了解AI的一個契機。他向OpenAI的首席科學家Ilya Sutskever要了一個入門必讀清單,從頭開始自學,先對傳統機器學習算法有了基本的了解。等有了空閑,打算繼續涉足深度學習的時候,他來了個一周編程挑戰:打印幾篇LeCun的經典論文,在斷網情況下動手實踐,從推反向傳播公式開始。一周過去后,他帶著用C++手搓的卷積神經網絡結束閉關,沒有借助Python上的現代深度學習框架。只能說佩服大神了。此時他的主業還是在Facebook(后改名Meta)旗下Oculus研究VR,帶領團隊推出了Ouclus Go和Quest等產品。不過這個過程中,他與公司管理層之間也逐漸產生矛盾和分歧,認為公司內部效率低下,也曾公開發表不滿。2019年,他辭去Oculus CTO職位轉而擔任“顧問CTO”,開始把更多精力轉向AI。2022年8月,他宣布新AI創業公司Keen Technologies宣布融資2000萬美元,投資者包括紅杉資本,GitHub前CEO Nat Friedman等。后續他也透露,其實區區2000萬美元,自己就拿得出手。但是從別人那里拿錢能給他一種危機和緊迫感,有更強烈的決心把事情做好。2022年底,他正式離開Meta,并將VR視為已經過去的一個人生階段,接下來完全轉向AI。除了這條明面上的主線之外,卡馬克與AI還有一些莫名的緣分。當年他的3D游戲激發了對圖形計算的需求,GPU也是從游戲領域開始發展壯大。到如今正是GPU的算力支持了AI的爆發,他談到這些時仍為自己的貢獻感到自豪。……今天的另一位主角薩頓也同樣是位傳奇人物。他被譽為強化學習之父,為強化時間差異學習和策略梯度等方法做出重要貢獻,也是強化學習標準教科書的合著者。2017年他以杰出科學家身份加入DeepMind,參與了AlphaGo系列研究,他的學生David Silver則是AlphaGo主要負責人之一。薩頓寫過一篇著名短文The Bitter Lesson,認為試圖把人類經驗教給AI是行不通的,至今為止所有突破都是依靠算力提升,繼續利用算力的規模效應才是正確道路。兩人正式交流之前,卡馬克就曾表達過對這篇文章的關注和認同。但兩人真正直接交流,是薩頓主動聯系的。幾個月前,卡馬克宣布AGI創業公司融資之后,收到了薩頓的郵件。薩頓想要問他他在研究的道路上應該走純學術、商業化還是非盈利組織路線的問題。但在后續郵件交流中,兩人發現在AI研究方向和理念上存在驚人的一致性,漸漸確立了合作關系。具體來說,兩人達成了4個共識:都認為當前AGI發展被限制在很窄的幾個方向上,過多依賴大數據和大算力而忽視了創新都認為太早商業化會阻礙AGI的發展都認為最終AGI不會太復雜,一個人就能掌握全部原理,甚至一個人就能寫出主要的代碼。都認為2030年出現AGI原型是一個可行的目標。不只依賴大模型,小團隊也有機會很大膽的目標,現場觀眾也是這么認為的。面對“小團隊如何搞定這么宏大的目標”的提問,卡馬克認為實現AGI所需的數據量和算力需求可能沒有想象中那么大。把人類一整年眼中所見拍成每秒30幀的視頻,可以裝在拇指大小的U盤里。而1歲兒童只擁有這么多經驗數據,已經展現出明顯的智能。如果算法對了,就不需要用整個互聯網的數據讓AGI去學習。對于算力需求,他也是用這種直覺式的思維去考慮:人腦的計算能力也有限,遠遠達不到一個大型算力集群的程度。比一個服務器節點(node)要大,也比一個機柜(rack)要大,但最大也就再高出一個數量級。而且隨著時間推移,算法會更加高效,所需的算力還會持續下降。如果說卡馬克在3D游戲、火箭和VR,這些看似不搭邊的工作領域上有什么共同點,那就是對大型實時反饋系統的優化。這也是當初Sam Altman邀請他加入OpenAI時看中的地方。他設想中的AGI架構應該是模塊化和分布式的,而不是一個巨大的集中模型。學習也應該是持續的在線學習,而不是現在的預訓練之后大部分參數就不再更新。我的底線是,如果一個系統不能以30hz的頻率運行,也就是訓練時33毫秒左右更新一次,我就不會用它。他進一步表示,作為能自己寫原始Cuda代碼和能自己管理網絡通信的底層系統程序員,可能會去做一些其他人根本不會考慮的工作。甚至不僅局限于現有的深度學習框架,會嘗試更高效的網絡架構和計算方法。總體目標是模擬一個具有內在動機和持續學習能力的虛擬智能體,在虛擬環境中持續學習。不要機器人,因為制造火箭的經歷讓他認為打交道的物理對象越少越好。與卡馬克剛涉足AGI不久相比,薩頓在這個問題上已經花費了幾十年,他有更具體的研究計劃。雖然這次活動上沒有說太多,但主體部分已經以“阿爾伯塔計劃”的形式寫在一篇arXiv論文里。阿爾伯塔計劃提出了一個統一的智能體框架,強調普遍經驗而不是特殊的訓練集,關注時間一致性,優先考慮能隨算力產生規模效應的方法,以及多智能體交互。還提出了一個分為12步的路線圖。前6步專注于設計model-free的持續學習方法,后6步引入環境模型和規劃。其中最后一步稱為智能增強(Intelligence Amplification),一個智能體可以根據一些通用原則,利用它所學到的知識來放大和增強另一個智能體的行動、感知和認知。薩頓認為這種增強是充分發揮人工智能潛力的重要組成部分。在這個過程中,確定評估AI進步的指標非常重要但也十分困難,團隊正在探索不同的發展。另外,卡馬克一直是開源的倡導者,但在AGI的問題上他表示會保持一定開放性,但不會全部公開算法細節。作為一個小團隊,卡馬克認為需要保持開拓精神,關注長遠發展而不是短期利益,不會過早考慮商業化,沒有像ChatGPT這樣可以公開發布的中間形態。對于2030年能做到什么地步,卡馬克認為“有可以向公眾展示的AGI”,薩頓的表述是“AI原型可以顯示出生命跡象(signs of life)”。2030成關鍵節點2030與AGI,并不是第一次同時出現。頂尖AI團隊不約而同都把2030年前后作為實現AGI的關鍵節點。比如OpenAI,在拿出20%總算力成立超級智能對齊部門的公告里寫著,我們相信超級智能在這個十年段到來。甚至投資界也出現類似的觀點,孫正義剛剛在軟銀世界企業大會上也拿出來這樣一張PPT。除了OpenAI和Keen Technologies,致力于開發AGI的組織并不多。OpenAI最大的競爭對手,剛剛拿40億美元融資的Anthropic,其CEO Dario Amodei在最近一次訪談中提到,兩三年內AI能表現得像一個受過良好教育的人類。Transformer作者Vaswani與Palmer離開谷歌時,創辦了AdeptAI,目標也是打造通用智能。不過目前兩人今年初突然離開這家公司,聯合創始人中只留下一位David Luan(最右)。兩位Transformer作者另外創辦了一家Essential AI,這家公司的愿景就沒那么“仰望星空”了,是比較務實的大模型商業化。國內方面明確喊出AGI目標的同樣也不多,主要有MiniMax和楊植麟新創辦的月之暗面。參考鏈接:[1]https://www.amii.ca/latest-from-amii/john-carmack-and-rich-sutton-agi/[2]https://www.youtube.com/watch?v=uTMtGT1RjlY[3]https://arxiv.org/abs/2208.11173
相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章