首頁 > AI資訊 > 最新資訊 > 李沐重返母校,上交大秒變追星現場,大模型趨勢無保留分享

李沐重返母校,上交大秒變追星現場,大模型趨勢無保留分享

新火種    2024-08-25

什么是頂流?

AI大神李沐回母校做演講,直接讓上交大變成了大型追星現場——

現場可謂是人人從從眾眾,先來感受一下這個feel:

李沐重返母校,上交大秒變追星現場,大模型趨勢無保留分享

正式演講前的場外已經是排起了大長龍,現場更是座無虛席。

即便是演講結束,李沐老師也是被熱情的上交大學子圍得里三層外三層:

李沐重返母校,上交大秒變追星現場,大模型趨勢無保留分享

許多學生更是把經典的《動手學深度學習》這本書拿了過來讓李沐老師簽名:

李沐重返母校,上交大秒變追星現場,大模型趨勢無保留分享

如此場景,甚至上交大計算機科學與工程系教授俞勇都在朋友圈發出了這樣的感慨:

李沐重返母校,上交大秒變追星現場,大模型趨勢無保留分享

△圖源:俞勇教授朋友圈,已授權

對此,李沐老師也回應俞勇老師:

李沐重返母校,上交大秒變追星現場,大模型趨勢無保留分享

而李沐老師此次回母校的演講,歸結兩個關鍵詞,就是LLM趨勢和個人職業選擇。

李沐重返母校,上交大秒變追星現場,大模型趨勢無保留分享

△圖源:小紅書用戶“昭曦”

尤其是正值李沐老師創業一年半(BosonAI)之際,他在現場基于自己的經歷,總結了三個不同階段中“每天在想的基本目標”:

大公司:你要想如何升職加薪博士:你要想如何畢業創業:你要想如何“退出”(要么上市,要么賣掉)

李沐重返母校,上交大秒變追星現場,大模型趨勢無保留分享

△圖源:B站用戶“Kimoyee”

金句之多,內容之精彩,引得在場師生掌聲、笑聲,聲聲不斷。

那么李沐老師具體都講了什么?我們繼續往下看。

(PS:完整演講視頻見文末)

談LLM趨勢

首先對于LLM的整體構成,李沐認為主要分為三大方面,分別是數據、算力和算法。

李沐重返母校,上交大秒變追星現場,大模型趨勢無保留分享

而整個LLM的過程非常像煉丹,“數據”就是找材料的環節。

就好比小說里很多主角去深山里找材料一樣,搞數據是個很難的過程,是個體力活。

之后的“算力”就是煉“數據”,火量大一點、設備先進一點,能煉出來的東西就越好。

至于“算法”就相當于丹方,但這點與小說是不同的,因為它每年都在快速進步、變化,并且對細節的把控顯得格外重要。

對于LLM與上一次深度學習較大的區別,李沐認為:

接下來,李沐便針對上述的三大方面進行了詳細的講解。

李沐重返母校,上交大秒變追星現場,大模型趨勢無保留分享

在LLM硬件方面,李沐認為最難且最重要的是帶寬(bandwidth)。

這是因為現在大模型的訓練很難通過一個機器來搞定,而要做分布式,那么瓶頸就會出現在帶寬上了。

畢竟現在基本上都會是多個服務器機架甚至是集群,即便兩個機架間隔1米,但由此帶來的哪怕幾納秒的延遲也是不能忍的。

帶寬之后,LLM硬件難點便是內存(Memory)。

大模型在訓練過程中,是把超大的數據壓縮到了一起,使得模型的體量動輒便是幾百個G,運行時的中間變量也會變得很大,因此需要很大的內存:

在帶寬、內存之后,便來到了算力(Compute),對此,李沐認為:

李沐重返母校,上交大秒變追星現場,大模型趨勢無保留分享

而模型到了一定尺寸之后,資源(Resources)又成了問題,也就是供電。

李沐基于自身經驗分享到,發現自己造一個電廠,比付電費的成本要低。

至于價格,當算力翻倍的時候,價格目前不一定會保持不變,可能是1.4倍的價格;但當市場競爭足夠,長期來看可以做到價格不變。

至于芯片的替代品(Alternatives),李沐認為谷歌的TPU、英特爾的Habana、AMD和Azure的芯片在做推理時是OK的;但訓練方面,可能還需要幾年的時間。

李沐在此做了個小總結:

李沐重返母校,上交大秒變追星現場,大模型趨勢無保留分享

在模型方面,李沐從語言(Language)、語音(Voice)、音樂(Music)、圖像(Image)和視頻(Video)等不同模態方面做了介紹,并認為多模態是當下的一個趨勢。

李沐重返母校,上交大秒變追星現場,大模型趨勢無保留分享

李沐還給目前不同模態的現狀打了個分:

語言模型:80-85分左右,目前是gets good的狀態。音頻模型:70-80分左右,目前是good enough的狀態。視頻模型:目前還是比較弱的。

基于此,李沐給出了一個推論:

李沐重返母校,上交大秒變追星現場,大模型趨勢無保留分享

至于大模型的應用(Applicaitions),李沐認為它們本質應該是可以為用戶提供無限的人力資源。

李沐重返母校,上交大秒變追星現場,大模型趨勢無保留分享

而這些應用目前在白領和藍領職場上“上崗”或“協作”的效果如何,李沐做了個表格。

從結果上來看,只有白領、文科屬性的簡單工作是hold得住的。

李沐重返母校,上交大秒變追星現場,大模型趨勢無保留分享

對于應用的總結,李沐認為:

李沐重返母校,上交大秒變追星現場,大模型趨勢無保留分享

基于李沐創業一年半的經歷,他也分享了幾點技術上的思考。

首先,預訓練(pre-training)和后訓練(post-training)是同等重要的。

李沐重返母校,上交大秒變追星現場,大模型趨勢無保留分享

其次,沒有真正的垂直領域模型;再垂直的模型,它的通用能力也是差不了的。

李沐重返母校,上交大秒變追星現場,大模型趨勢無保留分享

以及,在大模型評測方面,李沐認為現在的評測太簡單了,即使各種刷榜,但用起來的時候就能感受到真實效果。

因此他認為評測這件事雖然很重要,但真正做起來卻很難。

李沐重返母校,上交大秒變追星現場,大模型趨勢無保留分享

除此之外,李沐還分享了幾個觀點:

數據定義了大模型的能力上限自建GPU不會比租GPU便宜太多大部分機器學習時代的經驗,依舊適用于大模型時代李沐重返母校,上交大秒變追星現場,大模型趨勢無保留分享

而除了技術之外,李沐在這次演講中也給上交大的師生們分享了自己在職場上的心得。

談個人“打卡式人生”

了解李沐的人或許對他的個人經歷比較熟知了。

本科和研究生就讀于上海交通大學,而后赴香港科技大學和CMU深造,在伯克利和斯坦福擔任助理教授。

也曾任職于百度和亞馬遜等科技大廠,最近的一年半則是創業BosonAI(第二次創業)。

李沐回顧自己的過往,在現場戲稱為“打卡式人生”——什么樣的地方都轉過了一遍了。

李沐重返母校,上交大秒變追星現場,大模型趨勢無保留分享

那么李沐在經歷了種種之后,是一種什么體驗?

這也正是我們文章開頭提到的“每天在想的基本目標”(精彩的內容必須再提一遍):

大公司:你要想如何升職加薪博士:你要想如何畢業創業:你要想如何“退出”(要么上市,要么賣掉)李沐重返母校,上交大秒變追星現場,大模型趨勢無保留分享

基于這三個大方面,李沐基于自己的經驗,將各自階段的優點和缺點羅列了出來。

例如對于“打工人”這個角色,李沐的PPT剛出來,上交大的學子們便笑了出來:

李沐重返母校,上交大秒變追星現場,大模型趨勢無保留分享

讀博士期間的優點和缺點是這樣的:

李沐重返母校,上交大秒變追星現場,大模型趨勢無保留分享

聊到創業的優點,李沐形象地將這個過程比喻為:

李沐重返母校,上交大秒變追星現場,大模型趨勢無保留分享

但李沐此次演講的兩個大part并非是割裂的,相反,是可以非常自然的做一個“有機結合”。

他認為應該從“動機”出發去解決一個問題:

有學術價值:那就去做對LLM的理解(PhD/教職)有商業價值:那就去做LLM上的新應用(創業)有成長價值:那就去做LMM上的產品落地(打工人)李沐重返母校,上交大秒變追星現場,大模型趨勢無保留分享

最后,李沐老師也給了上交大學生一點Tips:

李沐重返母校,上交大秒變追星現場,大模型趨勢無保留分享李沐重返母校,上交大秒變追星現場,大模型趨勢無保留分享

而談到創業歸來,就在前幾天,李沐在知乎寫的一篇文章《創業一年,人間三年》非常火爆。

李沐重返母校,上交大秒變追星現場,大模型趨勢無保留分享

不僅是李沐自述了創業一年來的進展,也在三言兩語之間,展現了大佬創業的勢能——

一開始沒打算直接做大模型,但張一鳴建議要創業就直接大模型;買卡需要排隊等不及只好給老黃寫信,沒想到老黃就給安排了;剛創業做游戲的“老蔡”就來交流過了——米哈游那個老蔡;在斯坦福和快手創始人宿華散步,感嘆創業心得……

總之,千字短文,但細節之精彩,故事之有趣,值得多讀幾遍:

《創業一年,人間三年》:https://mp.weixin.qq.com/s/0JSbU4hvr_zrWIjbPV7FXA

One More Thing

目前已經有B站網友Kimoyee將李沐老師此次的演講視頻上傳,感興趣的小伙伴們可以文末鏈接“深度學習”下哦~

李沐重返母校,上交大秒變追星現場,大模型趨勢無保留分享

參考鏈接:[1]https://www.xiaohongshu.com/explore/66c926d9000000001f01929c[2]https://www.xiaohongshu.com/explore/66c81dd5000000001f014761[3]https://www.bilibili.com/video/BV1vBWDepECq/?spm_id_from=333.337.search-card.all.click

Tags:
相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章