現在的大模型現狀,就是豪賭
本文來自微信公眾號:共識粉碎機 (ID:botaijin),作者:波太金
昨天下午我們做了我們這個月的大模型進度更新路演,用一個詞來總結現在的大模型現狀,就是豪賭,如果最后證明能走通,那么想象空間會是巨大的。
如果說2023年大模型開始講Scaling Law的故事,那么2024年是Scaling Law開始有挑戰了。
到了2025年開始,過去的Pretraining Scaling Law想繼續往下走非常有挑戰,甚至優先級也已經放低,要尋求一條新的路徑。這條新的路徑不一定能走通,它的想象空間巨大,但是有很強的不確定性。因為Self-play這樣的前沿研究,將會耗費巨大的資源和時間,但在今天這個時點來看,仍然是個概率事件。
換言之,我們現在在大模型的豪賭階段,站在十字路口,有著巨大的不確定性。
在去年我們路演草莓和強化學習,以及之后O系列剛推出的時候,我們假設仍然有一條清晰的Scaling Law。這條路徑來自于合成數據,合成數據泛化后反哺Pre-train,再到更強、更大參數的通用模型。
但在現在這個時間點上,數據已經成為明確的瓶頸,合成數據短期內也無法提升知識的廣度。泛化、反哺都沒看到明顯的突破,反哺Pre-train的路徑階段性停滯了。
現在有可能成功的Scaling Law是在O系列模型中,在Post-train階段,通過RL讓模型學會自主和Adaptive的COT。
要走通這條路徑,需要實現Self-play的RL。自我博弈,自我提升。算力越大,博弈次數越多,模型能力就能取得漸進提升。也就是用算力換數據。
如果用AlphaGo和AlphaZero對比,AlphaGo是與人對齊,AlphaZero就是與自己對齊,實現的是自博弈。AlphaZero完全沒有學習人類的棋譜,就是靠兩個下棋的模型和一個評判模型,互相博弈,互相提升,最后到遠遠超過人類天花板。
所以如果要突破數據生成速度帶來的邊際瓶頸,我們需要的是一套超越RLHF的模型,真正實現Policy和Reward Model互相博弈,無限算力換無限數據,最終超越人類水準。
但在現在,我們還沒有真正驗證超大規模的Self-play RL的實際效果,尤其是對于下游應用的帶動作用。以及我們大概率也還沒找到Post-train RL泛化的路徑。Pre-train有非常多各類的數據,可以實現泛化。Post-train RL的數據非常集中,在編程和解題外,是否能泛化到其他領域,仍然沒有找到答案。
目前來看最大的瓶頸在算力。
現在需要足夠多的算力,來做足夠多的實驗,從而證明亦或是證偽O系列的Scaling Law,驅動O系列達到“GPT3 Moment”。
所以未來一段時間,頭部大模型公司的主要期待,就是等GB和NVL72的大集群,然后有指數級別算力提升,去嘗試Self-play RL,嘗試更多的路徑,嘗試泛化。
如果成立,那這條Scaling Law跑通,我們進入Next period,未來的想象空間可以無限放大。
如果失敗,那么這輪AGI的進程就可能遇到一次非常非常大的挑戰,甚至這輪AGI也就這樣了。
所以回到為什么是一場豪賭。
因為在現在這個階段是沒有答案的。我們耗費巨大的算力,有可能對,也有可能錯。
但是沒有這輪的算力,我們可能連對錯都不知道。
這是一次沒有明確ROI的豪賭。前沿研究,就是你投了很多錢,希望能有產出。我們都與人類統一戰線保持樂觀,但最后可能還是有風險做不下去。
就不難明白,為什么會有現在的Stargate項目,以及這個項目的資金方為什么會是現在這些公司。這比大模型發展至今的任何時刻,都更加像阿波羅計劃。當阿波羅計劃剛開始的時候,沒有人知道到底能不能把人送上月球。
我們相信,機會總是在豪賭中產生。
我們在這次路演中,還討論了O1到O3的變化,集群變化,CUDA變化,Research的習慣變化,ASIC的適應情況,推理的變化,以及算力消耗的影響。
本文來自微信公眾號:共識粉碎機 (ID:botaijin),作者:波太
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。