ScalingLaw要撞墻了嗎?如何找到基座大模型的未來方向?
"如果把參數(shù)規(guī)模擴(kuò)大x倍,模型能力就會(huì)得到y(tǒng)倍的提升" ——這條支撐著AI領(lǐng)域幾年狂飆突進(jìn)的Scaling Law,似乎正在走向盡頭。
從GPT-3到GPT-4,從BERT到PaLM,AI的進(jìn)化史幾乎就是一部算力競(jìng)賽史。但最近的發(fā)展卻給這個(gè)故事帶來了轉(zhuǎn)折:Claude 3在維持3.2B上下文的同時(shí)顯著壓縮了參數(shù)規(guī)模;Anthropic的研究人員公開表示"更大的模型未必更好";DeepMind在近期論文中更是直指Scaling Law在逼近人類認(rèn)知能力時(shí)可能存在根本性限制。當(dāng)千億參數(shù)、萬億tokens逐漸成為標(biāo)配,簡單的堆料堆算力似乎越來越難以帶來質(zhì)的飛躍。
這不禁讓人思考:
是我們對(duì)Scaling Law的理解還不夠深入?
還是這條路徑本身就存在天花板?
基座大模型的下一個(gè)突破點(diǎn)究竟在哪?
我們特別挑選了一批在知乎活躍的AI領(lǐng)域答主的精彩回答,他們中既有來自科技公司的一線從業(yè)者,也有對(duì)AI發(fā)展長期關(guān)注并深度研究的技術(shù)博主。相信這些觀點(diǎn)能為我們提供更多關(guān)于AI發(fā)展的思路與洞見。
本次討論作為知乎「互聯(lián)網(wǎng)破局者」系列活動(dòng)的特別策劃,以下為精選的答主回答,內(nèi)容基于答主公開發(fā)布的觀點(diǎn)進(jìn)行整理。更多精彩回答,點(diǎn)擊閱讀原文前往知乎查看硅星人的提問“Scaling Law要撞墻了嗎?如何找到基座大模型的未來方向?”
1
@傅聰Cong
作為一個(gè)AI從業(yè)者,個(gè)人觀點(diǎn)“Scaling Law撞墻”,完全不是媒體吹得那么聳人聽聞!它只是意味著——未來通用人工智能的發(fā)展路徑應(yīng)當(dāng)適時(shí)地轉(zhuǎn)向。
下面說說我的理由:“Scaling Law撞墻”的問題為什么引發(fā)了AI圈如此廣泛的焦慮?
其實(shí)人們擔(dān)心的問題,并不是一個(gè)實(shí)驗(yàn)觀察規(guī)律失效與否的小問題,而是其背后可能存在的大模型效果進(jìn)入瓶頸期的問題:如果大模型不能夠繼續(xù)”越大越好”了,那么OpenAI先前拋出的未來大模型智商超過人類頂級(jí)水準(zhǔn)的預(yù)言,可能無法實(shí)現(xiàn)。除了題主問題背景中的信息,更讓人擔(dān)心的消息是,號(hào)稱AI圈“卓偉”的光頭哥爆料:“獵戶座”——大眾認(rèn)知的GPT-5——內(nèi)測(cè)效果不能達(dá)到預(yù)期。類似的小道消息還包括Anthropic的Claude的新版本的效果也低于預(yù)期。就好比家里孩子初中升高中(GPT-3到GPT-3.5)、高中升大學(xué)(GPT-3.5到GPT-4)都很順利,結(jié)果研究生卻怎么都考不上了。
隨之而來的,不僅僅是對(duì)技術(shù)發(fā)展的擔(dān)憂,更嚴(yán)重的后果是投資的斷流。顯而易見的是,目前的LLM經(jīng)濟(jì)就是一個(gè)砸錢的生意,錢沒了就更不可能scaling下去了,所有的投資方都會(huì)給LLM相關(guān)的企業(yè)和從業(yè)者施加更大的壓力,并且更審慎地看待目前企業(yè)經(jīng)由LLM的盈利能力。說不好聽的,LLM行業(yè)可能會(huì)存在“大踩油門,大踩剎車”的泡沫危機(jī)!
說了這么多,咱也不能馬后炮地怪“Scaling Law”的提出者當(dāng)初咋不好好做實(shí)驗(yàn)。那么“Scaling Law”到底撞墻了嘛?
我們?cè)賮碇匦驴纯碨caling Law那張著名的圖:
注意,這里的縱坐標(biāo)是test loss。也就是說,所謂的scaling能力,是對(duì)準(zhǔn)“測(cè)試損失”這個(gè)指標(biāo)的,所以理性地講,沒有人承諾過,隨著投入的數(shù)據(jù)、算力、參數(shù)的增加,模型的”智商“會(huì)線性提升。
接下來,我們來糾正兩個(gè)閱讀這張圖的誤區(qū):
test loss和模型的能力目前來看并不存在一個(gè)線性相關(guān)的關(guān)系。恰恰相反,當(dāng)test loss低到一定程度,人對(duì)于模型輸出效果的好壞的感知能力會(huì)弱化。這件事情,我其實(shí)在我之前的一篇論文的討論里聊到過:
https://www.zhihu.com/question/599186065/answer/3019505570?utm_campAIgn=shareopn&utm_content=group3_myAnswer&utm_medium=social&utm_psn=1858611794765025280
縱軸的坐標(biāo)也是log scale的!這里畫重點(diǎn)!在雙log scale的坐標(biāo)刻度設(shè)置下,這篇論文的研究者畫出了很漂亮的一條接近直線的結(jié)果。也就是說,想要test loss線性下降,需要投入的算力、數(shù)據(jù)等資源成指數(shù)速度上升!
OK,問題的根源找到了。
那么尋找基座模型未來的短期內(nèi)的方向,我們可以從以下兩個(gè)方面入手:
首先!也是最重要的事情!就是回到原點(diǎn)!完善當(dāng)前或?qū)ふ腋玫脑u(píng)價(jià)體系。目前的評(píng)價(jià)體系,難以和人的認(rèn)知對(duì)齊,也難以全面地評(píng)價(jià)大模型的能力。不完備的評(píng)價(jià)體系,不利于模型的良性迭代。也不利于構(gòu)建良性的市場(chǎng)環(huán)境。就好比很多模型都號(hào)稱自己在一些benchmark的表現(xiàn)上超過GPT-4,但給用戶的體感,卻并非那樣。變相鼓勵(lì)、培養(yǎng)出了一群cherry pickers。
探索其它的scaling type。除了“trAIning phase scaling”,最近的研究和產(chǎn)品還展示出不同的scaling形態(tài)。例如multi-agent的scaling,不需要一個(gè)超級(jí)大模型,而是鼓勵(lì)更多不同的專家小模型進(jìn)行協(xié)作,強(qiáng)化“模塊化”優(yōu)勢(shì);以及“inference phase scaling”,給大模型更多的“思考”的時(shí)間以及更多的context信息,讓它“找到”正確的答案,這也更符合類人智能驅(qū)動(dòng)的設(shè)計(jì)方法論,畢竟我們?nèi)祟惤鉀Q復(fù)雜問題的時(shí)候主要通過“慢思考”系統(tǒng)來構(gòu)建動(dòng)態(tài)的解決路徑,同時(shí),也不需要把所有任務(wù)相關(guān)的信息都“預(yù)先”記憶到腦子里。就好比老板讓你做一個(gè)PPT,你是不需要先背下來PPT的逐字講稿,再進(jìn)行繪圖、設(shè)計(jì)的。
最后,雖然我必須承認(rèn)技術(shù)發(fā)展的“慣性”——所有人都基于當(dāng)前的transformer架構(gòu)進(jìn)行增量研究——存在一定的積極作用,但我個(gè)人期待的通用人工智能,尤其是基座模型,應(yīng)當(dāng)是低能耗,更接近生物能的。
當(dāng)前的這種范式,即便我們?cè)谇拔乃龅膬蓚€(gè)方面有所突破,也是不可持續(xù)的。
https://epoch.AI/blog/can-AI-scaling-continue-through-2030 這份調(diào)研報(bào)告指出,到2030年,按照Scaling Law去訓(xùn)練一個(gè)“GPT-6”所需的算力是充足的,但首先卡脖子的,很可能是電力資源。同時(shí),屆時(shí)訓(xùn)練一次GPT-6,需要上百億美金,換個(gè)計(jì)量單位,賣掉我司都不夠訓(xùn)練一次的,容錯(cuò)率是低的不能再低了......
希望到2030年,我們能找到更加可持續(xù)的通用人工智能的研發(fā)路徑,一個(gè)讓社會(huì)各界都能有參與度的方式,而不是現(xiàn)在這種資本通吃的局面。因?yàn)槲蚁嘈牛瑹o論是針對(duì)這種技術(shù)的研發(fā)還是監(jiān)督,都需要更廣范圍的合作。
1
@平凡
英偉達(dá)的黃仁勛在CES 2025上展示了一張PPT,標(biāo)題為「從一種到三種Scaling Laws」,其縱坐標(biāo)標(biāo)注為智能程度(Intelligence),強(qiáng)調(diào)了人工智能發(fā)展過程中三種關(guān)鍵的Scaling Laws:預(yù)訓(xùn)練(Pre-training)、后訓(xùn)練(Post-training)和測(cè)試時(shí)推理(Test-Time Scaling)。
具體來說:
Pre-training Scaling(預(yù)訓(xùn)練)
這是AI模型訓(xùn)練的初始階段,以GPT早期模型為代表。特點(diǎn)是依賴超大規(guī)模神經(jīng)網(wǎng)絡(luò)和海量互聯(lián)網(wǎng)數(shù)據(jù),利用無監(jiān)督學(xué)習(xí)方法,通過預(yù)測(cè)下一個(gè)字符或詞語進(jìn)行訓(xùn)練。
智能程度:此階段的訓(xùn)練目標(biāo)是構(gòu)建一個(gè)通用的語言模型,但輸出結(jié)果相對(duì)基礎(chǔ),缺乏復(fù)雜的語境理解和邏輯推理能力。
局限性:雖然訓(xùn)練數(shù)據(jù)量龐大,但缺乏針對(duì)性的優(yōu)化,模型表現(xiàn)的智能程度受到一定限制。
Post-training Scaling(后訓(xùn)練)
代表AI模型的進(jìn)化階段,以ChatGPT的原型為例。關(guān)鍵特性是通過人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)進(jìn)一步對(duì)預(yù)訓(xùn)練模型進(jìn)行優(yōu)化和調(diào)整,以提高模型的交互能力和人類對(duì)齊度。它的訓(xùn)練方式是模型根據(jù)人類提供的反饋評(píng)分,優(yōu)化其回答內(nèi)容和風(fēng)格,逐步具備更自然、更貼合人類表達(dá)習(xí)慣的語言能力。
智能程度:在這個(gè)階段,AI模型不僅能生成流暢的文本,還能展現(xiàn)一定程度的創(chuàng)造性和邏輯推理能力,其天花板就是GPT-4o。
局限性:適合需要復(fù)雜對(duì)話和任務(wù)管理的場(chǎng)景,如智能客服、寫作輔助和教育工具,但對(duì)于需要高強(qiáng)度推理以及復(fù)雜任務(wù)依舊不能勝任。
Test-Time Scaling(測(cè)試時(shí)推理)
代表AI智能發(fā)展的最新階段,以ChatGPT的o系列模型為例,專長于推理和復(fù)雜任務(wù)處理。它的工作原理基于后訓(xùn)練模型,通過進(jìn)一步細(xì)化任務(wù)執(zhí)行流程,將復(fù)雜任務(wù)分解為多個(gè)可驗(yàn)證的小步驟(微推理模塊),以提高成功率和準(zhǔn)確性。采用"用時(shí)間換空間"的策略,通過更高的計(jì)算資源和更長的推理時(shí)間換取任務(wù)完成率的顯著提升。
智能程度:特別適合數(shù)學(xué)、物理和化學(xué)等需要邏輯分析與多步驗(yàn)證的問題,表現(xiàn)出更強(qiáng)的推理和決策能力。
局限性:這種模式的資源和時(shí)間成本較高,適用于對(duì)精度要求極高的應(yīng)用場(chǎng)景。
可以看到,這三種scaling law帶來的智能程度提升是非常顯著的,可以側(cè)面證明,scaling law短時(shí)間內(nèi)不會(huì)失效,只是會(huì)通過另一種形式表現(xiàn)出來。
未來的AI還會(huì)繼續(xù)朝著提升智能以及擴(kuò)展應(yīng)用邊界的路子走下去,前者依舊需要大量的人類反饋數(shù)據(jù),scaling才剛剛開始;后者需要更需要的Agent的反饋數(shù)據(jù),也才剛剛摸到門檻。
1
@桔了個(gè)仔
所謂Scaling Law,俗話說就是「力大磚飛」。Scaling Law指的是,模型性能隨著模型參數(shù)量、數(shù)據(jù)量和算力的增加呈現(xiàn)的冪律關(guān)系。
不過,隨著參數(shù)量的繼續(xù)增加,互聯(lián)網(wǎng)數(shù)據(jù)似乎不夠用了Ilya 在 NeurIPS 2024 中提出的觀點(diǎn)是「預(yù)訓(xùn)練即將結(jié)束」,原因是隨著計(jì)算能力提升,互聯(lián)網(wǎng)上的數(shù)據(jù)量并沒有明顯增長。
不過,無論如何,他講的,其實(shí)只是在pre-train階段遇到瓶頸。事實(shí)上,Scaling Law可以發(fā)生在不同的維度。
首先講講基座大模型如何繼續(xù)保持Scaling Law。
合成數(shù)據(jù)(Synthetic Data)
其實(shí)這個(gè)思路是work的。例如sora就是使用了大量的合成數(shù)據(jù),據(jù)說Sora可能采用了UE5、Unity的合成數(shù)據(jù)作為訓(xùn)練集。
但這個(gè)思路還是pre-train階段提升方法,雖然喂合成數(shù)據(jù)應(yīng)該也能提升模型性能,但個(gè)人認(rèn)為其邊際效應(yīng)已經(jīng)出現(xiàn)了明顯遞減??赡芷渌桨笗?huì)更有性價(jià)比。
但合成數(shù)據(jù)有另一個(gè)好處,就是有助于Alignment。具體可以參考@李rumor 這篇文章[1]。https://www.zhihu.com/people/rumor-lee
反向scale
既然通過數(shù)據(jù)帶來的邊際提升不那么具有性價(jià)比了,那么是否可以嘗試以更少參數(shù)實(shí)現(xiàn)同樣效果?畢竟人類智能并不是純粹靠數(shù)據(jù)的,人類的大腦就140-160億神經(jīng)元,況且還并非全部神經(jīng)元都激活了。當(dāng)然,大模型參數(shù)數(shù)量不能直接等價(jià)于人腦神經(jīng)元數(shù)量,但有沒一種可能,現(xiàn)在多數(shù)大模型都是「參數(shù)過剩」的?
其實(shí)這個(gè)想法,在2022年Deepmind發(fā)表了一篇論文《Training Compute-Optimal Large Language Models》[2]中就被論述過。這個(gè)論文最重要的一個(gè)論點(diǎn)是:現(xiàn)在所有大語言模型都是訓(xùn)練不充分(undertrained)的。
這個(gè)論文還訓(xùn)練了一個(gè)訓(xùn)練了700億參數(shù)的模型 Chinchilla,在許多下游任務(wù)上的性能顯著超過了很多參數(shù)更大的模型,例如 Gopher (2800億), GPT-3 (1750億) 等。
這篇論文讓很多公司意識(shí)到,堆疊參數(shù)的性價(jià)比可能不高,優(yōu)化訓(xùn)練集,優(yōu)化訓(xùn)練方法,甚至提出新架構(gòu),都可能帶來新的收益。
非Transformer架構(gòu)
很多非Transformer架構(gòu),能以更少參數(shù)量實(shí)現(xiàn)同樣效果。例如RWKV。例如 @PENG Bo 在這篇回答里介紹到https://www.zhihu.com/question/6833253550/answer/55768424495,RWKV-7 0.1B參數(shù)的基座模型,而且還沒做任何post-training,就能實(shí)現(xiàn)下面的效果
除了RWKV,其他非Transformer架構(gòu)還包括Mamba,S4等等,它們都是采用用 recurrent(循環(huán))結(jié)構(gòu)去替代 attention。
以上都是從基座模型方向出發(fā)。除了基座模型,還有別的方向
強(qiáng)化學(xué)習(xí)的Scaling Law
o1的發(fā)布,讓大家看到,通過強(qiáng)化學(xué)習(xí)(Reinforcement Learning),讓大模型self-play,可以繼續(xù)提升其推理能力。具體可以看 @張俊林 的這篇分析[3]https://www.zhihu.com/question/666992324/answer/3624700849
這個(gè)方向得到了很多AI公司的認(rèn)可,例如Qwen推出了QwQ(我喜歡這個(gè)名字),DeepSeek推出了R1,天工大模型推出了Skywork o1等等。估計(jì)是2025年最有價(jià)值的方向之一。
Muiti Agent的scaling law
例如@Guohao Li李國豪 在研究的方向[4]:multi agent系統(tǒng)的scaling law,會(huì)發(fā)現(xiàn)隨著投入系統(tǒng)的Agent數(shù)量增加,其表現(xiàn)出來的智能越來越強(qiáng)
大概就先寫這么多,僅作為拋磚引玉。
1
@Trisimo崔思莫
Scaling Laws當(dāng)然沒撞墻。
不能說我們突破不了光速,是狹義相對(duì)論撞墻了。
這種性能撞墻,恰恰就是Scaling Laws所預(yù)示的。
撞墻的是誰?就是數(shù)據(jù),數(shù)據(jù)是最受制于物理世界的限制的。
參數(shù)不足?商用模型比如GPT-4o和Sonnet的參數(shù)不足,可以吃更干凈的蒸餾,吃合成數(shù)據(jù),數(shù)據(jù)是喂不飽大參數(shù)母模型的,所以參數(shù)不是問題。
算力不足?現(xiàn)在暫時(shí)足了,算力的最終本質(zhì)是電力,現(xiàn)在暫時(shí)有核電站的訂單頂著。
1. 人工智能公司的“數(shù)據(jù)渴望”,已經(jīng)達(dá)到了令人發(fā)指的程度。(不要以為公域數(shù)據(jù)枯竭,只是說說的而已,這幫已經(jīng)輸不起的資本家,無所不用其極。)
例子:Anthropic的爬蟲,爬了iFixit網(wǎng)站,一天爬了一百萬次。就像你說:歡迎你來我家!結(jié)果,對(duì)方一天來了一百萬次。艾麻,真是草!Dario Amodei天天擱那宣傳“合成大法好”,結(jié)果把人家的窩都薅禿了。——這不是爬蟲,這是蝗蟲。
2. 算法帶來的提升微弱,Scaling Laws主宰。本質(zhì)上,神經(jīng)網(wǎng)絡(luò)是結(jié)構(gòu)單調(diào)的,這種單調(diào)性使得優(yōu)化算法沒有太大空隙可以插入。暴力仍然是主宰,夯就完事了。為什么OpenAI的GPT好用?數(shù)據(jù),尤其是他們的后訓(xùn)練精華數(shù)據(jù)。
例子:我看了DeepMind的研究科學(xué)家Felix Hill的心路自敘(這是我見過的文筆最好的AI研究員),他坦言模型算法帶來的提升非常微弱,但每天仍然需要面對(duì)它。我們不能說Felix的抑郁自殺與這項(xiàng)工作的無力感直接相關(guān),但很明顯,這種推進(jìn)極小的工作,加速了他的悲劇。假設(shè)算法帶來的提升極大,那么Felix一定能從工作中體驗(yàn)到振奮感。
3. 強(qiáng)化學(xué)習(xí)Reasoning帶來的范式轉(zhuǎn)變,但仍然有限。RL Reasoning在R什么東西?是一種思維方式,僅此而已?是的,僅此而已。他們沒有在R知識(shí)本身,只是在R一種套路。
例子:GPT-5預(yù)訓(xùn)練遇到阻力,原因是缺乏足夠的數(shù)據(jù)量和數(shù)據(jù)多樣性,OpenAI招募專業(yè)團(tuán)隊(duì)來為數(shù)學(xué)和代碼題編寫解答,同時(shí)再加上OpenAI推理模型產(chǎn)生的數(shù)據(jù)。如果說,數(shù)據(jù)是足夠的,或者說推理是萬能的,OpenAI何須此舉?直覺先于推理,沒有GPT形成的知識(shí)直覺,那么推理Agent巧婦難為無米之炊?!苍SOpenAI未來會(huì)變成半個(gè)數(shù)據(jù)研發(fā)公司,是的,我說的是數(shù)據(jù)研發(fā),挺可笑的吧。
以上是現(xiàn)在OpenAI,Anthropic,Google御三家的情況,其他的公司面臨的情況可能會(huì)更嚴(yán)峻。
未來的方向,如果未來是AI主導(dǎo)的世界,那么數(shù)據(jù)的采集和標(biāo)注會(huì)是核心工作。
數(shù)據(jù)這個(gè)故事,不是已經(jīng)達(dá)到了瓶頸,而在預(yù)示一個(gè)“后數(shù)據(jù)時(shí)代”。這會(huì)是一個(gè)觀念革新的問題。一個(gè)面向真實(shí)場(chǎng)景的AI,它需要私域數(shù)據(jù)。也許未來的模型微調(diào)的公司,會(huì)把最大的精力放在為客戶采集數(shù)據(jù)標(biāo)注數(shù)據(jù),數(shù)據(jù)即智能(一種低泛化性的智能)。我們是否要質(zhì)疑通用模型的適應(yīng)性?
1
@咸蛋
scaling的問題很多人沒搞明白。
如果仔細(xì)測(cè)試模型就會(huì)發(fā)現(xiàn),模型沒辦法解決未知問題,哪怕是推理模型,遇到未知問題本質(zhì)上是在當(dāng)前內(nèi)容上做擴(kuò)展,也就是,如果一個(gè)外部知識(shí)模型沒有,那么它推理也是搞不定這個(gè)問題的。
現(xiàn)在很多人把這個(gè)上限歸結(jié)為scaling的問題,我認(rèn)為這是不對(duì)的,這個(gè)分為兩個(gè)部分,一個(gè)是深度,一個(gè)是廣度。
深度代表最強(qiáng)的o3,其實(shí)做題方面相當(dāng)了得了,但是o1測(cè)試下來,很多模型缺乏的知識(shí)庫內(nèi)容,它依然會(huì)在錯(cuò)誤的認(rèn)知上進(jìn)行推理,就是所謂幻覺,那么這個(gè)問題是scaling的問題嗎?
我認(rèn)為不是,核心點(diǎn)還是模型的知識(shí)庫對(duì)齊問題,就是說模型無法解決這個(gè)問題,并非模型不會(huì),而是它的底層認(rèn)知和你要解決的問題有偏差。
也就是它理解的東西,其中某個(gè)環(huán)節(jié),和你要工作完成的目標(biāo),有誤解,同一個(gè)API名字,他用其他庫的內(nèi)容替代了,這就導(dǎo)致了模型的不健壯性,也就是所謂的性能瓶頸,隨著模型數(shù)據(jù)越大,這種混淆實(shí)際上更嚴(yán)重了,同義詞更多,權(quán)重模糊接近極限,中間的任何細(xì)微的知識(shí)混淆都會(huì)導(dǎo)致模型的整體推理步驟錯(cuò)誤,所以感覺性能幾乎無法提升了。
這就是scaling撞墻的本質(zhì),也就是說,數(shù)據(jù)質(zhì)量卡死了scaling而不是數(shù)據(jù)規(guī)模。
那么一個(gè)面向所有人的通用模型,他的內(nèi)部權(quán)重必然是均衡的,也就是說它不能對(duì)用戶建立單獨(dú)數(shù)據(jù)對(duì)齊,比如兩個(gè)人工作環(huán)境不同,那么同一句話的意思可能就不同,你的9.11是數(shù)字,他的9.11是日期。
那么結(jié)果就會(huì)導(dǎo)致這種不健壯性,也就是說你不可能用提示詞精確標(biāo)注每個(gè)步驟的詳細(xì)指代,那么這個(gè)東西的存在進(jìn)到思維鏈,就必然導(dǎo)致推理過程的不健壯性。
也就是所謂的scaling失效問題,必須構(gòu)建出更高質(zhì)量的數(shù)據(jù),才能提高模型的底層性能,而高質(zhì)量數(shù)據(jù)的構(gòu)建成本非常高,所以openAI無奈只能采用強(qiáng)化微調(diào),讓模型自己生成推理鏈路,人類來修正的方法來構(gòu)建增強(qiáng)的數(shù)據(jù)去訓(xùn)練GPT5,之前直接擴(kuò)大數(shù)據(jù)規(guī)模的方法在GPT5上面失效了,也就是模型進(jìn)一步擴(kuò)大數(shù)據(jù)集和參數(shù)后,模型的知識(shí)廣度提高了,深度則原地踏步,所以GPT5卡死兩次不得已全部轉(zhuǎn)向合成數(shù)據(jù)。
所以要想進(jìn)一步提高模型的能力,這里我有一些想法,就是要實(shí)現(xiàn)對(duì)數(shù)據(jù)的深度清理,還有動(dòng)態(tài)數(shù)據(jù)匹配。
第一個(gè)的意思就是,要挖掘數(shù)據(jù)標(biāo)注的極限,一個(gè)優(yōu)質(zhì)數(shù)據(jù),可以做數(shù)據(jù)增強(qiáng)實(shí)驗(yàn),能否通過優(yōu)化優(yōu)質(zhì)數(shù)據(jù)來提高分?jǐn)?shù),是一個(gè)非常值得研究的方向。
第二個(gè)則是讓模型能夠自主對(duì)齊用戶,不是后訓(xùn)練方法,而是模型能夠通過用戶使用過程的反饋,自我反思推理調(diào)整模型輸出內(nèi)容,無法解決的內(nèi)容可以請(qǐng)求用戶幫助,把用戶輸入的外部知識(shí)進(jìn)行內(nèi)化,也就是所謂的成長型模型架構(gòu),不是固定權(quán)重的模型,模型能類似人一樣反思,自我調(diào)整,類似自動(dòng)化lora,實(shí)時(shí)強(qiáng)化微調(diào)的感覺,但是更輕量。
另外我還有一個(gè)非常有意思的想法,如果有研究大模型的大佬可以看看是否可行,就是把模型參數(shù)進(jìn)行標(biāo)注和預(yù)測(cè)標(biāo)注,把模型權(quán)重?cái)?shù)據(jù)和標(biāo)注數(shù)據(jù)混合,做成一個(gè)可生育模型。
什么意思呢,就是做一個(gè)模型生成模型的大模型,這個(gè)模型的生成結(jié)果就是模型權(quán)重文件。
如果這個(gè)方向能有突破,可能是一個(gè)非常值得研究的方向,大模型自我生育,端到端的進(jìn)化模型。
所以不用擔(dān)心大模型沒方向,方向多的很,AI遠(yuǎn)未撞墻。
在多位答主的深度探討中,我們看到了對(duì)Scaling Law多維度的思考:從大模型演進(jìn)的三階段論,到test loss的本質(zhì)剖析;從合成數(shù)據(jù)與反向scale的技術(shù)探索,到知識(shí)對(duì)齊與數(shù)據(jù)質(zhì)量的創(chuàng)新思路;從數(shù)據(jù)瓶頸的深刻反思,到多智能體協(xié)作的未來展望。這些討論揭示了一個(gè)關(guān)鍵事實(shí):所謂的"瓶頸",也許并非是Scaling Law本身的局限,而是我們對(duì)AI發(fā)展范式的認(rèn)知需要跨越新的維度。
正如量子力學(xué)的發(fā)展最終突破了經(jīng)典物理的藩籬,AI的下一次飛躍可能同樣需要對(duì)根本范式的重新思考:從單一的參數(shù)規(guī)模擴(kuò)張,到多維度的質(zhì)量提升;從靜態(tài)的知識(shí)存儲(chǔ),到動(dòng)態(tài)的認(rèn)知演進(jìn);從追求極致算力,到探索高效且可持續(xù)的架構(gòu)。這不僅是技術(shù)路徑的選擇,更是AI發(fā)展哲學(xué)的反思。
值得深思的是,在這個(gè)臨界點(diǎn)上,我們不應(yīng)被"瓶頸"二字所困,而應(yīng)將其視為一個(gè)契機(jī)——重新審視AI發(fā)展的根本命題,探索更富想象力的可能性。畢竟,正如人類認(rèn)知的演進(jìn)從未止步,AI的進(jìn)化或許也正在醞釀著新的范式轉(zhuǎn)移。
- 免責(zé)聲明
- 本文所包含的觀點(diǎn)僅代表作者個(gè)人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對(duì)本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險(xiǎn),讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前,請(qǐng)務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對(duì)因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。