首頁(yè) > AI資訊 > 最新資訊 > 又一機(jī)構(gòu)發(fā)布推理模型大模型從ScalingLaw轉(zhuǎn)向多樣化探索

又一機(jī)構(gòu)發(fā)布推理模型大模型從ScalingLaw轉(zhuǎn)向多樣化探索

第一財(cái)經(jīng)    2024-11-28

  自9月OpenAI發(fā)布全新AI推理大模型GPT-o1后,國(guó)內(nèi)企業(yè)機(jī)構(gòu)也開(kāi)始了密集的更新,同步到推理模型的進(jìn)程。

  11月25日晚,上海人工智能實(shí)驗(yàn)室向社會(huì)用戶開(kāi)放了書(shū)生·浦語(yǔ)大模型,并在大模型界面發(fā)布了強(qiáng)推理模型InternThinker。據(jù)悉,InternThinker模型具有長(zhǎng)思維能力,并能在推理過(guò)程中進(jìn)行反思和糾正,從而在數(shù)學(xué)、代碼、推理謎題等多種復(fù)雜推理任務(wù)上取得更優(yōu)結(jié)果。

  這個(gè)月已有多個(gè)推理模型的發(fā)布。11月16日,月之暗面Kimi宣布推出新一代數(shù)學(xué)推理模型k0-math,號(hào)稱數(shù)學(xué)能力對(duì)標(biāo)OpenAI o1系列。11月20日,DeepSeek發(fā)布推理模型DeepSeek-R1-Lite,稱模型通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練,在數(shù)學(xué)、代碼和復(fù)雜邏輯推理任務(wù)上表現(xiàn)媲美o1-preview。

  發(fā)布推理模型已成當(dāng)前AI行業(yè)的一大趨勢(shì),上海人工智能實(shí)驗(yàn)室青年科學(xué)家陳愷在接受第一財(cái)經(jīng)采訪時(shí)表示,“目前大模型的頭部機(jī)構(gòu)都有研發(fā)和發(fā)布推理模型的計(jì)劃,因?yàn)橥评砟芰κ谴竽P椭悄芩降闹匾w現(xiàn),也是面向復(fù)雜應(yīng)用場(chǎng)景的必備能力。”

  強(qiáng)大的推理能力是邁向通用人工智能的重要基礎(chǔ)。從應(yīng)用層面來(lái)看,陳愷認(rèn)為,模型推理能力的進(jìn)一步提升將會(huì)帶來(lái)更多的智能應(yīng)用場(chǎng)景,可以和人更好地協(xié)作進(jìn)行思考和解決高難度任務(wù),從而推動(dòng)大模型在生產(chǎn)力方面的應(yīng)用。

  在具體應(yīng)用上,陳愷舉例表示,一般的大模型可以在讀完一份財(cái)報(bào)之后幫忙整理其中的關(guān)鍵信息,如果是具備強(qiáng)推理能力的模型,未來(lái)就可以像分析師一樣幫助分析財(cái)報(bào)中的數(shù)據(jù),給出合理的研究和預(yù)測(cè)。

  在提升模型推理能力方面,陳愷提到,目前主要的難點(diǎn)是高密度監(jiān)督數(shù)據(jù),例如高難度的問(wèn)題和更詳細(xì)的思維鏈,這些數(shù)據(jù)在自然文本中占比很小,需要研究有效的構(gòu)造方法。此外,推理能力目前的提升路徑依賴有效的強(qiáng)化學(xué)習(xí),在強(qiáng)化學(xué)習(xí)中如何提升模型的搜索效率,如何訓(xùn)練泛化且可靠的獎(jiǎng)勵(lì)模型以便于獲取反饋也是難點(diǎn)。

  OpenAI 9月發(fā)布的o1模型展示出強(qiáng)大的推理能力,在提升模型推理能力的研究中,據(jù)介紹,實(shí)驗(yàn)室采用的是相對(duì)獨(dú)立的路線,通過(guò)設(shè)計(jì)元?jiǎng)幼魉伎挤妒絹?lái)引導(dǎo)模型的搜索空間,基于通專融合的方式進(jìn)行數(shù)據(jù)合成,并通過(guò)構(gòu)建大規(guī)模沙盒環(huán)境獲取反饋,從而提升模型的性能。

  具體來(lái)說(shuō),人在學(xué)習(xí)解決復(fù)雜推理任務(wù)時(shí),并非從海量的樣本中進(jìn)行單點(diǎn)知識(shí)的學(xué)習(xí),而是思維模式的學(xué)習(xí)——在解決問(wèn)題的過(guò)程中,通過(guò)回憶相關(guān)知識(shí)點(diǎn),對(duì)正確的解題過(guò)程進(jìn)行理解、記憶,對(duì)錯(cuò)誤解題等過(guò)程進(jìn)行反思和修正,即對(duì)自我的認(rèn)知過(guò)程進(jìn)行覺(jué)察和調(diào)節(jié),該能力也被稱作元認(rèn)知能力。

  受元認(rèn)知理論的啟發(fā),實(shí)驗(yàn)室的研究團(tuán)隊(duì)設(shè)計(jì)了一系列元?jiǎng)幼鱽?lái)引導(dǎo)模型解決問(wèn)題的過(guò)程,如對(duì)問(wèn)題的理解、知識(shí)回憶、規(guī)劃、執(zhí)行、總結(jié)等。模型在面對(duì)復(fù)雜任務(wù)時(shí),會(huì)顯式且動(dòng)態(tài)地選擇元?jiǎng)幼鳎龠M(jìn)一步展開(kāi)相關(guān)動(dòng)作的具體思維過(guò)程。通過(guò)這種設(shè)計(jì),利用部分訓(xùn)練任務(wù),可強(qiáng)化模型對(duì)關(guān)鍵元?jiǎng)幼鹘M合的使用,提升模型學(xué)習(xí)效率。

  隨著大模型的不斷發(fā)展,陳愷認(rèn)為,目前行業(yè)的研究方向從按照Scaling Law(尺度定律)簡(jiǎn)單地放大模型參數(shù)量和數(shù)據(jù),轉(zhuǎn)向了更多樣化的探索。他預(yù)測(cè),未來(lái)一部分資源投入會(huì)從預(yù)訓(xùn)練轉(zhuǎn)向后訓(xùn)練,包括使用更多的推理算力來(lái)?yè)Q取模型更好的性能,以及強(qiáng)化學(xué)習(xí)的大規(guī)模應(yīng)用。

  此前在發(fā)布推理模型時(shí),談及Scaling Law是否還有效,月之暗面Kimi創(chuàng)始人兼CEO楊植麟也提到了Scaling law 的范式轉(zhuǎn)換,他認(rèn)為,過(guò)去大模型的路徑是“next token prediction”,但預(yù)測(cè)下一個(gè)詞有局限性,是一個(gè)靜態(tài)的數(shù)據(jù)集,沒(méi)辦法探索更難的任務(wù),接下來(lái)大模型的目標(biāo)是通過(guò)強(qiáng)化學(xué)習(xí)讓AI具備思考的能力。

  “接下來(lái)還能持續(xù)scale,只是過(guò)程不一樣。”楊植麟認(rèn)為,預(yù)訓(xùn)練還有半代到一代模型的空間,這個(gè)空間可能會(huì)在明年釋放出來(lái),但是他判斷,接下來(lái)最重點(diǎn)的還是強(qiáng)化學(xué)習(xí)。

(文章來(lái)源:第一財(cái)經(jīng))

相關(guān)推薦
免責(zé)聲明
本文所包含的觀點(diǎn)僅代表作者個(gè)人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對(duì)本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險(xiǎn),讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前,請(qǐng)務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對(duì)因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢(qián)損失負(fù)任何責(zé)任。

熱門(mén)文章