首頁 > AI資訊 > 最新資訊 > 對標(biāo)o1,Kimi放出了最能打的國產(chǎn)模型

對標(biāo)o1,Kimi放出了最能打的國產(chǎn)模型

新火種    2024-11-19

AI 領(lǐng)域正在經(jīng)歷新一輪技術(shù)范式的變化,預(yù)訓(xùn)練 Scaling Law 放緩之后,推理時(shí)間計(jì)算成為了新的性能提升關(guān)鍵。兩個(gè)月前,OpenAI o1 的誕生再次引領(lǐng)了大模型技術(shù)的突破。從后訓(xùn)練階段入手,通過更多的強(qiáng)化學(xué)習(xí)、原生的思維鏈和更長的推理時(shí)間,o1 將大模型的能力又往前推了一步。這段時(shí)間,國內(nèi)大模型初創(chuàng)公司月之暗面的技術(shù)攻關(guān)經(jīng)歷了一場加速。繼 Kimi 探索版 10 月開放之后,這家公司在 11 月 16 日交上又一份答卷:Kimi 的最新一代推理模型 k0-math,在數(shù)學(xué)能力已實(shí)現(xiàn)對標(biāo) OpenAI o1-mini 和 o1-preview。圖片這是 Kimi 推出的首款推理能力強(qiáng)化模型,k0-math 同樣采用了全新的強(qiáng)化學(xué)習(xí)和思維鏈推理技術(shù),通過模擬人腦的思考和反思過程,大幅提升了解決數(shù)學(xué)難題的能力,可以幫助用戶完成更具挑戰(zhàn)性的數(shù)學(xué)任務(wù) 。Kimi 創(chuàng)始人楊植麟表示,接下來 k0-math 模型會(huì)持續(xù)迭代,提升更難題目的解題能力,挑戰(zhàn)數(shù)學(xué)模型的能力極限。同時(shí),k0-math 數(shù)學(xué)模型和更強(qiáng)大的 Kimi 探索版,將會(huì)分批陸續(xù)上線 Kimi 網(wǎng)頁版(kimi.ai)和 Kimi 智能助手 APP。在 Kimi Chat 全量開放一周年之際,還有一個(gè)數(shù)字吸引了大家的注意:截至2024 年 10 月,Kimi 智能助手在 PC 網(wǎng)頁、手機(jī) APP、小程序等全平臺(tái)的月度活躍用戶已超過 3600 萬。數(shù)學(xué)能力對標(biāo) o1,k0-math 的表現(xiàn)如何?在多項(xiàng)基準(zhǔn)能力測試中,k0-math 的數(shù)學(xué)能力可對標(biāo) OpenAI o1 系列公開發(fā)布的兩個(gè)模型:o1-mini 和 o1-preview。具體來說,在中考、高考、考研以及包含入門競賽題的 MATH 等 4 個(gè)數(shù)學(xué)基準(zhǔn)測試中,k0-math 初代模型成績超過 o1-mini 和 o1-preview 模型:k0-math 模型得分 93.8,o1-mini 為 90 分, o1-preview 為 85.5 分。k0-math 的成績僅次于尚未正式上線的 o1 完全版的 94.8 分。而在兩個(gè)難度更大的競賽級(jí)別的數(shù)學(xué)題庫 OMNI-MATH 和 AIME 基準(zhǔn)測試中,k0-math 初代模型的表現(xiàn)分別達(dá)到了 o1-mini 最高成績的 90% 和 83%。圖片

常規(guī)模型的關(guān)鍵目標(biāo)是盡快提供答案。與之不同,在做題過程中,k0-math 模型會(huì)花更長的時(shí)間來推理,包括思考和規(guī)劃思路,并且在必要時(shí)自行反思改進(jìn)解題思路,提升答題的成功率。k0-math 的解題思考過程,常常會(huì)讓數(shù)學(xué)高手也受到啟發(fā)。以這道 AIME 競賽題目為例,k0-math 模型通過不斷探索和試錯(cuò),經(jīng)歷了八九次失敗,意識(shí)到自己之前用了過于復(fù)雜的方法,最終得出了正確結(jié)果。圖片

不過,需要注意的是,k0-math 模型雖然擅長解答大部分很有難度的數(shù)學(xué)題,但是當(dāng)前版本還無法解答 LaTeX 格式難以描述的幾何圖形類問題。此外,它還有一些局限性需要突破,包括對于過于簡單的數(shù)學(xué)問題。例如「1+1=?」,k0-math 模型可能會(huì)過度思考。「意圖增強(qiáng)」等三大推理能力注入 Kimi 探索版新的強(qiáng)化學(xué)習(xí)技術(shù)范式帶來的推理能力提升,也將會(huì)泛化到更多日常任務(wù)上。在上個(gè)月推出的 Kimi 探索版中,月之暗面已將推理能力運(yùn)用到 AI 搜索任務(wù)上,通過模擬人類的推理思考過程,多級(jí)分解復(fù)雜問題,執(zhí)行深度搜索,并即時(shí)反思改進(jìn)結(jié)果,幫助用戶更高效地完成復(fù)雜的搜索調(diào)研任務(wù)。據(jù)楊植麟介紹,基于強(qiáng)化學(xué)習(xí)層面的技術(shù)創(chuàng)新,Kimi 探索版已在三大推理能力上實(shí)現(xiàn)突破:意圖增強(qiáng)、信源分析和鏈?zhǔn)剿伎肌R鈭D增強(qiáng):Kimi 探索版可以將抽象的問題和模糊的概念具體化,拓展用戶的真實(shí)搜索意圖。例如,當(dāng)互聯(lián)網(wǎng)產(chǎn)品經(jīng)理調(diào)研某產(chǎn)品的用戶忠誠度,Kimi 探索版會(huì)思考當(dāng)用戶搜索「忠誠度」時(shí),本質(zhì)上是想做數(shù)據(jù)的分析,然后找到可以體現(xiàn)忠誠度的維度,將這個(gè)比較模糊和抽象的概念,轉(zhuǎn)化為更加具體的「活躍度、留存率、使用頻率、使用時(shí)長」等關(guān)鍵詞,然后通過機(jī)器更擅長的海量并行搜索,查找更全面和準(zhǔn)確的答案。信源分析:Kimi 探索版會(huì)從大量的搜索來源結(jié)果中,分析篩選出更具權(quán)威性和可靠性的信源,并且在答案中提供溯源鏈接,可一鍵定位信源具體出處,精確到段落級(jí)別,讓條信息都有據(jù)可查。例如,在咨詢顧問調(diào)查人群市場規(guī)模的場景,借助 Kimi 探索版查找中國不同年齡的人口占比情況時(shí),Kimi 會(huì)篩選最權(quán)威和最新的人口普查報(bào)告信息。鏈?zhǔn)剿伎迹篕imi 探索版可以更好地基于思維鏈推理能力處理產(chǎn)品、公司、行業(yè)等研究問題。例如,當(dāng)程序員做技術(shù)選型,想要了解「react 中有哪些狀態(tài)管理庫,最好用的是什么」。Kimi 首先會(huì)拆解問題,找到 react 的狀態(tài)管理庫有哪些,然后分別搜索每個(gè)狀態(tài)管理庫的優(yōu)缺點(diǎn)、使用場景和推薦理由,最后分析總結(jié)找到的所有高質(zhì)量信息,推薦一個(gè)最適合大多數(shù)情況的狀態(tài)管理庫和理由。面向推理 Scaling Law 時(shí)代在過去幾年中,LLM 使用來自網(wǎng)站、書籍和其他來源的公開文本和其他數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,但模型開發(fā)者基本上已經(jīng)從這類數(shù)據(jù)中榨干了盡可能多的資源。有研究預(yù)計(jì),如果 LLM 保持現(xiàn)在的發(fā)展勢頭,預(yù)計(jì)在 2028 年左右,已有的數(shù)據(jù)儲(chǔ)量將被全部利用完。屆時(shí),基于大數(shù)據(jù)的大模型的發(fā)展將可能放緩甚至陷入停滯。圖片 

來源:論文《Will we run out of data? Limits of LLM scaling based on human-generated data》好在以 o1 為代表的「推理 Scaling Law」成果,給大模型規(guī)模擴(kuò)展 vs 性能的曲線帶來了一次上翹。領(lǐng)域內(nèi)認(rèn)為,這讓大模型領(lǐng)域重現(xiàn)了類似當(dāng)年 AlphaGo 強(qiáng)化學(xué)習(xí)的成功 —— 給越多算力,就輸出越多智能,一直到超越人類水平。在這條賽道,不論海外的 OpenAI、谷歌,還是國內(nèi)的月之暗面,都重新站在了全新的起跑線上。當(dāng)然,這種范式轉(zhuǎn)變,首先加劇了科技公司之間的人才爭奪。去年 7 月,德?lián)?AI 作者 Noam Brown 就加入 OpenAI,并在 o1 項(xiàng)目中發(fā)揮了至關(guān)重要的作用。近日,Anthropic 又從谷歌挖走了 AlphaGo 核心作者、強(qiáng)化學(xué)習(xí)大牛 Julian Schrittwieser。對此,月之暗面是否有所準(zhǔn)備?「我們是很早看到這一點(diǎn)的。只不過在早期,預(yù)訓(xùn)練的很多紅利還沒有被充分發(fā)揮出來,所以可能更關(guān)注怎么通過預(yù)測下一個(gè) Token 去壓縮更多的智能,但關(guān)于強(qiáng)化學(xué)習(xí),不管是在人才還是在技術(shù)的儲(chǔ)備上,我們都有很早地去鋪墊。」楊植麟表示。

相關(guān)推薦
免責(zé)聲明
本文所包含的觀點(diǎn)僅代表作者個(gè)人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險(xiǎn),讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前,請務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。

熱門文章