少妇人妻综合久久中文,玖玖色在线观看,国产欧美日韩久久

首頁 > AI資訊 > 最新資訊 > 對話月之暗面楊植麟：Kimi推理模型對標OpenAIo1預訓練還有提升空間

對話月之暗面楊植麟：Kimi推理模型對標OpenAIo1預訓練還有提升空間

界面新聞 2024-11-18

　　在月之暗面北京總部會議室，今年剛剛31歲的楊植麟正在擺弄他的筆記本。在下個會議開始之前，這位繁忙的創始人要抽出一個小時，為公司完成一些輸出，并回應一些疑問。

　　他全程神色輕松，能在時不時的玩笑中笑出來。這一個小時沒有回應任何行業和產品以外的問題，但好像又充分展現了態度。

　　在公司卷入風波一周后，這是一場突然且罕見的產品發布會，傳遞的信號言簡意賅：公司的重心仍然在模型研發和產品推進上。

　　11月16日，在Kimi Chat全量開放一周年之際，Kimi發布新一代數學推理模型k0-math，數學能力對標OpenAI o1系列。

　　在中考、高考、考研以及包含入門競賽題的MATH等4個數學基準測試中，k0-math初代模型成績超過o1-mini和o1-preview模型。在兩個難度更大的數學題庫OMNI-MATH和AIME基準測試中，k0-math初代模型的表現分別達到了o1-mini最高成績的90%和83%。

　　此外，Kimi探索版在搜索體驗上也加入了強化學習，在意圖增強、信源分析和鏈式思考三大推理能力上有所提升。

　　月之暗面方面表示，k0-math模型和Kimi探索版，未來幾周將會分批上線Kimi網頁版和Kimi智能助手APP。

　　楊植麟作為此次產品發布的主講人，同時探討了行業近段時間一系列關鍵議題。

　　楊植麟將AI技術過去幾年的發展歸功于“Scaling”，但認為這不是簡單將模型做大就可以，核心是找到有效的方法去“Scale Up”，比如說更好的數據或算法。

　　同時，他提及背后的范式已經發生一些轉變，例如要從“Next-Token Prediction（預測下一個token）”轉向更關注基于強化學習的“Scale Up”。

　　這是讓大模型打破靜態數據集帶來的局限性，進而具備思考能力去探索更艱難任務的重要環節。

　　對楊植麟而言，數學場景被認為是AI鍛煉思考能力最適合的場景。他引用了伽利略的一段話，“這個宇宙如果你把它看成一本很大的書，宇宙它其實是用數學來寫的，數學是表達這個宇宙的語言”。并且，在數學場景中，AI不用跟外界交互就可以自成一體。

　　除了明確表示向強化學習進擊之外，楊植麟對預訓練模型作出了自己的評價和判斷。他對Scaling Law仍然樂觀，認為預訓練模型還有半代到一代的提升空間，這個空間大概率會由頭部大模型在明年釋放出來。

　　楊植麟還透露Kimi Chat的月活用戶規模達到3600萬，他難得地強調，提升留存就是Kimi當前最核心的目標。

　　“基本上它跟你的技術成熟度或者技術水平也是一個正相關的過程，所以對我們當前來說是最重要的。”他說。

　　以下為楊植麟受訪實錄，略作編輯：

　　記者：你們預訓練的情況現在是什么樣的？

　　楊植麟：我覺得預訓練還有空間，半代到一代的模型。這個空間會在明年釋放出來，領先的模型會把預訓練做到一個比較極致的階段。

　　但是我們判斷接下來的重點會在強化學習上，范式上會產生一些變化。它還是Scaling，只是通過不同的方式去Scale。

　　Scaling law會不會有一個天花板或者上限？我相對來說比較樂觀一點。核心在于原來用靜態數據集是比較簡單粗暴的使用方式，現在用強化學習的方式，很多情況下是有人在參與這個過程。但是人沒有辦法標注那么多數據，不可能把每道題具體的思路都標出來，所以你其實是用AI本身加上人的杠桿。比如說你標100條數據，就能產生非常大的作用，因為剩下的它都是在自己思考。

　　它從做法上來說確定性是比較高的，因為很多時候（模型）是一個調出來的過程。我現在覺得大概率可以通過這種方式做出來，它上限是很高的。

　　記者：關于多模態模型的問題，Sora馬上要發了，大概是圣誕節之前，一直不做多模態的原因是什么？

　　楊植麟：我們也做，幾個多模態的能力在內測。

　　我是這樣看的，AI接下來最重要的是思考和交互這兩個能力。思考的重要性遠大于交互，不是說交互不重要，交互是一個必要條件，但思考會決定上限。

　　你就看這個任務的標注難度有多大，你到底需要一個博士去標，還是每個人都可以標，哪個任務更難找到這樣的人，那個東西就是AI的上限。

　　記者：你是什么時候決定聚焦Kimi？

　　楊植麟：大概今年二、三月份吧，或者三、四月份，大概那個區間。一個是基于美國市場的判斷，二是基于我們自己的觀察，主要是這兩點。還有就是確實得做減法，不是瘋狂的做加法。

　　記者：對于Kimi來說，它目前的最核心的任務是什么？

　　楊植麟：最核心的任務就是提升留存，或者把留存作為一個重要的衡量指標。基本上它跟你的技術成熟度或者技術水平也是一個正相關的過程，所以對我們當前來說是最重要的。

　　假設我們衡量距離AGI目標的距離，現在還是初級階段，當然每年都有一些比較大的進步，如果今年用去年的產品，你會發現可能根本沒法忍受。

　　記者：Kimi過去一年確實深受很多用戶的喜歡，但是它最受爭議的一個問題就是燒錢投放，能不能今天有一個正式的回應，就是為什么Kimi在那么早的時間選擇投放用戶？你今天也說到了關于留存其實并沒有那么的滿意，那接下來投放的動作會是持續性的嗎？

　　楊植麟：整體留存我們相比于其它的產品還是有優勢的，如果放眼去看這個產品的終極生態，今天肯定有非常大的空間，這個是我想表達的，我們會持續在這個方面做得更好，肯定還有很大的空間

　　記者：因為預訓練的Scale現在都覺得遇到瓶頸了，美國遇到瓶頸以后你覺得對中美大模型的格局的影響是什么？差距是變大還是變小？特別是對于中國公司來說是好事還是壞事？能不能對未來做一些預測？

　　楊植麟：對我們來說它有可能是一個好事。假設你一直pre-train，你的預算今年1B、明年10B或者100B，它不一定可持續。當然你做post-train也要Scaling，只是說Scaling的起點很低。你可能Scale很長一段時間，在一段時間內你的算力就不會是瓶頸，這個時候你的創新能力是更重要的，在這種情況下我覺得對我們反而是一個優勢。

　　記者：在范式轉化之后，從訓練的Scaling到推理的Scaling，可以完整回顧一下，看到這個趨勢的時候做了哪些關鍵的判斷？之后的技術和產品上已經有了哪些調整？

　　楊植麟：o1的變化其實是可以預測的，我們很早就在說接下來推理占的比例會遠遠超過訓練。因為你如果去分析的話，它是必然產生的，你沒有那么多數據訓練，你肯定是要生成數據，生成數據肯定是強化學習，本質是一樣的。

　　只不過在早期預訓練的很多紅利沒有被完全發揮出來，所以可能很關注怎么通過Next—Token prediction能壓縮出來更多的智能。但是我們很早去鋪墊，比如說在強化學習上我們能做什么，不管是在人才上還是在技術的儲備上。

　　記者：o1發了以后大家也會覺得深層推理，還有包括你今天說的數學模型，它離普通用戶比較遠，你怎么看這個功能和用戶的關系？

　　楊植麟：其實也不遠。數學我覺得是兩個方面的價值，第一個方面它今天在教育產品上其實有非常大的價值。在我們整體的流量里也起到很重要的作用。第二個，我覺得它是技術上的迭代和驗證。我們可以把這個技術去放在更多的場景里，比如我們剛剛說的探索版。

　　記者：怎么看待AI創業公司被收購，人才回流大的現象？

　　楊植麟：這個問題我們沒有遇到，但可能有一些別的公司遇到。行業發展進入了一個新的階段，它從一開始有很多公司在做，變成了現在少一點的公司在做，接下來大家做的東西會逐漸不一樣，我覺得這是必然的規律。

　　我們主動選擇做了業務的減法，這個還是很重要的，你應該聚焦一些重要的事情，然后做好。在這幾個大模型創業公司里，我們始終保持人數最少，始終保持卡和人的比例是最高的，這個非常關鍵。

　　如果你想把團隊保持在一定的規模，最好的方式是業務上做一些減法。我們一開始確實也嘗試過幾個產品一塊做，這在一定的時期內有可能是有效的，到后來發現還是要聚焦，把一個產品做好、做到極致是最重要的。

　　砍業務本質上也是在控制人數，不希望人數長得特別猛。如果現在三個業務一起做，我就活生生把自己變成大廠，就沒有任何的優勢。

（文章來源：界面新聞）

Tags:

強化學習模型空間

免責聲明: 本文所包含的觀點僅代表作者個人看法，不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。交易和投資涉及高風險，讀者在采取與本文內容相關的任何行動之前，請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

對話月之暗面楊植麟：Kimi推理模型對標OpenAIo1預訓練還有提升空間

對話月之暗面楊植麟：Kimi推理模型對標OpenAIo1預訓練還有提升空間

字節大模型團隊DepthAnythingV2模型入選蘋果最新CoreML模型

微調大模型，AMDMI300X就夠了！跟著這篇博客微調Llama3.1405B，效果媲美H100

大模型已過時，小模型SLM才是未來？蘋果正在研究這個

開源大模型王座易主！谷歌Gemma殺入場，筆記本可跑，可商用

熱門文章