小米首個推理大模型開源
4月30日訊,據“小米大模型”公眾號消息,今天,小米開源首個為推理(Reasoning)而生的大模型「Xiaomi MiMo」,聯動預訓練到后訓練,全面提升推理能力。
在數學推理(AIME 24-25)和 代碼競賽(LiveCodeBench v5)公開測評集上,MiMo 僅用 7B 的參數規模,超越了 OpenAI 的閉源推理模型 o1-mini 和阿里 Qwen 更大規模的開源推理模型 QwQ-32B-Preview。
強化學習潛力超越經典開源32B模型
隨著DeepSeek-R1引發業界強化學習(RL)共創潮,DeepSeek-R1-Distill-7B和Qwen2.5-32B已成為廣泛使用的強化學習起步模型。
在相同RL訓練數據情況下,MiMo-7B 的數學&代碼領域的強化學習潛力顯著領先。
預訓練+后訓練,聯動提升推理能力
MiMo推理能力的提升,由預訓練和后訓練階段中數據和算法等多層面的創新聯合驅動,包括:
預訓練:核心是讓模型見過更多推理模式
數據:著重挖掘富推理語料,并合成約200B tokens推理數據。
訓練:進行了三階段訓練,逐步提升訓練難度,總訓練25T tokens。
后訓練:核心是高效穩定的強化學習算法和框架
算法:提出 Test Difficulty Driven Reward 來緩解困難算法問題中的獎勵稀疏問題,并引入 Easy Data Re-Sampling 策略,以穩定 RL 訓練。
框架:設計了Seamless Rollout系統,使得RL訓練加速2.29倍,驗證加速1.96倍。
所有技術細節已經Open,見技術報告:
https://github.com/XiaomiMiMo/MiMo/blob/main/MiMo-7B-Technical-Report.pdf
MiMo-7B全系列已開源
MiMo-7B 已開源4個模型至HuggingFace:https://huggingface.co/XiaomiMiMo
About Xiaomi MiMo
MiMo 來自全新成立不久的「小米大模型Core團隊」的初步嘗試。
2025年雖看似是大模型逐夢的后半程,但我們堅信AGI的征途仍漫長。
我們將從務實創新出發,勇敢探索未知,用思考突破智能邊界,用創造回應每一次好奇。Ask Mi Anything!
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。