7B的DeepSeek蒸餾Qwen數學超o1!在測試時間強化學習,MIT積分題大賽考93分
見識過32B的QwQ追平671的DeepSeek R1后——
剛剛,7B的DeepSeek蒸餾Qwen模型超越o1又是怎么一回事?
新方法LADDER,通過遞歸問題分解實現AI模型的自我改進,同時不需要人工標注數據。
使Deepseek-R1蒸餾的Qwen2.5 7B模型在麻省理工學院積分大賽(MIT Integration Bee)上達到90分超越o1。
注意,不是積分制的比賽哦,是只做微積分中積分題的比賽,MIT的數學高手每年都會挑戰一次,題目像這樣:
LADDER論文來自小型獨立研究團體Tufa Labs,論文已上傳到arXiv。
在推理時間強化學習
LADDER,全稱Learning through Autonomous Difficulty-Driven Example Recursion,即”通過自主難度驅動的樣本遞歸進行學習”。
這個名字聽起來有點拗口,但核心其實很容易理解:就是讓語言模型(LLM)通過自我生成和求解漸進簡化的問題變體,來不斷提升自己解決復雜問題的能力。
具體來說,LADDER是一個結構化框架,由以下組件組成:
變體生成:一種結構化方法,用于生成復雜問題的逐漸簡化變體的樹,從而建立自然的難度梯度。
解的驗證:一種用于驗證積分解的數值積分方法。
強化學習:用于在變體樹上訓練基礎模型的協議。
而LADDER這個名字,也意味著像是模型學會了”爬梯子”:通過自主生成一系列從易到難的問題變體,不斷練習和強化,最終爬到頂端。
以往的訓練方法,總是離不開大規模標注數據。
LADDER利用模型現有能力來生成問題變體,形成循序漸進的難度梯度,最終實現自舉學習。整個過程只需對答案進行驗證即可,無需人工干預。
相比之前的方法,LADDER有三大優勢:
不再依賴人工標注數據,降低了數據獲取成本;模型通過生成問題變體構建針對性的學習路徑,學習更高效;生成的問題變體與原始問題相關性高,避免陷入無關細節。
此外,作者還提出了一種創新的測試時強化學習方法TTRL。在推理階段遇到復雜的數學積分測試問題時,TTRL會動態生成一系列更簡單的積分變體,模型通過解決這些變體來積累經驗,找到解決原始難題的方法。
這種測試時計算擴展的思路,為進一步提升模型性能開辟了新的道路。不同于簡單增加輸出長度,TTRL能夠讓模型在推理時針對性地”刷題”,動態擴展能力邊界。
通過LADDER,一個原本只有1%準確率的Llama 3.2 3B模型,在沒有任何人工標注數據的情況下,解題準確率飆升至82%。
更強大的基礎模型Qwen2.5 7B Deepseek-R1 Distilled,在用上LADDER方法后,
MIT Integration Bee比賽的成績就從50%提高到73%。
最后,LADDER加上TTRL方法,讓最終成績達到90。
不過作者也強調,與o1的對比不是嚴格的頭對頭評估。
o1無法訪問數字檢查器,這意味著它在不同的約束下運行。LADDER的結果強調了通過遞歸問題分解和強化學習進行自我提升的有效性,而不是表明它直接優于o1的方法。
參考鏈接:
[1]https://x.com/yoshiyama_akira/status/1897662722679959583
— 完 —
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。