天天射网,秋霞鲁丝片av无码少妇,亚洲精品字幕在线

首頁 > AI資訊 > 最新資訊 > 7B的DeepSeek蒸餾Qwen數學超o1！在測試時間強化學習，MIT積分題大賽考93分

7B的DeepSeek蒸餾Qwen數學超o1！在測試時間強化學習，MIT積分題大賽考93分

新火種 2025-04-21

見識過32B的QwQ追平671的DeepSeek R1后——

剛剛，7B的DeepSeek蒸餾Qwen模型超越o1又是怎么一回事？

新方法LADDER，通過遞歸問題分解實現AI模型的自我改進，同時不需要人工標注數據。

使Deepseek-R1蒸餾的Qwen2.5 7B模型在麻省理工學院積分大賽（MIT Integration Bee）上達到90分超越o1。

注意，不是積分制的比賽哦，是只做微積分中積分題的比賽，MIT的數學高手每年都會挑戰一次，題目像這樣：

LADDER論文來自小型獨立研究團體Tufa Labs，論文已上傳到arXiv。

在推理時間強化學習

LADDER，全稱Learning through Autonomous Difficulty-Driven Example Recursion，即”通過自主難度驅動的樣本遞歸進行學習”。

這個名字聽起來有點拗口，但核心其實很容易理解：就是讓語言模型（LLM）通過自我生成和求解漸進簡化的問題變體，來不斷提升自己解決復雜問題的能力。

具體來說，LADDER是一個結構化框架，由以下組件組成：

變體生成：一種結構化方法，用于生成復雜問題的逐漸簡化變體的樹，從而建立自然的難度梯度。

解的驗證：一種用于驗證積分解的數值積分方法。

強化學習：用于在變體樹上訓練基礎模型的協議。

而LADDER這個名字，也意味著像是模型學會了”爬梯子”：通過自主生成一系列從易到難的問題變體，不斷練習和強化，最終爬到頂端。

以往的訓練方法，總是離不開大規模標注數據。

LADDER利用模型現有能力來生成問題變體，形成循序漸進的難度梯度，最終實現自舉學習。整個過程只需對答案進行驗證即可，無需人工干預。

相比之前的方法，LADDER有三大優勢：

不再依賴人工標注數據，降低了數據獲取成本；模型通過生成問題變體構建針對性的學習路徑，學習更高效；生成的問題變體與原始問題相關性高，避免陷入無關細節。

此外，作者還提出了一種創新的測試時強化學習方法TTRL。在推理階段遇到復雜的數學積分測試問題時，TTRL會動態生成一系列更簡單的積分變體，模型通過解決這些變體來積累經驗，找到解決原始難題的方法。

這種測試時計算擴展的思路，為進一步提升模型性能開辟了新的道路。不同于簡單增加輸出長度，TTRL能夠讓模型在推理時針對性地”刷題”，動態擴展能力邊界。

通過LADDER，一個原本只有1%準確率的Llama 3.2 3B模型，在沒有任何人工標注數據的情況下，解題準確率飆升至82%。

更強大的基礎模型Qwen2.5 7B Deepseek-R1 Distilled，在用上LADDER方法后，

MIT Integration Bee比賽的成績就從50%提高到73%。

最后，LADDER加上TTRL方法，讓最終成績達到90。

不過作者也強調，與o1的對比不是嚴格的頭對頭評估。

o1無法訪問數字檢查器，這意味著它在不同的約束下運行。LADDER的結果強調了通過遞歸問題分解和強化學習進行自我提升的有效性，而不是表明它直接優于o1的方法。

參考鏈接：

[1]https://x.com/yoshiyama_akira/status/1897662722679959583

— 完 —

Tags:

強化學習積分大賽

學習新語丨總書記溫暖寄語“半邊天”

2025-04-21

7B的DeepSeek蒸餾Qwen數學超o1！在測試時間強化學習，MIT積分題大賽考93分

2025-04-21

“天工”奪冠！人形機器人半馬結束了，產業的“馬拉松”剛剛開始

2025-04-21

北京加速布局6G

2025-04-21

重點打造五大產業基地福州全面推進數字經濟發展

2025-04-21

免責聲明: 本文所包含的觀點僅代表作者個人看法，不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。交易和投資涉及高風險，讀者在采取與本文內容相關的任何行動之前，請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

7B的DeepSeek蒸餾Qwen數學超o1！在測試時間強化學習，MIT積分題大賽考93分

學習新語丨總書記溫暖寄語“半邊天”

7B的DeepSeek蒸餾Qwen數學超o1！在測試時間強化學習，MIT積分題大賽考93分

“天工”奪冠！人形機器人半馬結束了，產業的“馬拉松”剛剛開始

北京加速布局6G

重點打造五大產業基地福州全面推進數字經濟發展

熱門文章