午夜网站在线播放,国产精品久久久久久久福利竹菊 ,亚洲毛片观看

首頁 > AI資訊 > 最新資訊 > DeepSeek是新源神！推理模型o1性能1/50價格，微調(diào)蒸餾商用全免費(fèi)

DeepSeek是新源神！推理模型o1性能1/50價格，微調(diào)蒸餾商用全免費(fèi)

新火種 2025-01-22

DeepSeek新發(fā)布遠(yuǎn)超預(yù)期，Reddit/狂暴刷屏中。

DeepSeek是新源神！推理模型o1性能1/50價格，微調(diào)蒸餾商用全免費(fèi)

這次大事共有3件：

開源DeepSeek-R1推理大模型，與o1性能相近。開源DeepSeek-R1-Zero，預(yù)訓(xùn)練模型直接RL，不走SFT，堪稱語言模型的AlphaZero。開源用R1數(shù)據(jù)蒸餾的Qwen、Llama系列小模型，在某些任務(wù)上直接超過GPT-4o。 DeepSeek是新源神！推理模型o1性能1/50價格，微調(diào)蒸餾商用全免費(fèi)

同時開放官方API，輸入token（命中緩存）價格只有OpenAI o1的1/50，未命中緩存以及輸出token價格約1/27。

論文中被反復(fù)熱議的小細(xì)節(jié)就更多了：

R1-Zero模型在思考過程中涌現(xiàn)了“頓悟時刻”（aha moment），并自己學(xué)會為問題分配更多思考時間。

網(wǎng)友們開始推演接下來的劇情，如果頓悟的力量能被穩(wěn)定利用……那就不知道會通向何處了。

再有，目前社區(qū)猜測OpenAI的o1-pro/o3可能使用了tree-of-agents方法，許多個o1的分身各自回答問題，再通過某種方式選出最優(yōu)答案。

如果將DeepSeek-R1與Search-o1和Tree-of-Agents（大約50個智能體）結(jié)合起來，可以很小的成本獲得與o3類似的性能，最終可能便宜數(shù)百倍。

這次DeepSeek總共開源6個在R1數(shù)據(jù)上蒸餾的小模型，其中蒸餾版Qwen-1.5B都能在部分任務(wù)上超過GPT-4o。

DeepSeek還特別更新了開源許可證，現(xiàn)在是MIT Lisence。

R1是開源的，R1數(shù)據(jù)想跑多少有多少，API可以用于蒸餾和微調(diào)，商用是免費(fèi)的。

新的源神出現(xiàn)了！

DeepSeek新發(fā)布

OpenAI的o1系列模型率先引入了推理時擴(kuò)展（inference-time scaling）的概念，通過增加思維鏈（Chain-of-Thought）推理過程的長度，在數(shù)學(xué)、編程、科學(xué)推理等任務(wù)上取得了顯著的性能提升。

先前的研究探索了基于過程的獎勵模型、強(qiáng)化學(xué)習(xí)、蒙特卡洛樹搜索和束搜索等方法，但尚未有方法在通用推理性能上達(dá)到o1系列模型的水平。

DeepSeek-R1-Zero

DeepSeek團(tuán)隊(duì)邁出了利用純強(qiáng)化學(xué)習(xí)提升語言模型推理能力的第一步。

他們的目標(biāo)是探索大模型在沒有任何監(jiān)督數(shù)據(jù)的情況下，通過純強(qiáng)化學(xué)習(xí)過程進(jìn)行自我進(jìn)化，從而獲得推理能力。

具體而言，他們使用DeepSeek-V3-Base作為基礎(chǔ)模型，并采用GRPO（Group Relative Policy Optimization）作為強(qiáng)化學(xué)習(xí)框架來提高模型在推理任務(wù)上的表現(xiàn)。

在訓(xùn)練過程中，DeepSeek-R1-Zero自然而然地涌現(xiàn)出許多強(qiáng)大而有趣的推理行為。

經(jīng)過數(shù)千步的強(qiáng)化學(xué)習(xí)，DeepSeek-R1-Zero在推理基準(zhǔn)測試中表現(xiàn)出色。

例如，它在AIME 2024上的pass@1得分從15.6%提高到71.0%，并且通過多數(shù)投票，得分進(jìn)一步提高到86.7%，與OpenAI-o1-0912的表現(xiàn)相當(dāng)。

DeepSeek-R1

然而，DeepSeek-R1-Zero也面臨著可讀性差、語言混雜等挑戰(zhàn)。

為了解決這些問題并進(jìn)一步提高推理性能，團(tuán)隊(duì)提出了DeepSeek-R1，它結(jié)合了少量冷啟動數(shù)據(jù)和多階段訓(xùn)練流程。

具體而言，他們首先收集數(shù)千條冷啟動數(shù)據(jù)來微調(diào)DeepSeek-V3-Base模型。隨后，他們進(jìn)行了類似DeepSeek-R1-Zero的面向推理的強(qiáng)化學(xué)習(xí)。

當(dāng)接近強(qiáng)化學(xué)習(xí)過程的收斂時，他們通過在強(qiáng)化學(xué)習(xí)檢查點(diǎn)上進(jìn)行拒絕采樣，結(jié)合來自DeepSeek-V3在寫作、事實(shí)型問答、自我認(rèn)知等領(lǐng)域的監(jiān)督數(shù)據(jù)，創(chuàng)建新的SFT數(shù)據(jù)，然后重新訓(xùn)練DeepSeek-V3-Base模型。

使用新數(shù)據(jù)進(jìn)行微調(diào)后，該檢查點(diǎn)還經(jīng)歷了一個額外的強(qiáng)化學(xué)習(xí)過程，考慮到所有場景下的提示。

經(jīng)過這些步驟，他們獲得了一個稱為DeepSeek-R1的檢查點(diǎn)，其性能與OpenAI-o1-1217不相上下。

R1數(shù)據(jù)蒸餾模型

DeepSeek團(tuán)隊(duì)進(jìn)一步探索了從DeepSeek-R1蒸餾到更小的密集模型。使用Qwen2.5-32B作為基礎(chǔ)模型，直接從DeepSeek-R1蒸餾的效果優(yōu)于在其上應(yīng)用強(qiáng)化學(xué)習(xí)。

這表明，更大的基礎(chǔ)模型發(fā)現(xiàn)的推理模式對于提高推理能力至關(guān)重要。

他們開源了蒸餾的Qwen和Llama系列模型。值得注意的是，他們的蒸餾14B模型在推理基準(zhǔn)測試中大幅超過了當(dāng)前最先進(jìn)的開源QwQ-32B-Preview，而蒸餾的32B和70B模型在密集模型中樹立了新的推理任務(wù)基準(zhǔn)。

最后，團(tuán)隊(duì)還把在實(shí)驗(yàn)過程中很多失敗的嘗試分享出來，防止后人踩坑。

在過程獎勵模型、蒙特卡洛樹搜索算法上，DeepSeek都沒能獲得進(jìn)展。

不過他們也強(qiáng)調(diào)，只是他們失敗了，并不意味著這些方法無法開發(fā)出有效的推理模型。

未來他們計劃在以下方向繼續(xù)投入研究：提升通用能力、解決語言混雜問題、優(yōu)化提示詞敏感問題，以及改進(jìn)軟件工程任務(wù)的性能。

One More Thing

還有英語母語者挑起了論文中的遣詞造句，認(rèn)為很可能是大模型幫團(tuán)隊(duì)撰寫的論文。

同時很多人注意到，在DeepSeek的許多論文里，“DeepSeek-AI”都出現(xiàn)在作者列表的第一位。

論文地址：https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf

參考鏈接：[1]https://x.com/deepseek_ai/status/1881318130334814301[2]https://www.reddit.com/r/singularity/comments/1i5yvx5/deepseek_discovered_their_new_model_having_an_aha/

Tags:

模型性能

相關(guān)推薦

免責(zé)聲明: 本文所包含的觀點(diǎn)僅代表作者個人看法，不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。交易和投資涉及高風(fēng)險，讀者在采取與本文內(nèi)容相關(guān)的任何行動之前，請務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。

DeepSeek是新源神！推理模型o1性能1/50價格，微調(diào)蒸餾商用全免費(fèi)

NVIDIA深度適配通義千問大模型，推出艙駕融合大模型解決方案

NVIDIA深度適配通義千問大模型推出艙駕融合大模型解決方案

哈啰亮相2024云棲大會：展示AI整體布局及大模型案例

在線可玩！智譜開源圖生視頻模型，網(wǎng)友直呼Amazing！

奧特曼：o1僅僅是“推理模型的GPT-2”；黃仁勛：我給你加速50倍

熱門文章