首頁(yè) > AI資訊 > 最新資訊 > “AI版拼多多”又出手了!DeepSeek放出超重磅全新模型R1:對(duì)標(biāo)o1,實(shí)測(cè)超出想象的好,今天可用

“AI版拼多多”又出手了!DeepSeek放出超重磅全新模型R1:對(duì)標(biāo)o1,實(shí)測(cè)超出想象的好,今天可用

蔣紫涵    2024-11-22


DeepSeek放大招!DeepSeek-R1-Lite-Preview 震撼登場(chǎng)!推理能力超強(qiáng),沒(méi)有黑盒,實(shí)時(shí)展示推理思考過(guò)程,直接叫板OpenAI的o1-preview!

直接看性能

DeepSeek-R1-Lite 預(yù)覽版模型在美國(guó)數(shù)學(xué)競(jìng)賽(AMC)中難度等級(jí)最高的 AIME 以及全球頂級(jí)編程競(jìng)賽(codeforces)等權(quán)威評(píng)測(cè)中,大幅超越了 GPT4o,甚至o1-preview 等知名模型

在六個(gè)不同基準(zhǔn)測(cè)試(AIME 2024、MATH、GPQA Diamond、Codeforces、LiveCodeBench、ZebraLogic)中的表現(xiàn)

AIME 2024:pass@1,模型第一次嘗試就給出正確答案的百分比

deepseeker-r1-lite-preview 的表現(xiàn)最佳,達(dá)到 52.5%。o1-preview 緊隨其后,為 44.6%

MATH:accuracy,模型在數(shù)學(xué)推理題上的正確率

deepseeker-r1-lite-preview 依然領(lǐng)先,正確率為 91.6%。o1-preview 緊隨其后(85.5%),與其他模型拉開(kāi)較大差距

GPQA Diamond:pass@1,模型在高難度問(wèn)題上的首答正確率

o1-preview 領(lǐng)先,達(dá)到 73.3%,deepseeker-r1-lite-preview 緊隨其后,為 58.5%

Codeforces:rating,模型在編程挑戰(zhàn)賽中的分?jǐn)?shù)

deepseeker-r1-lite-preview 領(lǐng)先,分?jǐn)?shù)為1450 , o1得分1428

LiveCodeBench:accuracy,編程任務(wù)的正確率(2024年8月至11月)

o1-preview 小幅領(lǐng)先,正確率為 53.6%。deepseeker-r1-lite-preview 緊隨其后,為 51.6%

ZebraLogic:accuracy,評(píng)估邏輯推理任務(wù)的正確率

o1-preview 占據(jù)第一,為 71.4%,deepseeker-r1-lite-preview 緊隨其后,為 56.6%

DeepSeek-R1-Lite-Preview推理縮放

更長(zhǎng)的推理,更好的性能。隨著思維長(zhǎng)度的增加,DeepSeek-R1-Lite-Preview 在 AIME 上的得分穩(wěn)步提高,這與OpenAI o1 提出推理縮放規(guī)律是一致的,由此也可以說(shuō)明推理縮放具有巨大的潛力

DeepSeek-R1-Lite-Preview實(shí)測(cè)

實(shí)時(shí)透明的思維過(guò)程!讓你清清楚楚地看到AI的思考過(guò)程,不再是黑盒!

我測(cè)試了幾個(gè)經(jīng)典問(wèn)題:

9.11和9.8哪個(gè)大?

9.12和9.9哪個(gè)大?

單詞 “strawberry”(草莓)有幾個(gè)r?

單詞'blueberrycherryberrycarbonpherry'?有幾個(gè)r?

回答全都是一次性正確,并且實(shí)時(shí)的展示出了思考的過(guò)程

令我印象非常深刻,如果我沒(méi)記錯(cuò),這是我第一次在大模型上測(cè)試這些經(jīng)典問(wèn)題全部一次性答對(duì),大家可以自己去試試

開(kāi)源模型和API即將推出!DeepSeek-R1-Lite 目前仍處于迭代開(kāi)發(fā)階段,僅支持網(wǎng)頁(yè)使用,暫不支持 API 調(diào)用。DeepSeek-R1-Lite 所使用的也是一個(gè)較小的基座模型,無(wú)法完全釋放長(zhǎng)思維鏈的潛力。正式版 DeepSeek-R1 模型將完全開(kāi)源,公開(kāi)技術(shù)報(bào)告,部署API

各路網(wǎng)友都在向OpenAI喊話,趕緊放出o1完整版,deepseek太強(qiáng)了,超出了想象

DeepSeek-R1-Lite-Preview現(xiàn)在就可以使用

現(xiàn)在就可以用,每天50個(gè)額度! http://chat.deepseek.com

最后說(shuō)一句:真心覺(jué)得deepseek太牛皮了,這是在別人限制我們情況下做出來(lái)的,國(guó)產(chǎn)之光!


Tags:
相關(guān)推薦
免責(zé)聲明
本文所包含的觀點(diǎn)僅代表作者個(gè)人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對(duì)本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險(xiǎn),讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前,請(qǐng)務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對(duì)因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢(qián)損失負(fù)任何責(zé)任。

熱門(mén)文章