国内高清久久久久久,欧美在线黄,狼色精品人妻在线视频免费

首頁 > AI資訊 > 最新資訊 > 李飛飛團(tuán)隊(duì)“50美元”復(fù)現(xiàn)DeepSeekR1真相：基座為阿里云Qwen模型

李飛飛團(tuán)隊(duì)“50美元”復(fù)現(xiàn)DeepSeekR1真相：基座為阿里云Qwen模型

科創(chuàng)板日報 2025-02-07

《科創(chuàng)板日報》2月6日訊（記者毛明江黃心怡）今日一則關(guān)于人工智能領(lǐng)域的新聞引發(fā)廣泛關(guān)注。

據(jù)報道，李飛飛等斯坦福大學(xué)和華盛頓大學(xué)的研究人員以不到50美元的云計算費(fèi)用，成功訓(xùn)練出了一個名為s1的人工智能推理模型。該模型在數(shù)學(xué)和編碼能力測試中的表現(xiàn)，據(jù)稱與OpenAI的O1和DeepSeek的R1等尖端推理模型不相上下。

這一消息無疑在AI界投下了一顆重磅炸彈，真相究竟如何？

《科創(chuàng)板日報》記者調(diào)查和采訪業(yè)內(nèi)人士后發(fā)現(xiàn)，s1模型的訓(xùn)練并非從零開始，而是基于阿里云通義千問（Qwen）模型進(jìn)行監(jiān)督微調(diào)。這意味著，s1模型的神奇“低成本”，是建立在已具備強(qiáng)大能力的開源基礎(chǔ)模型之上。

▍通義模型的“基座”作用

根據(jù)李飛飛等人的研究論文，s1模型的訓(xùn)練僅使用了1000個樣本數(shù)據(jù)。按照業(yè)內(nèi)共識，這一數(shù)據(jù)量在AI訓(xùn)練中可謂微乎其微，通常不足以訓(xùn)練出一個具備推理能力的模型。

青年AI科學(xué)家、上海交通大學(xué)人工智能學(xué)院謝偉迪副教授告訴《科創(chuàng)板日報》記者，如果仔細(xì)研究斯坦福s1的論文會發(fā)現(xiàn)，s1模型的神奇是以通義千問模型為基座進(jìn)行微調(diào)，這1000個樣本訓(xùn)練的作用更像是“錦上添花”，而非“從零開始”。

國內(nèi)某知名大模型公司CEO也向《科創(chuàng)板日報》記者表示：“從論文原文來看，所謂用50美元訓(xùn)練出新的具有推理能力的模型，實(shí)際上只是用從谷歌模型中提煉出來的1000個樣本，然后對通義千問模型進(jìn)行監(jiān)督微調(diào)。這種微調(diào)的成本確實(shí)很低，但明顯是站在既有領(lǐng)先模型的‘肩上’才能做到。”

斯坦福s1論文原文也注明模型是以阿里通義千問模型為基礎(chǔ)微調(diào)

謝偉迪指出，國內(nèi)外還有其他團(tuán)隊(duì)也聲稱用極低的成本，訓(xùn)練出了具有推理能力的新模型。但一閱讀其論文原文，就會發(fā)現(xiàn)它們無一例外都是基于通義模型作為基座進(jìn)行的。

國外多位人工智能研究者也指出，不少的“新”模型都是建立通義模型基礎(chǔ)上

“以通義千問模型作為基座，確實(shí)可以用很少的樣本數(shù)據(jù)就達(dá)到產(chǎn)生新的推理模型的效果，但如果換成其他基座模型，新模型能力卻沒有任何的提升。所以，能力真正神奇的是Qwen模型，而不是s1。 ” 謝偉迪說。

▍低成本訓(xùn)練大模型有局限，但也是方向

盡管s1模型的低成本訓(xùn)練在某種程度上展示了AI訓(xùn)練的潛力，但其局限性也不容忽視。

首先，這種低成本訓(xùn)練依賴于已有的強(qiáng)大基座模型，如阿里通義千問模型。如果沒有這樣的基座模型，低成本訓(xùn)練的效果將大打折扣。

其次，1000個樣本數(shù)據(jù)的訓(xùn)練量在大多數(shù)情況下是不夠的，尤其是在需要處理復(fù)雜任務(wù)的場景中。

此外，低成本訓(xùn)練的成功也引發(fā)了對AI模型知識產(chǎn)權(quán)和倫理問題的討論。如果越來越多的研究依賴于已有的基座模型進(jìn)行微調(diào)，那么這些基座模型的開發(fā)者是否應(yīng)該獲得相應(yīng)的回報？如何確保AI技術(shù)的公平使用和共享？這些問題都需要業(yè)界進(jìn)一步探討和解決。

盡管s1模型的低成本訓(xùn)練引發(fā)了爭議，但其背后的研究思路無疑為AI領(lǐng)域提供了新的思考方向。

武漢人工智能學(xué)院一位資深研究人員向《科創(chuàng)板日報》記者表示，如何在保證模型性能的前提下，降低訓(xùn)練成本，是AI研究的一個重要課題。未來，隨著技術(shù)的進(jìn)步和算法的優(yōu)化，或許我們真的能夠看到更多低成本、高性能的AI模型問世。

Tags:

大模型阿里真相

相關(guān)推薦

免責(zé)聲明: 本文所包含的觀點(diǎn)僅代表作者個人看法，不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。交易和投資涉及高風(fēng)險，讀者在采取與本文內(nèi)容相關(guān)的任何行動之前，請務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。

李飛飛團(tuán)隊(duì)“50美元”復(fù)現(xiàn)DeepSeekR1真相：基座為阿里云Qwen模型

突發(fā)｜剛加入Anthropic的OpenAI聯(lián)創(chuàng)JohnSchulman，又離職了！

網(wǎng)易有道全面擁抱DeepSeek-R1，推理大模型加速個性化教學(xué)升級

革新疾病預(yù)測：釋放AI和機(jī)械模型的力量

【午報】創(chuàng)業(yè)板指低開高走漲超2%，DeepSeek概念延續(xù)強(qiáng)勢，AI端側(cè)方向全線爆發(fā)

【明日主題前瞻】英偉達(dá)機(jī)器人跳APT舞驚艷全網(wǎng)，行業(yè)有望迎來爆發(fā)奇點(diǎn)

熱門文章