首頁 > AI資訊 > 最新資訊 > 量化巨頭放大招!大模型性價比之王來了

量化巨頭放大招!大模型性價比之王來了

21世紀經濟報道    2024-12-28


12月26日晚,杭州深度求索人工智能基礎技術研究有限公司(簡稱“深度求索”)宣布,全新系列模型 DeepSeek-V3 首個版本上線并同步開源,API服務已同步更新,接口配置無需改動。

公開信息顯示,深度求索成立于2023年7月17日,由知名量化資管巨頭幻方量化創立,幻方量化創始人梁文峰在量化投資和高性能計算領域具有深厚的背景和豐富的經驗。

深度求索表示,DeepSeek-V3在知識類任務(MMLU, MMLU-Pro, GPQA, SimpleQA)上的水平相比前代 DeepSeek-V2.5顯著提升,接近當前表現最好的模型Anthropic公司于10月發布的Claude-3.5-Sonnet-1022。

在美國數學競賽(AIME 2024, MATH)和全國高中數學聯賽(CNMO 2024)上,DeepSeek-V3大幅超過了其他所有開源閉源模型。另外,在生成速度上,DeepSeek-V3的生成吐字速度從20TPS(Transactions Per Second每秒完成的事務數量)大幅提高至60TPS,相比V2.5模型實現了3倍的提升,能夠帶來更加流暢的使用體驗。


△ DeepSeek-V3和其他模型的比較。圖片來源:Deep Seek微信公眾號

據澎湃新聞報道,Meta AI研究科學家田淵棟對DeepSeek-V3各個方向上的進展都表示贊賞,稱“這是一項了不起的工作”。

據官方技術論文披露,DeepSeek-V3模型的總訓練成本為557.6萬美元,而GPT-4o等模型的訓練成本約為1億美元。深度求索表示,“這是一個全新的開始。”

據財聯社報道,OpenAI的聯合創始人之一Andrej Karpathy也發文稱贊道:作為參考,要達到這種級別的能力,通常需要約1.6萬個GPU的計算集群。不僅如此,當前業界正在部署的集群規模甚至已經達到了10萬個GPU。比如,Llama 3 405B消耗了3080萬GPU小時,而看起來更強大的DeepSeek-V3卻只用了280萬GPU小時。

性能更強、速度更快的DeepSeek-V3上線,幻方量化給出的定價是多少呢?

深度求索表示,“我們的模型 API 服務定價也將調整為每百萬輸入 tokens 0.5 元(緩存命中)/ 2 元(緩存未命中),每百萬輸出 tokens 8 元。”據財聯社報道,加總成本是10元人民幣。

上一代模型Deepseek-V2.5的價格是,輸入:0.14美元/百萬Token,輸出為:0.28美元/百萬Token,加總成本是0.14+0.28=0.42美元,大約3元人民幣。

這里的Token是大模型在處理數據時的最小單元,一般而言,100萬Token相當于70萬-100萬英文單詞,或接近100萬中文漢字。列夫?托爾斯泰的名著《戰爭與和平》的英文版大約是大約有1200-1500頁、58萬英文單詞,把它翻譯為中文,大約有100-130萬字,讓DeepSeek-V3讀完全文只需要2元左右。

盡管提價,但與同類型模型相比,DeepSeek-V3依舊極具性價比。比如OpenAI的GPT 4o定價相當高,輸入:5美元/百萬Token,輸出:15美元/百萬Token,加總成本是20美元,約合人民幣140元。

本文綜合DeepSeek微信公眾號、澎湃新聞、財聯社


相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章