首頁 > AI資訊 > 最新資訊 > DeepSeek-V3低調發布后業內震驚之余再次懷疑硅谷模式

DeepSeek-V3低調發布后業內震驚之余再次懷疑硅谷模式

財聯社馬蘭    2025-03-26

3月25日訊(編輯 馬蘭)中國人工智能初創公司DeepSeek周一悄然發布了新的模型,這款參數達6850億個的模型被稱為DeepSeek-V3-0324,在沒有任何公告的情況下在AI存儲庫Hugging Face上線,但仍引起了業內的轟動。

這款模型已經取得了MIT許可證,也就意味著其可以被自由用于商業用途,且業內的早期測試證實,該模型可以直接在消費級硬件上運行,比如高端市場的蘋果Mac Studio。

AI 研究員Awni Hannun表示,新的DeepSeek-V3模型可以在配備M3 Ultra芯片的蘋果電腦上,以每秒20個token的速度運行。這打破了業界關于人工智能模型能力與本地化運行或沖突的早前共識,也意味著數據中心并不是大模型的必要搭配。

另一名人工智能研究員Xeophon則在X上宣稱,在內部工作臺上測試了新版DeepSeek-V3后,發現它在測試的所有指標上都有了巨大飛躍。它現在是最好的非推理模型,超越了甲骨文的Claude Sonnet 3.5。

低調但轟動

DeepSeek-V3-0324面世時沒有附帶白皮書,也沒有任何宣傳,只有一個空的ReadMe文件。這一近乎樸素的發布形式,與硅谷精心策劃的產品宣傳模型形成鮮明對比。

與此同時,DeepSeek的模型都是開源模型,可供任何人免費下載和使用,與最好商業模型之一的Claude Sonnet截然相反,后者按月收取20美元的費用。

此外,DeepSeek還從根本上重新構想了大型語言模型的運作方式,在特定任務期間僅激活約370億個參數而非全部,也就是所謂的“專家”模塊,這大大降低了計算需求。

該模型還有另外兩項突破性技術:多頭潛在注意力(MLA) 和多標記預測(MTP)。MLA增強了模型在長篇文本中保持上下文的能力,而MTP每一步生成多個標記,而不是通常的一次生成一個標記的方法。這些創新共同將輸出速度提高了近 80%。

某種程度上,DeepSeek體現了中國企業對效率和資源極致追求的精神,即如何以有限的計算資源實現相等或者更加優化的性能。而這種由需求驅動的創新已經使中國的人工智能在幾個月時間內震驚了全球。

DeepSeek新模型的改變對于業內來說也具有重大意義,一方面其大大降低了大模型的能耗及計算成本,進一步動搖了華爾街對于頂級模型基礎設施的投資規模假設;另一方面,中國人工智能行業對開源的廣泛共識又迅速推動國內AI行業的發展,不斷縮短其與世界頂尖對手的距離。

還有人認為,在DeepSeek的快速追趕下,其計劃在4月發布的R2模型有可能直接挑戰OpenAI宣傳已久的GPT-5模型。如果這一前景真的發生,那么中美兩國發展人工智能的不同思路可能將迎來直接的交鋒。

相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章