國泰君安:DEEPSEEK模型降本打開AI應用產業上升通道騰訊(00700)、小米(01810)等有望受益
智通財經APP獲悉,國泰君安發布研報稱,DeepSeek實現模型大幅降本,價值有望從模型層轉移至應用層。DeepSeek成為全球DAU增速最快的AI應用,20天達成DAU 2000萬,帶來巨大的推理算力需求。推薦算力方面受益的英偉達(NVDA.US)、臺積電(TSM.US)以及應用方面受益的騰訊(00700)、小米(01810)、Meta(META.US)、谷歌(GOOGL.US)。
國泰君安主要觀點如下:
DeepSeek通過多處工程創新,實現降低訓練成本、降低推理成本、提高模型效果等進展
1)降低訓練成本:DeepSeek使用較寬的MOE架構,且提出共享專家機制,每次訓練只激活需要的專家(按需調用),而非激活全部專家,從而大大降低訓練成本。此外,使用fp8低精度訓練、雙管道訓練、多Token預測等方法進一步降低訓練成本。
2)降低推理成本:DeepSeek提出多頭潛在注意力(MLA),在不犧牲模型質量的前提下,大幅減少KV緩存的大小。此外,低精度存儲和通信、推理階段動態專家選擇等方法進一步降低推理成本。
3)提高模型效果:不同于傳統的SFT,DeepSeek使用強化學習做post-training,大幅提升模型推理能力。此外,DeepSeek針對中文做了大量風格對齊,大幅提升模型可用性。
DeepSeek觸發模型降本,長期看,打開AI應用產業上升通道,算力需求不降反增
蒸汽機效率提升并沒有導致煤炭少用,DeepSeek雖然觸發模型大幅降本,但長期看將打開AI應用產業上升通道,算力需求不降反增,因算力需求具備多樣性:1)模型向更高智能維度躍遷,訓練需要更多算力。2)AI應用的推理需要廣泛算力,更多人會去訓練和推理自己的模型。3)轉向對等異構計算的新主流計算形態需要更多GPU。4)目前模型僅僅停留在對話,未來從對話到任務、到多模態還需要更多算力加持。
根據AI產品榜,DeepSeek應用(APP,非網頁)成為增速最快的AI產品,上線20天即達成DAU 2000萬,反映出模型能力提升對于用戶的巨大吸引力,帶來潛在的巨大推理算力需求。
DeepSeek并沒有真正繞過CUDA架構
DeepSeek沒有使用CUDA的API,而是直接使用PTX,從而對計算過程進行更細粒度的控制。PTX仍然是英偉達GPU架構中的技術,是CUDA編程模型中的中間表示,用于連接CUDA高級語言代碼和GPU底層硬件指令。編寫PTX代碼的做法,首先非常復雜且難以維護,對技術人員要求極高,其次移植性較差,較難移植到不同型號的GPU。
DeepSeek基于PTX進行優化代表他們有優化其他GPU的能力,但既不意味著完全脫離了CUDA生態,也不意味著其他團隊有能力直接使用PTX,因此英偉達的CUDA護城河仍在。
風險提示:地緣政治風險;大模型迭代進展不及預期;監管風險;商業化進度不及預期。
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。