DeepSeek打響第一槍現在輪到國產芯片跟上了|萬有AI力
“春節期間我們都在忙碌,好不容易盼來一個這么優秀的模型,沒有比這更有意義的春節了。” 開源中國董事長馬越告訴第一財經,開源中國旗下一站式大模型托管平臺Gitee AI在DeepSeek-R1火出圈后迅速與多家國產芯片廠商推進了模型適配工作。
而DeepSeek的沖擊波也直接傳遞給了大洋彼岸的英偉達。英偉達1月27日美股股價暴跌后,近日開始有所反彈,但股價仍未站上暴跌前的140美元/股的高點。當地時間2月11日,英偉達收132.8美元/股,2月起英偉達股價經歷數日反彈,市值也重新站上3萬億美元,但股價仍未消化完1月27日暴跌的影響。市場之所以對英偉達的“信仰”產生一定動搖,背后隱藏著AI算力需求減少的擔憂。
國產芯片同期罕見紛紛主動發聲:完成DeepSeek模型適配的包括昇騰、沐曦、壁仞、龍芯、天數智芯、摩爾線程、海光信息、燧原科技、云天勵飛、昆侖芯等芯片公司。“國產開源模型已經出圈,國產算力也要跟著一起出圈。” 馬越覺得,國產芯片適配DeepSeek的邏輯是要讓這個模型能跑在國產硬件上。
極致壓榨算力
DeepSeek到底有沒有繞過芯片硬件算力限制?是否部署大規模算力不再必要?英偉達股價暴跌后國產芯片積極適配DeepSeek,又是否意味著國產芯片開始反擊英偉達?
從能跑最熱的開源模型,到拿下更多AI市場的份額,國產芯片可能還無法一蹴而就。沐曦CTO楊建告訴記者,大模型后訓練部分預計今年會有更多非英偉達卡加入,DeepSeek推動的大模型私有化部署,對國產芯片而言也是機會。
至于DeepSeek對芯片硬件算力潛力的挖掘是否意味著高性能英偉達GPU需求減少,業內人士則有不同看法。
鑒于DeepSeek-V3訓練預算低至“2048個GPU、2個月、近600萬美元”,業界認為,能力比肩OpenAI o1的DeepSeek-R1模型訓練成本可能也很低。這意味著大模型訓練不一定需要使用大量英偉達GPU。DeepSeek的技術報告也引起了一些討論,例如大模型團隊對芯片硬件算力的深度挖掘,或提供了一條低成本、可繞開芯片算力限制的路線。DeepSeek使用了諸多方法挖掘了既有芯片的潛在算力。
驚嘆過后,AI業界和學界的分析趨于冷靜。DeepSeek對既有芯片潛在算力的挖掘到什么樣的程度、還能不能繼續挖掘,成為討論的焦點。近日清華、復旦、上海交通大學計算機領域的學者就DeepSeek的技術和影響展開了一場線上討論。清華大學計算機系教授翟季冬在討論中進行了解釋,舉個例子,DeepSeek團隊精細化編排了計算和通信以降低通信開銷,為此提出一種流水線并行算法,意在通過精細控制分配給計算和通信的GPU SM(流處理器)數量,實現計算和通信完全重疊。這種做法提高了GPU資源的利用率。為了實現優化目標,該團隊在控制SM使用時就用了PTX。
“幾乎所有深度學習或大模型算法工程師都不會接觸到PTX這一層,而PTX實際上是直接和底層硬件發生交互,如果你能用PTX,就可以對底層硬件進行更好的編程和調用。”上海交通大學副教授、無問芯穹聯合創始人戴國浩表示,DeepSeek在算法、模型、硬件確定的情況下優化了軟件,通過PTX語言優化讓系統和模型釋放底層硬件性能。
戴國浩認為,此前業內做優化曾主要聚焦算法精度,后來又關注到軟硬件協同優化,考慮了硬件約束,“但現在還必須面臨一件事,就是可能出現算力不足或資源受限的情況。如何把資源(因素)放在優化函數上?DeepSeek給了一個非常好的答案。”清華大學長聘副教授、面壁智能聯合創始人劉知遠則總結為,R1及V3帶來的重要意義在于,讓人們看到通過有限的算力資源和強大算法創新可以突破算力限制,“小米加步槍可能取得廣闊的勝利”。
一些業界人士認為,DeepSeek提出的方法論可以繼續擴大使用并產生廣泛影響。“大模型生態系統從最頂層的產品應用到底層的基礎設施,每一個層級都存在優化空間。是否有可能在每一個層級做優化,最終形成疊化,把整體優化性能做得更高?這是我們在DeepSeek論文中看到的一個方向。”戴國浩說,通過底層優化助力上層模型,這種優化工作還能被放在更多底層芯片中,在其團隊的統計中,有大約1/3的國產芯片也能通過相應的優化釋放底層硬件性能,優化后性能甚至能達3倍以上。
不過,也有芯片業界人士認為,DeepSeek團隊在底層算力優化方面已接近天花板,且相關技術難以遷移。中存算半導體董事長陳巍告訴記者,類似DeepSeek這種“壓榨”GPU算力的路徑還能繼續走下去,但繼續提升的可能性不大。
“DeepSeek AI Infra團隊的軟硬件協同設計水平可能暫時超越了大部分國際大模型企業。基本上,DeepSeek團隊對GPU性能利用率的優化已接近技術上限。”陳巍表示,DeepSeek使用的一些訓練成本優化屬于CUDA定制化技術,其他競品企業未必有類似的定制能力,例如混合精度存儲/計算屬于DeepSeek內部的定制化技術,與量化交易中的FPGA優化有原理相似之處,這類定制化技術一般難以簡單復制。
爭論之下,對于沒有算力限制的海外公司而言,立即減少算力支出似乎還沒必要。英偉達股價震蕩期間,海外云廠商并未開始減少開支。美東時間2月6日,亞馬遜宣布將在2025年投入約1000億美元用于其人工智能項目的研發。市場研究機構TechInsights發布報告稱,數據中心/云計算占據英偉達總收入的85%~90%,而頂級超大規模云服務商2025年將在AI上投資3200億美元,盡管有質疑聲,但科技巨頭投資不減。
雖然大模型訓練算力需求是否減少仍有爭議,但推理算力需求增大目前存在更多共識。TechInsights表示,DeepSeek-R1引發熱議后,人工智能的前景是從訓練轉向推理。英偉達此前的回應也提及,DeepSeek等人工智能公司的推理過程需要大量的英偉達GPU和高性能網絡,DeepSeek的成功表明市場對英偉達芯片的需求依然強勁。
國產算力如何切入
國產芯片近期聲量頗高。
在各家芯片廠商的描述中,適配DeepSeek模型所需時間短則一兩天乃至幾個小時。天數智芯相關人士告訴記者,春節期間DeepSeek成為行業焦點,公司判斷R1開源可能會帶來更大算力需求,開發者基于R1進行二次開發和優化訓練也需要算力支持,公司與合作伙伴爭分奪秒推進了DeepSeek模型的適配與上線。
馬越告訴記者,國產開源模型出圈對國產算力起到“倒逼”的作用,之所以適配速度較快,有DeepSeek優先級較高的原因。也有芯片廠商內部人士告訴記者,適配DeepSeek難度不算大,因為適配的是DeepSeek模型的推理應用而非訓練。
國產大模型出圈給了國產算力激勵。
天數智芯相關人士告訴記者,DeepSeek采用自強化學習優化算法等技術,為契合這些獨特算法,芯片廠商會優化硬件架構、改進指令集,提升芯片對復雜計算的處理效率,并優化內存管理、數據傳輸等以適配模型結構。國產模型取得突破是加快國內“模型+系統+芯片”閉環形成的一個機會,國產模型性能提升能吸引更多國內系統和芯片廠商合作,芯片廠商也會為了支持國產模型而研發更適配的芯片。相比閉源模型,開源讓不同芯片適配模型的機會增加。
“DeepSeek做了非常好的一環,已經使國內模型超越或在某些場景超越海外模型,打響了第一槍。現在國外芯片、模型和系統已經形成一套完備的閉環生態,未來國內也會形成這樣的閉環。”戴國浩表示。
上海人工智能研究院數字經濟研究中心資深咨詢顧問于清揚提到DeepSeek對國產芯片的促進。“DeepSeek通過強化學習機制將模型的無效訓練降低60%,對并行計算的需求較傳統架構降低40%,使國產芯片在特定計算任務中的能效比可達英偉達GPU的75%。” 于清揚表示,盡管仍面臨算力依賴和泛化能力的挑戰,DeepSeek的創新模式已初步證明算法創新可突破算力瓶頸,美國通過A100/H100禁運遏制我國發展的策略加速失效伴隨華為昇騰910B等國產芯片在性能和能效方面的持續優化,未來或將大幅降低國內企業對進口芯片的依賴。
楊建則看到DeepSeek推動國產芯片在私有化部署領域的機會。他告訴記者,以往大模型微調、蒸餾的方法比較少,而R1不用SFT(監督微調)、LoRA這種微調的方法,只通過強化學習技術就讓模型性能涌現,且這個方法的成本還非常低,這個方法也能用到DeepSeek之外的模型上。
一般而言,蒸餾技術可以將“教師模型”的能力注入參數量較小的“學生模型”中,蒸餾技術越好,“學生模型”的能力就有可能越強,而參數量較小的模型較適合私有化部署。楊建認為,DeepSeek的方法會促進大模型在垂直領域落地,DeepSeek促使的大模型應用端爆發,將會從私有化部署領域開始。“2025年國產GPU的一個機會在于私有化部署,基本上這個市場會以大模型后訓練和推理為主。”楊建告訴記者,基于英偉達應用于AI領域的GPU進入國內市場的方式,英偉達卡在零售市場上基本消失了,而私有化部署較依賴零售市場。若私有化部署市場爆發,國產卡將會有很大機會。
2月6日,DeepSeek已暫停API(接口)充值服務,DeepSeek官方解釋為服務器資源緊張。在API方式之外,作為一個開源模型,DeepSeek-R1也能由個人或企業自己部署于自有服務器上。電商平臺上近日涌現出不少做DeepSeek本地部署生意的店面,側面印證了市場對DeepSeek私有化部署的熱情。記者留意到,有以約15元單價售賣DeepSeek本地部署教程的店面已售出3000份以上商品。
楊建告訴記者,隨著海外芯片算力限制帶來的難題逼近,全球算力可能會形成兩條并行路線,逐漸脫鉤。到2026年、2027年,美國預訓練和后訓練的算力基座預計仍是英偉達,在國內則是有一部分由英偉達承擔、一部分由國產芯片承擔。其中,后訓練部分今年逐漸會有更多非英偉達卡加入,這是因為后訓練對集群要求相對較低,不太需要千卡以上集群。天數智芯相關人士也告訴記者,隨著國產模型取得突破,對國產芯片適配需求增加,今年國產芯片有較大發展機會。
DeepSeek模型的火熱也暗含著AI應用爆發的機會,芯片廠商將目光轉向AI應用所需的推理算力。“去年國內評測芯片時主要著眼訓練,將國產芯片作為英偉達訓練的替代品,2025年開始將有一個變化,即大家會逐漸看國產芯片在推理市場的機會。”楊建還表示。
差距依然巨大
國產芯片看到了機會,但反擊英偉達的過程,仍是循序漸進。一些業內人士強調了英偉達生態的護城河之高以及國產芯片目前的短板。
雖然多家芯片廠商短時間內就適配了DeepSeek模型,但馬越告訴記者,國產芯片適配開源模型的情況相比英偉達仍有差距。“開源社區HuggingFace有上百萬個開源人工智能模型,我們平臺是1萬多,這些模型都能自由流暢地運行在英偉達GPU上,但是我們合作最多、時間最長的一家國產芯片廠商,現在也只適配了500多個模型。”馬越表示。
是否容易適配基于英偉達GPU開發的DeepSeek等大模型,與芯片是否兼容CUDA有關。楊建表示,能兼容CUDA的廠商,彼此間兼容程度也有不同。有業內人士告訴記者,有對CUDA兼容程度較低的芯片廠商實際上投了上百人的團隊并花了一個多月時間才適配了DeepSeek-V3。而完成適配和優化的速度,對模型能否及時上線并進行商業轉化至關重要。
“一般情況下模型大概3~4個月就會迭代一次,如果兼容一個生態、適配一個模型需要很長時間,就意味著賺不到錢。”楊建表示,公司曾遇到連續4周都有新模型出來的情況,每周都要完成相關優化工作,每一個模型差不多要在1~2天時間內完成。
DeepSeek推出的R1和R1-Zero兩個660B參數(B即十億)的同時,也蒸餾了6個參數較小的模型給開源社區。就適配情況,陳巍告訴記者,目前國產芯片適配較多的還是蒸餾模型,實際功能可能會打折扣,對國產芯片廠商而言,較大的機會在于DeepSeek蒸餾模型后續的訓練和部署。
而在大模型預訓練方面,由于英偉達生態較完善和互聯技術較先進,一些業內人士認為目前其他芯片還難以取代英偉達。陳巍表示,若要進行參數量6000億以上超大規模模型的訓練和部署,國產芯片還面臨互聯和生態上的挑戰。訓練上,目前大模型對于高速互聯要求較高,國產芯片多數達不到英偉達的互聯性能,如果單獨讓DeepSeek團隊去支持國產芯片,該團隊就要針對整個生態做國產芯片適配,工作量大到“10個DeepSeek也不夠”。
陳巍強調,DeepSeek目前對英偉達CUDA生態仍有明顯的路徑依賴。包括做MoE(專家)模型的DeepSeek在內,市面上能看到的MoE模型絕大部分是基于CUDA生態訓練和部署, DeepSeek的成本優化技術也是基于CUDA生態的定制化技術。基本上大模型訓練和優化還是需要基于英偉達CUDA生態。
楊建也表示,全球98%的大模型訓練基于英偉達的算力,訓練離不開英偉達GPU。雖然今年更多非英偉達卡將有機會進入后訓練部分,但短期內占比也相對較低。
(文章來源:第一財經)
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。