首頁 > AI資訊 > 最新資訊 > 昇騰助力DeepSeek,開啟大模型新時代

昇騰助力DeepSeek,開啟大模型新時代

新火種    2025-03-20

2024年12月26日,國內一支成立僅一年多的 AI 團隊推出了名為 DeepSeek V3 的模型,它在 14.8 萬億高質量 token 上進行預訓練,還通過監督微調和強化學習進一步提升性能。

相較于其五個月前發布的版本,此次采用了多頭潛在注意力 (MLA)和 MoE 架構,引入無輔助損失的負載均衡策略和多 token 預測訓練目標,實現了高效推理和低成本訓練。

僅僅一個月后,該團隊又發布了新模型 DeepSeek R1,它僅用相當于 OpenAI o1 三十分之一的成本卻達到了比肩其性能,并且以開源形式公開思維鏈,這一下子讓 DeepSeek 火爆全球。

DeepSeek 的變革力量

就好像平靜的水面突然被投入了一塊石頭,DeepSeek R1 的出現打破了基座大模型市場原本向頭部 AI 玩家聚集的格局。在它發布后,整個市場競爭和創新的速度就像被按下了加速鍵。OpenAI 宣布未來幾個月要推出免費版的 GPT - 5;阿里推出了 Qwen 2.5 - Max,谷歌也發布了 Gemini 2.0 系列模型。那些頭部的 AI 玩家為了保持領先優勢,紛紛加大技術投入,像 Meta 創始人扎克伯格預計 2025 年在 AI 領域至少投入 600 - 650 億美元,而谷歌的 AI 投資也會從 525 億美元增加到 750 億美元。

從國內四大云廠商和三大運營商積極接入 DeepSeek,到 B 端市場眾多企業的加快接入,我們能看到一幅熱鬧的場景。據數據顯示,自 DeepSeek R1 發布后,短短 20 天內,國內外就已有 160 多家企業接入,華為、榮耀、OPPO、vivo 等手機廠商也紛紛在手機助手中上線 DeepSeek 智能體,這表明 DeepSeek 推動了更多大模型應用在各個行業中涌現,加速了應用創新的腳步。

DeepSeek 在用戶數量上的增長就像火箭升空一樣迅速。2月1日,它的日活躍用戶數突破 3000 萬大關,刷新全球最快達成 3000 萬日活用戶的榜單。到了2月8日,全球日活用戶總量達到 1.19 億,讓它成為大模型在消費市場普及的又一關鍵轉折點,加速了大模型在普通消費者中的廣泛應用。

而這一系列變革的背后,是 DeepSeek 通過在模型結構、計算通信、后訓練和推理等方面進行極致的工程優化,提高了算力利用率,使得模型訓練效率提升了2~3倍,推理效率提升了5~7倍,而且整體訓練成本降低60%的同時,模型性能還提升了20%。

昇騰——DeepSeek的最優伙伴

其實在 2024 年,昇騰團隊就在研究并行解碼技術,這和 DeepSeek V3/R1 的多頭潛在注意力機制正好契合。在 Deepseek - V3 上線開源后,昇騰、硅基流動與 DeepSeek 團隊多次交流探討聯合創新。

隨后,昇騰成為業界首個適配完成 DeepSeek 核心算法,支持 DeepSeek 全系模型預訓練及微調的國內 AI 訓練平臺,也是唯一一個從預訓練到微調全流程適配的平臺。

目前已有 80 多家企業基于昇騰快速適配并上線了 DeepSeek 系列模型,還有 20 多家正在適配測試,預計未來兩周全部完成上線,國內約 70% 的企業選擇基于昇騰快速上線 DeepSeek。

昇騰聯合伙伴/客戶,推出形態豐富的產品和解決方案(如:一體機、云服務、硬件+開源社區等)幫助企業快速部署,已覆蓋互聯網、金融、運營商、政務、教育等多個行業。其中,昇騰DS一體機超大系統吞吐,超高多用戶并發,30+軟硬件伙伴選擇昇騰推出一體機方案。

在訓練方面,昇騰超節點可以完美支持 DeepSeek 全系模型的預訓練和微調。它支持 DualPipe、跨節點 All2All 等 DeepSeek 核心優化技術,其超大帶寬通信域與 DeepSeek 的流水線并行算法及冗余專家等能力非常匹配,對于 DeepSeek R1 這種強化學習 RL 模型來說,昇騰超節點是絕佳的解決方案。

推理上,DeepSeek 小專家創新架構在帶來便利的同時,也會產生通信耗時和專家負載不均等挑戰,但昇騰平臺通過并行推理優化技術和專家負載均衡能力,讓 DeepSeek 模型推理吞吐性能提升 30% 以上。它采用偽 EP 混合并行算法使通信優化性能提升 30% 以上,運用稀疏路由稠密化算法讓訪存性能提升 20% 以上,把專家不均衡度降低,讓推理吞吐性能提高了 20%~35%。

昇騰是一個開放的 AI 基礎軟硬件平臺,有一套完備的全棧產品體系,包括 Atlas 系列硬件、異構計算架構 CANN、全場景 AI 框架昇思 MindSpore、昇騰應用使能以及一站式開發平臺 ModelArts 等。到 2024年12月31日,昇騰已經有超過 60 家硬件合作伙伴、330 多萬開發者、2500 多家行業合作伙伴,一起孵化了 150 多個昇騰原生硬件產品和超過 5800 個解決方案。

而且,已有 30 多家軟硬件伙伴基于昇騰推出 DeepSeek 一體機方案,昇騰一體機是支持 DeepSeek 系列模型快速上線和支撐客戶生產系統的“最優選擇”。同時,昇騰還在助力 20 多個省、25 個城市的公共算力服務平臺部署 DeepSeek 系列模型,讓全國超 70% 的區域能獲得本地支持。

ChatGPT 曾是大模型從技術研發走向產業應用的轉折點,而如今 DeepSeek 則成為了第二個重要的拐點。

在 2025 年,我們將見證大模型技術競爭更加白熱化,并且會有更多精彩的大模型應用在產業和消費市場不斷涌現,而昇騰也將憑借與 DeepSeek 的完美結合,在這場人工智能的浪潮中發揮重要作用。

相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章