加速大模型多維度創(chuàng)新DeepSeek為AI產(chǎn)業(yè)帶來新浪潮與新機(jī)遇
2025年開年,DeepSeek就向AI市場投入了一枚重磅炸彈(包括基座模型DeepSeek V3、推理模型R1、多模態(tài)模型JanusPro)。憑借工程創(chuàng)新,利用多項技術(shù)優(yōu)化訓(xùn)練、推理,降低大模型開發(fā)、部署成本,并通過開源策略降低了行業(yè)門檻,加速了技術(shù)迭代和生態(tài)建設(shè)。
如果用一句話來概括就是DeepSeek加速了AI普惠,多維度創(chuàng)新助力行業(yè)發(fā)展。
DeepSeek讓行業(yè)與企業(yè)在結(jié)合大模型進(jìn)行業(yè)務(wù)、產(chǎn)品創(chuàng)新時投入成本更低,且?guī)淼捏w驗更出色。從1月份開始,包括行業(yè)解決方案、終端設(shè)備、汽車以及云服務(wù)等各個領(lǐng)域均有多家企業(yè)宣布接入DeepSeek,還有大批用戶即使受限于“服務(wù)器繁忙”也在緊跟這股熱潮。可以說,DeepSeek從模型、平臺、基礎(chǔ)設(shè)施、應(yīng)用及商業(yè)化落地等多個層面為AI產(chǎn)業(yè)帶來新浪潮、新機(jī)遇。
日前,IDC公布了最新報告《IDC Market Glance: 中國生成式AI市場概覽, 1Q25》,圍繞模型層、平臺層、基礎(chǔ)設(shè)施層、應(yīng)用層來分析DeepSeek爆火后對于大模型與生成式AI市場生態(tài)帶來的潛在影響。
在模型層,DeepSeek為基礎(chǔ)大模型開啟另一開發(fā)新范式,引入多令牌預(yù)測(MTP)技術(shù)可在訓(xùn)練、推理過程中降低對算力的需求,提升效率;采用FP8精度進(jìn)行訓(xùn)練,并成功構(gòu)建混合專家模型,通過高效的“門控網(wǎng)絡(luò)”實現(xiàn)令牌的路由,進(jìn)一步削減推理成本;多頭潛在注意力機(jī)制(MLA)降低KV緩存需求,減少了硬件資源消耗;DeepSeek還通過開發(fā)內(nèi)部工具生成訓(xùn)練數(shù)據(jù),并使用“蒸餾”技術(shù)(去噪、降維、提煉等)進(jìn)一步壓縮計算資源;DeepSeek在模型訓(xùn)練中廣泛應(yīng)用強(qiáng)化學(xué)習(xí)技術(shù),通過試錯機(jī)制和環(huán)境反饋優(yōu)化模型的決策能力,特別是在推理和復(fù)雜問題解決方面。
還有一點十分關(guān)鍵,DeepSeek將包括代碼和模型權(quán)重在內(nèi)的技術(shù)開源,在降低用戶體驗大模型門檻的同時,也吸引了開發(fā)者,有利于技術(shù)迭代和生態(tài)局建設(shè)。
經(jīng)過IDC分析師初步試驗,DeepSeek R1在數(shù)學(xué)、推理、代碼任務(wù)上不乏優(yōu)勢,但其性能并非在所有任務(wù)及指標(biāo)上均領(lǐng)先。從短期來看,未來無論是開源還是商業(yè)的基礎(chǔ)大模型還會進(jìn)行進(jìn)一步的差異化競爭,國內(nèi)外大模型的生成效果差距會趨于收斂。從長期來看,NLP大模型會朝著經(jīng)濟(jì)高效、上下文準(zhǔn)確、高質(zhì)量、安全可靠演進(jìn),技術(shù)供應(yīng)商需要在成本、不同任務(wù)與應(yīng)用領(lǐng)域的生成質(zhì)量、用戶體驗及安全性等多方面尋找產(chǎn)品差異化優(yōu)勢。
IDC在報告中還提到,從2024年以來,隨著大模型基礎(chǔ)能力的提升,以及應(yīng)用形態(tài)的不斷創(chuàng)新,連接大模型和應(yīng)用側(cè)的平臺產(chǎn)品演變出現(xiàn)了多種形式,預(yù)計未來大模型平臺會分化成底層平臺以及智能體開發(fā)平臺等產(chǎn)品。
平臺層產(chǎn)品往往跟模型層深度綁定,使得大模型更加易用、普惠。隨著大模型的日益普及,平臺中多種模型選擇、如何將大模型高效且可靠地部署于生產(chǎn)環(huán)境,已成為當(dāng)前備受矚目的核心議題。當(dāng)前,全球技術(shù)供應(yīng)商如英偉達(dá)、微軟、英特爾、AMD、AWS以及國內(nèi)技術(shù)供應(yīng)商如阿里云、百度智能云、華為云、騰訊云、火山引擎、京東云、天翼云、用友、360、云軸科技等已接入了DeepSeek模型。
同時,大模型的部署過程需同時滿足高并發(fā)與低延遲的嚴(yán)苛要求,并需全面考量數(shù)據(jù)安全、隱私保障、資源彈性擴(kuò)展以及系統(tǒng)維護(hù)等多重因素,DeepSeek推出了多種部署模式許可也挑戰(zhàn)了全球大模型技術(shù)提供商的主要商業(yè)化方法,目前推出的方式有云端部署、本地及內(nèi)網(wǎng)部署、邊緣部署、混合部署、容器化/微服務(wù)部署,以及聯(lián)邦部署模式等。
DeepSeek一系列技術(shù)創(chuàng)新與開源策略對于算力影響最為直接,降低了單位算力需求,讓企業(yè)及行業(yè)除“大力出奇跡(大規(guī)模投入算力資源)”路徑外,還可以嘗試“四兩撥千斤”,配合算法、框架等軟硬件協(xié)同創(chuàng)新,引發(fā)行業(yè)對算力的重新思考。另外,DeepSeek也會增加大模型應(yīng)用與落地,驅(qū)動更多企業(yè)部署AI、將AI融入業(yè)務(wù)流程,必然會帶來總體算力需求增長,而且在Scaling Law技術(shù)路線仍舊有效的情況下,“卷算力”也會給基礎(chǔ)設(shè)施層面帶來新機(jī)遇。例如埃隆·馬斯克旗下人工智能公司xAI最新發(fā)布的AI大模型產(chǎn)品——Grok 3,在20萬個GPU上進(jìn)行訓(xùn)練,只用了214天就完成構(gòu)建。根據(jù)官方公布的測試數(shù)據(jù),Grok-3和Grok-3 mini在數(shù)學(xué)、科學(xué)、代碼等領(lǐng)域的性能都超過或媲美Gemini、DeepSeek和ChatGPT等大模型。
DeepSeek創(chuàng)新帶來的一系列優(yōu)勢將助力打造更廣泛的應(yīng)用場景,加速商業(yè)化落地。IDC指出,大模型的更新升級將有助于加速應(yīng)用場景的創(chuàng)新及商業(yè)化落地,未來無論是面向個人生產(chǎn)效率提升的應(yīng)用,還是面向企業(yè)業(yè)務(wù)與行業(yè)場景的商業(yè)化落地都將會是今年市場關(guān)注的重點。
IDC中國研究經(jīng)理程蔭表示,DeepSeek引領(lǐng)基礎(chǔ)大模型開啟另一開發(fā)新范式——以一系列降低成本與復(fù)雜性的創(chuàng)新優(yōu)化技術(shù)、手段,降低門檻,未來差異化競爭的結(jié)果是NLP大模型的進(jìn)一步更新升級,軟件及硬件供應(yīng)商應(yīng)提供多模型選擇、高效且可靠地部署方式的大模型開發(fā)平臺或應(yīng)用開發(fā)工具,并進(jìn)行軟硬件協(xié)同創(chuàng)新。2025年產(chǎn)業(yè)界也更加關(guān)注大模型和生成式AI的落地,整個生態(tài)系統(tǒng)應(yīng)通力合作加速應(yīng)用場景的創(chuàng)新及商業(yè)化。
- 免責(zé)聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認(rèn)可。 交易和投資涉及高風(fēng)險,讀者在采取與本文內(nèi)容相關(guān)的任何行動之前,請務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。