首頁 > AI資訊 > 最新資訊 > DeepSeek發布最新技術論文!梁文鋒參與署名

DeepSeek發布最新技術論文!梁文鋒參與署名

上海證券報    2025-02-19

  2月18日,DeepSeek在海外社交平臺發布了一篇純技術論文報告,論文主要內容是關于NSA(Natively Sparse Attention,原生稀疏注意力)。據介紹,這是一種用于超快速長文本訓練與推理的、硬件對齊且可原生訓練的稀疏注意力機制。

  同時,記者注意到,在這篇論文的署名中,DeepSeek創始人梁文鋒也作為共創在列。

  DeepSeek發布最新技術論文報告

  記者注意到,在這篇《原生稀疏注意力:硬件對齊且可原生訓練的稀疏注意力機制》(Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention)的論文署名中,DeepSeek創始人梁文鋒也作為共創在列。

  根據論文摘要,DeepSeek團隊表示,業界越來越認識到長上下文建模對于下一代大型語言模型的重要性。然而,隨著序列長度的增加,標準注意力機制的高復雜度成為了關鍵的延遲瓶頸。

  據悉,NSA通過高效的長序列處理能力,使模型能夠直接處理整本書籍、代碼倉庫或多輪對話(如千輪客服場景),擴展了大語言模型在文檔分析、代碼生成、復雜推理等領域的應用邊界。

  NSA通過針對現代硬件的優化設計,在提高推理速度的同時、降低預訓練成本,而不會犧牲性能。它在通用基準測試、長文本任務和基于指令的推理中均能達到或超越全注意力模型的表現。稀疏注意力為提高效率同時保持模型能力提供了一個有前景的方向。

  一位網友評論道:“稀疏注意力機制確實能減少計算開銷,DeepSeek的NSA架構雖然新穎,但在實際部署中,還得看具體應用場景和硬件優化,不能光看瀏覽量?!?/p>

  “開源”激起AI迭代浪潮

  1月20日,DeepSeek推出了人工智能模型DeepSeek-R1。此后,DeepSeek火遍全網。

  2月18日,大模型創業公司階躍星辰開源了兩款階躍Step系列多模態大模型——Step-Video-T2V視頻生成模型和Step-Audio語音模型。階躍星辰稱,AGI的實現離不開全球開發者的共同努力,階躍星辰開源的初心,是希望跟大家分享最新的多模態大模型技術成果,為全球開源社區貢獻一份來自中國的力量。

  圍繞開源,相關生態也不斷建設與完善。

  商湯相關負責人透露,面向開發者的一站式開源Agent應用開發框架——LazyLLM即將在2025全球開發者先鋒大會亮相。據介紹,該框架以數據為核心,支持在應用開發過程中持續迭代數據,從而不斷提升數據效果。該框架也能通過精細化模塊設計和符合直覺的代碼風格,使開發者能夠更快地實現想法產品落地。

  “為更好提供價值,商湯將保持產品開放性,接入更多、更好的模型。”商湯相關負責人表示,隨著AI技術不斷迭代,AI商業化最終落腳點還是在客戶價值。如何更好服務C端和B端用戶尤為關鍵。

  技術迭代仍是大模型企業的攻關要點?!澳壳埃瑘F隊正在底層生態方面加快自主創新。團隊會加快優化‘線性注意力’機制,也將繼續打造多模態模型?!盡iniMax(上海稀宇科技有限公司)相關負責人告訴記者,高水平模型的持續開源,能夠讓更多人免費體驗到優秀大模型的技術能力,這將進一步提高AI滲透率。

  “作為一家中國的大模型公司,MiniMax將持續保持開源,也期待通過開源,讓更多開發者能夠參與打造非Transformer(轉換器)架構的底層生態?!盡iniMax相關負責人說。今年1月,MiniMax發布并開源了新一代01系列人工智能模型。該系列模型實現突破性創新,以大規模應用“線性注意力”機制突破了Transformer大模型架構的記憶瓶頸。

(文章來源:上海證券報)

相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章