首頁 > AI資訊 > 最新資訊 > 梁文鋒參與著作!DeepSeek最新論文介紹新機制可使AI模型進一步降本增效

梁文鋒參與著作!DeepSeek最新論文介紹新機制可使AI模型進一步降本增效

科創板日報    2025-02-19

《科創板日報》2月18日訊(編輯 宋子喬) 2月18日,DeepSeek團隊發布一篇論文介紹了新的注意力機制NSA(Natively Sparse Attention,原生稀疏注意力機制)。

NSA專為長文本訓練與推理設計,能利用動態分層稀疏策略等方法,通過針對現代硬件的優化設計,顯著優化傳統AI模型在訓練和推理過程中的表現,特別是提升長上下文的推理能力,在保證性能的同時提升了推理速度,并有效降低了預訓練成本。

DeepSeek創始人梁文鋒現身論文著作者之中,在作者排名中位列倒數第二。

其他研究人員來自DeepSeek、北大和華盛頓大學,其中第一作者Jingyang Yuan(袁景陽)是在DeepSeek實習期間完成的這項研究。

資料顯示,袁景陽目前為北京大學碩士研究生。他的研究領域包括大型語言模型(LLM)、人工智能在科學中的應用(AI for Science)。他是DeepSeek-V3技術報告的主要作者之一,還參與了DeepSeek-R1項目,該項目旨在通過強化學習激勵大型語言模型的推理能力。

在論文中,DeepSeek團隊表示,隨著大型語言模型的發展,長上下文建模變得越來越重要,但傳統注意力機制的計算復雜度隨著序列長度的增加而呈平方級增長,成為制約模型發展的關鍵瓶頸。

NSA便是為高效處理長上下文任務而生的一種技術路徑,其核心創新在于:

1)動態分層稀疏策略:結合粗粒度的Token壓縮和細粒度的Token選擇,既保證全局上下文感知,又兼顧局部信息的精確性。

2)硬件對齊與端到端訓練:通過算術強度平衡的算法設計和硬件優化,顯著提升計算速度,同時支持端到端訓練,減少預訓練計算量。

實驗表明,NSA不僅在通用任務和長上下文任務中表現出色,還在鏈式推理等復雜任務中展現了強大的潛力,且推理速度加快。在通用基準測試、長文本處理以及基于指令的推理任務中,NSA的表現均能達到甚至超越傳統全注意力(Full Attention)模型的水平,其以性價比極高的方式,罕見地在訓練階段應用稀疏性,在訓推場景中均實現速度的明顯提升,特別是在解碼階段實現了高達11.6倍的提升。

通過高效的長序列處理能力,NSA使模型能夠直接處理整本書籍、代碼倉庫或多輪對話(如千輪客服場景),擴展了大語言模型在文檔分析、代碼生成、復雜推理等領域的應用邊界。例如,Gemini 1.5 Pro已展示長上下文潛力,NSA可進一步降低此類模型的訓練與推理成本。

相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章