騰訊發最大開源MoE模型,3890億參數免費可商用,跑分超Llama3.1
騰訊拿出看家本領,來擠開源賽道,突然發布了市面上最大的開源MoE模型。
Hunyuan-Large,3890億總參數,520億激活參數。
跑分超過Llama 3.1 405B等開源旗艦,上下文長度支持也高出一檔來到256k。

雖然Hunyuan-Large還不算騰訊內部的旗艦模型,但騰訊介紹底層技術與混元大模型“同宗同源”:
很多細節都是內部業務打磨好再開源出來的,比如用到了騰訊元寶App的AI長文閱讀等功能里。
現在這樣的一個模型徹底開源,免費可商用,算是很有誠意了。

這次騰訊Hunyuan-Large總共開源了三個版本:預訓練模型、微調模型、FP8量化的微調模型。
在開源社區掀起一陣熱議,HuggingFace首席科學家Thomas Wolf墻裂推薦并總結了幾個亮點。
數學能力很強用了很多精心制作的合成數據深入探索了MoE訓練,使用共享專家、總結了MoE的Scaling Law。
各路開發者中,有立馬開始下載部署的動手派,也有人希望騰訊入局后,開源模型卷起來能迫使Meta造出更好的模型。
這次騰訊同步發布了技術報告,其中很多技術細節也引起討論。
如計算了MoE的Scaling Law公式,C ≈ 9.59ND + 2.3 ×108D。
又比如用交叉層注意力節省KV緩存的內存占用。

下面送上發布會現場演講和技術報告精華內容總結。
Hunyuan-Large技術報告MoE的Scaling Law直接上公式:
C ≈ 9.59ND + 2.3 × 108D
其中C表示計算預算(單位FLOPs),N表示激活參數數量,D表示訓練數據量(單位tokens)。
與傳統密集模型的計算預算公式C=6ND相比,MoE模型公式的差異主要體現在兩個方面:
一是系數從6增加到9.59,反映了MoE額外的路由計算開銷,包含專家切換的計算成本。
二是增加了常數項2.3×108D,反映了長序列MoE模型attention計算的額外開銷。
為了確定最優激活參數量,團隊投入大量成本展開實驗:
訓練一系列激活參數范圍從10M到1B的模型,使用最高1000億tokens的訓練數據,覆蓋100億到1000億tokens的不同數據規模。
使用isoFLOPs曲線,在固定計算預算下尋找最優點,同時考慮實際訓練batch size的影響,分析不同參數量和數據量的組合,計算得出最優激活參數量約為58.1B。
而最終Hunyuan-Large選擇了52B的激活參數量,主要考慮到最優點附近曲線平滑,在58.1B附近有較大容差空間,以及計算資源約束、訓練穩定性要求和部署效率平衡等實踐因素。

除了揭秘最優參數配比,技術報告中還詳解了Hunyuan-Large獨特的”MoE心法”。
混合路由策略:
Hunyuan-Large采用共享專家(shared expert)和特殊專家(specialized experts)相結合的混合路由。
每個token激活1個共享專家和1個專門專家,共享專家處理所有token的通用知識,而特殊專家則用top-k路由策略動態激活,負責處理任務相關的特殊能力。
回收路由策略:
傳統MoE常因專家超載而丟棄過多tokens。Hunyuan-Large設計了專家回收機制,保持相對均衡的負載,充分利用訓練數據,保證模型的訓練穩定性和收斂速度。

專家特定學習率適配策略:
不同專家承載的tokens差異巨大,應設定不同學習率,如共享專家使用較大的學習率,確保每個子模型有效地從數據中學習并有助于整體性能。
高質量合成數據混元團隊開發了一套完整的高質量數據合成流程,主要包括四個步驟:指令生成、指令進化、回答生成和回答過濾。

在指令生成階段,混元團隊使用高質量的數據源作為種子,覆蓋多個領域和不同復雜度,確保指令的多樣性和全面性。
接下來是指令演化階段,通過提升指令的清晰度和信息量,擴充低資源領域的指令,并逐步提升指令的難度,使得指令更加豐富、精準和具有挑戰性。
在回答生成階段,混元團隊采用專門的模型針對不同領域生成專業的答案。這些模型在規模和設計上各有不同,以確保生成的回答能夠滿足不同領域的要求。
最后是回答過濾階段,混元團隊采用critique模型對生成的回答進行質量評估,并進行自一致性檢查,以確保輸出的答案是高質量的。
通過這四步合成流程,混元團隊能夠生成大量高質量、多樣化的指令-回答數據對,為MoE模型的訓練提供了豐富、優質的數據支持。
這種數據合成方法不僅提高了模型的訓練效率,也極大地促進了模型在多種下游任務上的表現。
長文能力優化為了實現強大的長文本處理能力,混元團隊在訓練過程中采用了多項策略。
首先是分階段訓練,第一階段處理32K tokens的文本,第二階段將文本長度擴展至256K tokens。在每個階段,都使用約100億tokens的訓練數據,確保模型能夠充分學習和適應不同長度的文本。
在訓練數據的選擇上,25%為自然長文本,如書籍、代碼等,以提供真實的長文本樣本;其余75%為普通長度的數據。這種數據組合策略確保了模型在獲得長文理解能力的同時,也能保持在普通長度文本上的基礎處理能力。
此外,為了更好地處理超長序列中的位置信息,混元團隊對位置編碼進行了優化。他們采用了RoPE位置編碼方法,并在256K tokens階段將base frequency擴展到10億。這種優化方式能夠有效地處理超長序列中的位置信息,提升模型對長文本的理解和生成能力。
除了在公開數據集上進行評測,混元團隊還開發了一個名為”企鵝卷軸”的長文本評測數據集。
“企鵝卷軸”包含四個主要任務:信息抽取、信息定位、定性分析和數值推理。

不同于現有的長文本基準測試,”企鵝卷軸”有以下幾個優勢:
數據多樣性:”企鵝卷軸”包含了各種真實場景下的長文本,如財務報告、法律文檔、學術論文等,最長可達128K tokens。任務全面性:數據集涵蓋了多個難度層次的任務,構建了一個全面的長文本處理能力分類體系。對話數據:引入了多輪對話數據,模擬真實的長文本問答場景。多語言支持:提供中英雙語數據,滿足多語言應用需求。推理加速優化為了進一步提升Hunyuan-Large的推理效率,混元團隊采用了多種優化技術,其中最關鍵的是KV Cache壓縮。
主要結合了兩種方法:GQA(Grouped-Query Attention)和CLA(Cross-Layer Attention)。
GQA通過設置8個KV head組,壓縮了head維度的KV cache;而CLA則通過每2層共享KV cache,壓縮了層維度的內存占用。
通過這兩種策略的組合,混元MoE模型的KV cache內存占用降低了約95%,而模型性能基本保持不變。這種顯著的內存優化不僅大幅提升了推理效率,也使得模型更易于部署,適配各種實際應用場景。

預訓練的基礎上,混元團隊采用了兩階段的后訓練策略,包括監督微調(SFT)和人類反饋強化學習(RLHF),以進一步提升模型在關鍵領域的能力和人類對齊程度。
在SFT階段,混元團隊使用了超過100萬條高質量數據,覆蓋了包括數學、推理、問答、編程等多個關鍵能力領域。為了確保數據的高質量,團隊采用了多重質量控制措施,包括規則篩選、模型篩選和人工審核。整個SFT過程分為3輪,學習率從2e-5衰減到2e-6,以充分利用數據,同時避免過擬合。
在RLHF階段,混元團隊主要采用了兩階段離線和在線DPO結合。離線訓練使用預先構建的人類偏好數據集,以增強可控性;在線訓練則利用當前策略模型生成多個回復,并用獎勵模型選出最佳回復,以提高模型的泛化能力。
同時,他們還使用了指數滑動平均策略,緩解了reward hacking問題,確保了訓練過程的平穩和收斂。
One More Thing在發布會現場,騰訊混元大模型算法負責人康戰輝還透露,Hunyuan-Large之后,還會考慮逐步開源中小型號的模型,適應個人開發者、邊緣側開發者的需求。

另外騰訊同期開源的3D大模型可移步這里了解。
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。