在线天堂中文www视软件,国产乱子伦精品免费视频,夜夜爽网站

首頁 > AI資訊 > 最新資訊 > 中國最大開源MoE模型，255B參數無條件免費商用，元象發布

中國最大開源MoE模型，255B參數無條件免費商用，元象發布

新火種 2024-09-15

元象XVERSE發布中國最大MoE開源模型：

XVERSE-MoE-A36B，該模型總參數255B，激活參數36B，達到100B模型性能的「跨級」躍升。

同時訓練時間減少30%，推理性能提升100%，使每token成本大幅下降。

在多個權威評測中，元象MoE效果大幅超越多個同類模型。

包括國內千億MoE模型 Skywork-MoE、傳統MoE霸主Mixtral-8x22B 以及3140億參數的MoE開源模型Grok-1-A86B等。

MoE（Mixture of Experts）是業界最前沿的混合專家模型架構，將多個細分領域的專家模型組合成一個超級模型，打破了傳統擴展定律（Scaling Law）的局限，可在擴大模型規模時，不顯著增加訓練和推理的計算成本，保持模型性能最大化。

出于這個原因，行業前沿模型包括谷歌Gemini-1.5、OpenAI的GPT-4 、馬斯克旗下xAI公司的Grok等大模型都使用了 MoE。

值得一提的是，元象「高性能全家桶」系列全部開源，無條件免費商用，讓海量中小企業、研究者和開發者能按需選擇。

中國最大MoE開源模型

今年4月，元象推出XVERSE-MoE-A4.2B，與傳統MoE（如Mixtral 8x7B）將每個專家大小等同于標準FFN不同，元象采用更細粒度的專家設計，每個專家大小僅為標準FFN的四分之一，提高了模型靈活性與性能；還將專家分為共享專家（Shared Expert）和非共享專家（Non-shared Expert）兩類。

共享專家在計算過程中始終保持激活狀態，而非共享專家則根據需要選擇性激活。這種設計有利于將通用知識壓縮至共享專家參數中，減少非共享專家參數間的知識冗余。

此次推出XVERSE-MoE-A36B，繼續在MoE效率和效果方面進行技術創新。

（1）效率方面

MoE架構與4D拓撲設計：MoE架構的關鍵特性是由多個專家組成。由于專家之間需要大量的信息交換，通信負擔極重。為了解決這個問題，我們采用了4D拓撲架構，平衡了通信、顯存和計算資源的分配。這種設計優化了計算節點之間的通信路徑，提高了整體計算效率。

專家路由與預丟棄策略：MoE的另一個特點是“專家路由機制”，即需要對不同的輸入進行分配，并丟棄一些超出專家計算容量的冗余數據。為此團隊設計一套預丟棄策略，減少不必要的計算和傳輸。同時在計算流程中實現了高效的算子融合，進一步提升模型的訓練性能。

通信與計算重疊：由于MoE架構的專家之間需要大量通信，會影響整體計算效率。為此團隊設計了“多維度的通信與計算重疊”機制，即在進行參數通信的同時，最大比例并行地執行計算任務，從而減少通信等待時間。

（2）效果方面

專家權重：MoE 中的專家總數為 N ，每個 token 會選擇 topK 個專家參與后續的計算，由于專家容量的限制，每個 token 實際選擇到的專家數為 M，M<=K

根據對比實驗的效果，我們選擇實驗2的設置進行正式實驗。

實驗1：權重在 topM 范圍內歸一化實驗2：權重在 topK 范圍內歸一化實驗3：權重在 topN 范圍內歸一化實驗4：權重都為 1

實驗結果如下：

假設N=8，K=4，M=3（2號專家上token被丟棄），不同專家權重的計算方式所得的權重如下圖：

數據動態切換：元象以往開源的模型，往往在訓練前就鎖定了訓練數據集，并在整個訓練過程中保持不變。這種做法雖然簡單，但會受制于初始數據的質量和覆蓋面。此次MoE模型的訓練借鑒了”課程學習”理念，在訓練過程中實現了動態數據切換，在不同階段多次引入新處理的高質量數據，并動態調整數據采樣比例。

這讓模型不再被初始語料集所限制，而是能夠持續學習新引入的高質量數據，提升了語料覆蓋面和泛化能力。同時通過調整采樣比例，也有助于平衡不同數據源對模型性能的影響。

△不同數據版本的效果曲線圖

學習率調度策略（LR Scheduler）：在訓練過程中動態切換數據集，雖有助于持續引入新知識，但也給模型帶來了新的適應挑戰。為了確保模型能快速且充分地學習新進數據，團隊對學習率調度器進行了優化調整，在每次數據切換時會根據模型收斂狀態，相應調整學習率。實驗表明，這一策略有效提升了模型在數據切換后的學習速度和整體訓練效果。

下圖是整個訓練過程中 MMLU、HumanEval 兩個評測數據集的效果曲線圖。

訓練過程中MMLU、HumanEval的性能曲線持續拔高

通過設計與優化，元象MoE模型與其Dense模型XVERSE-65B-2相比，訓練時間減少30%、推理性能提升100%，模型效果更佳，達到業界領先水平。

不過此次也不是元象第一次開源。

2023年11月，此前國內大部分開源參數多在7B到13B，而行業共識是模型達到50到60B參數門檻，大模型才能“智能涌現”，生態亟需“大”模型時，元象率先開源了XVERSE-65B，是當時中國最大參數開源。

2024年1月，元象又開源全球最長上下文窗口大模型，支持輸入25萬漢字，還附手把手訓練教程，讓大模型應用一舉進入“長文本時代”。

此次國內最大參數MoE開源，又是給生態貢獻了一個助推低成本AI應用利器。

已落地應用

元象基于MoE模型自主研發的AI角色扮演與互動網文APP Saylo，通過逼真的AI角色扮演和有趣的開放劇情，火遍港臺，下載量在中國臺灣和香港娛樂榜分別位列第一和第三。

MoE訓練范式具有「更高性能、更低成本」優勢，元象在通用預訓練基礎上，使用海量劇本數據「繼續預訓練」（Continue Pre-training），并與傳統SFT（監督微調）或RLHF（基于人類反饋的強化學習）不同，采用了大規模語料知識注入，讓模型既保持了強大的通用語言理解能力，又大幅提升「劇本」這一特定應用領域的表現。

在此之前，借助在AI和3D領域的客戶積累，元象迅速將大模型推向商用。

2023年11月，元象成為全國最早一批、廣東省前五獲得《生成式人工智能服務管理暫行辦法》國家備案的大模型，具備向全社會開放的產品能力。

而在更早的10月，元象與騰訊音樂聯合推出lyraXVERSE加速大模型，并借助該技術全面升級音樂助手“AI小琴”的問答、聊天與創作能力，讓她情商與智商雙高，為用戶提供個性化、更深入、陪伴感十足的音樂互動體驗。

元象大模型陸續與QQ音樂、虎牙直播、全民K歌、騰訊云等深度合作與應用探索，為文化、娛樂、旅游、金融領域打造創新領先的用戶體驗。

Tags:

模型參數

免責聲明: 本文所包含的觀點僅代表作者個人看法，不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。交易和投資涉及高風險，讀者在采取與本文內容相關的任何行動之前，請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

中國最大開源MoE模型，255B參數無條件免費商用，元象發布

NVIDIA深度適配通義千問大模型，推出艙駕融合大模型解決方案

NVIDIA深度適配通義千問大模型推出艙駕融合大模型解決方案

哈啰亮相2024云棲大會：展示AI整體布局及大模型案例

在線可玩！智譜開源圖生視頻模型，網友直呼Amazing！

奧特曼：o1僅僅是“推理模型的GPT-2”；黃仁勛：我給你加速50倍

熱門文章