首頁 > AI資訊 > 最新資訊 > 國產千卡千億模型訓練平臺落地:70B到130B大模型訓練,線性加速比達91%

國產千卡千億模型訓練平臺落地:70B到130B大模型訓練,線性加速比達91%

新火種    2023-12-22

國內首個以國產全功能GPU為底座的大規模算力集群,正式落地了!

這便是來自摩爾線程的KUAE智算中心,全國產千卡千億模型訓練平臺。

國產千卡千億模型訓練平臺落地:70B到130B大模型訓練,線性加速比達91%

摩爾線程CEO張建中在主題演講中帶來重磅發布,包括大模型智算加速卡MTT S4000,以及專為千億參數大模型訓練和推理提供強大支持的摩爾線程KUAE平臺,他表示:

與此同時,摩爾線程聯合國內眾多合作伙伴發起并成立了摩爾線程PES -KUAE智算聯盟和摩爾線程PES-大模型生態聯盟,共同夯實從智算基礎設施到大模型訓練與推理的國產大模型一體化生態,持續為我國大模型產業發展加速。

MTT S4000:訓推兼顧,專為大模型打造

摩爾線程大模型智算加速卡MTT S4000,采用第三代MUSA內核,單卡支持48GB顯存和768GB/s的顯存帶寬。

基于摩爾線程自研MTLink1.0技術,MTT S4000可以支持多卡互聯,助力千億大模型的分布式計算加速。

同時,MTT S4000提供先進的圖形渲染能力、視頻編解碼能力和超高清8K HDR顯示能力,助力AI計算、圖形渲染、多媒體等綜合應用場景的落地。

尤為重要的是,借助摩爾線程自研MUSIFY開發工具,MTT S4000計算卡可以充分利用現有CUDA軟件生態,實現CUDA代碼零成本遷移到MUSA平臺。

國產千卡千億模型訓練平臺落地:70B到130B大模型訓練,線性加速比達91%

KUAE智算中心:軟硬一體,開箱即用

摩爾線程KUAE智算中心解決方案以全功能GPU為底座,是軟硬一體化的全棧解決方案,包括以KUAE計算集群為核心的基礎設施、KUAE Platform集群管理平臺以及KUAE ModelStudio模型服務,旨在以一體化交付的方式解決大規模GPU算力的建設和運營管理問題。

該方案可實現開箱即用,大大降低傳統算力建設、應用開發和運維運營平臺搭建的時間成本,實現快速投放市場開展商業化運營。

國產千卡千億模型訓練平臺落地:70B到130B大模型訓練,線性加速比達91%

基礎設施:包含KUAE計算集群、RDMA網絡與分布式存儲。此次發布的摩爾線程KUAE千卡模型訓練平臺,建設周期只需30天,支持千億參數模型的預訓練、微調和推理,可實現高達91%的千卡集群性能擴展系數?;贛TT S4000和雙路8卡GPU服務器MCCX D800,摩爾線程KUAE集群支持從單機多卡到多機多卡,從單卡到千卡集群的無縫擴展,未來將推出更大規模的集群,以滿足更大規模的大模型訓練需求。KUAE Platform集群管理平臺:用于AI大模型訓練、分布式圖形渲染、流媒體處理和科學計算的軟硬件一體化平臺,深度集成全功能GPU計算、網絡和存儲,提供高可靠、高算力服務。通過該平臺,用戶可靈活管理多數據中心、多集群算力資源,集成多維度運維監控、告警和日志系統,幫助智算中心實現運維自動化。

KUAE ModelStudio模型服務:覆蓋大模型預訓練、微調和推理全流程,支持所有主流開源大模型。通過摩爾線程MUSIFY開發工具,可以輕松復用CUDA應用生態,內置的容器化解決方案,則可實現API一鍵部署。該平臺意在提供大模型生命周期管理,通過簡潔、易操作的交互界面,用戶可按需組織工作流,大幅降低大模型的使用門檻。KUAE千卡集群:助力大模型高效訓練

分布式并行計算是實現AI大模型訓練的關鍵手段。

摩爾線程KUAE支持包括DeepSpeed、Megatron-DeepSpeed、Colossal-AI、FlagScale在內的業界主流分布式框架,并融合了多種并行算法策略,包括數據并行、張量并行、流水線并行和ZeRO,且針對高效通信計算并行和Flash Attention做了額外優化。

國產千卡千億模型訓練平臺落地:70B到130B大模型訓練,線性加速比達91%

目前,摩爾線程支持包括LLaMA、GLM、Aquila、Baichuan、GPT、Bloom、玉言等各類主流大模型的訓練和微調。

基于摩爾線程KUAE千卡集群,70B到130B參數的大模型訓練,線性加速比均可達到91%,算力利用率基本保持不變。

以2000億訓練數據量為例,智源研究院700億參數Aquila2可在33天完成訓練;1300億參數規模的模型可在56天完成訓練。

此外,摩爾線程KUAE千卡集群支持長時間連續穩定運行,支持斷點續訓,異步Checkpoint少于2分鐘。

摩爾線程KUAE千卡計算集群憑借高兼容性、高穩定性、高擴展性和高算力利用率等綜合優勢,將成為大模型訓練堅實可靠的先進基礎設施。

智算和大模型生態聯盟:多方協作,促進生態融合

大模型時代,以GPU為代表的智能算力是基石,也是生成式AI世界的中心。

摩爾線程聯合中國移動北京公司、中國電信北京分公司、聯想、世紀互聯、光環新網、中聯數據、數道智算、中發展智源、企商在線、北電數智北京數字經濟算力中心、紫光恒越、瑞華產業控股(山東)、賽爾網絡、中科金財、中耘智算、金舟遠航(排名不分先后)等十余家企業,共同宣布“摩爾線程PES – KUAE智算聯盟”成立。

聯盟將大力建設和推廣從底層硬件到軟件、工具到應用的全國產智算平臺,旨在實現集群的高利用率,以好用、易用的全棧智算解決方案成為大模型訓練首選。

國產千卡千億模型訓練平臺落地:70B到130B大模型訓練,線性加速比達91%

活動現場,摩爾線程分別與中聯數據和數道智算進行了現場簽約,并共同為摩爾線程KUAE智算中心揭牌。

現場200多名與會嘉賓一同見證了這一重要時刻。

國產千卡千億模型訓練平臺落地:70B到130B大模型訓練,線性加速比達91%國產千卡千億模型訓練平臺落地:70B到130B大模型訓練,線性加速比達91%

人工智能應用的突破,生態是關鍵。

為此,摩爾線程攜手360、飛槳、京東言犀、智譜AI、超對稱、無問芯穹、滴普科技、網易、清華大學、復旦大學、浙江大學、北京理工大學、凌云光、瑞萊智慧、南威軟件(排名不分先后)等多家大模型生態伙伴,發起并成立“摩爾線程PES – 大模型生態聯盟”。

摩爾線程將以MUSA為中心的軟硬一體化大模型解決方案,積極與廣泛的生態伙伴開展兼容適配及技術調優等工作,共同推動國產大模型生態的全面繁榮。

國產千卡千億模型訓練平臺落地:70B到130B大模型訓練,線性加速比達91%

在最后的圓桌對話環節,摩爾線程副總裁董龍飛與中能建綠色數字科技(中衛)有限公司董事長墻虎、智譜AI CEO張鵬、京東云首席AI科學家裴積全、中金資本董事總經理翟贏、超對稱創始人吳恒魁、數道智算董事長甄鑒等重磅嘉賓,就當前大模型的算力需求和智算中心的建設與運營等話題展開了深入探討。

嘉賓一致認為,智算中心不應只是硬件的堆積,更是對軟硬一體化的GPU智算系統整合能力的考驗,GPU分布式計算系統的適配、算力集群的管理和高效推理引擎的應用等,都是提高算力中心可用性的重要因素。

國產智算中心的發展,更是依托于將各方需求和優勢充分融合,產業聚力才能實現整個生態的協同,推動國產事業往前發展。

國產千卡千億模型訓練平臺落地:70B到130B大模型訓練,線性加速比達91%
Tags:
相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章