大模型訓練算力利用率達60%,螞蟻開源分布式訓練擴展庫ATorch
近日,螞蟻集團宣布開源大模型分布式訓練加速擴展庫ATorch。ATorch可針對不同模型和硬件資源,實現深度學習自動資源動態優化和分布式訓練穩定性提升,幫助提升深度學習的智能性。據了解,在大模型訓練中,ATorch千億模型千卡級別訓練的算力利用率可達60%,相當于為跑車裝上了強勁的引擎。
圖:ATorch致力于讓大模型訓練更高效、可復現
隨著生成式大模型的爆發,模型訓練的數據集和參數規模成指數級增長,要帶動如此龐然大物,并且滿足模型的快速迭代,分布式訓練就成為了解題之道。在大模型開發工作中,很多開發者和研究人員采用PyTorch和TensorFlow深度學習框架,來構建和訓練模型。業內已開展多項工作,為PyTorch等深度學習框架裝上更加適用于大模型訓練的“工具包”,本次螞蟻開源的ATorch就是其中之一。
據了解,ATorch采用了分層的架構設計,功能清晰、設計全面,可為開發者提供極致精簡的開發體驗,以及領先的穩定性保障。主要包括統一分布式優化策略配置接口、自動分布式策略搜索、自動彈性容錯、高效動態顯存管理庫、自研優化器加速收斂等核心功能。作為PyTorch框架的高性能擴展加速庫,ATorch可實現最少化用戶代碼侵入,為千億參數大模型千卡級訓練提供易用的高性能方案。
近期在以開源模型為對象的大模型訓練優化實踐中,ATorch取得了優異的成績。如,將清華大學開源的GLM-65b大模型千卡預訓練算力利用率從28.8%提升至62%、Meta開發的LLama2-70b大模型預訓練算力利用率從42%提升至60%、英國AI公司Stability AI 開發的多模態大模型Stable Diffusion訓練算力利用率從21.8%提升至58.7%。此外,ATorch千卡訓練穩定性表現優異,日均純訓練時長占比提升至95%,ckpt save耗時控制在1分鐘,訓練重啟耗時最快5分鐘,達到了行業領先水平。
目前,ATorch已集成到螞蟻集團大模型訓練開源產品DLRover中,這是螞蟻集團基于云原生技術打造的智能分布式深度學習系統。ATorch的加入,將更大程度上幫助大模型開發能夠專注于模型架構的設計,而無需處理工程方面的細節,讓訓練更高效、智能。
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。