騰訊云發布專有云智算套件,助力企業打造專有智算云
6月28日,騰訊云副總裁李力在A2M人工智能創新峰會上宣布,騰訊云推出基于公有云的成熟實踐的專有云智算套件。
該套件集合了騰訊云高性能計算集群構建模塊、智能高性能網絡IHN、高并發文件存儲系統TurboFS、算力加速框架Taco以及GPU算力共享技術等核心能力,與騰訊云專有云平臺TCE結合,能夠支撐企業基于自有硬件搭建高性能的專有智算云,滿足在私有算力環境下訓練大模型的訴求。
據了解,騰訊云智算套件提供的算、存、網一體的云原生能力,能夠幫助企業高效利用算力卡資源,解決算力集群的木桶短板效應。比如,騰訊云自研高性能智能網絡IHN,能夠實現企業算力卡持續穩定高帶寬通信;騰訊云高性能文件存儲系統,能夠有效解決海量數據存儲的讀寫性能瓶頸問題。
同時,智算套件還在調度架構層融合了騰訊云自研的算力加速框架Taco和GPU算力共享技術qGPU。其中Taco基于網絡協議、通信策略、AI 框架、模型編譯等多層級的優化,能夠大幅提升大模型訓練和推理業務性能;qGPU能夠在算力集群內對算力卡實現精準切分,提升卡的利用效率。
另一方面,騰訊云TCE擁有跟公有云同源同構的技術架構和“一云多芯”的能力,能夠靈活支持不同規模的云平臺構建,還能屏蔽底層硬件差異,更好地納管不同類型的硬件設施。
騰訊云智算套件源自騰訊云公有云算力集群HCC的成熟實踐。去年,騰訊云在行業率先發布了大模型公有云算力集群HCC,該集群結合騰訊云星星海自研服務器,騰訊云自研高性能智能網絡提供的3.2T超高互聯帶寬,以及騰訊自研高并發文件存儲系統,能夠為大模型訓練、自動駕駛、科學計算等提供高性能、高帶寬和低延遲的集群算力。
當前,AI正在逐步從輔助技術成為引領行業變革的關鍵要素。作為這一變革的重要支撐之一,云計算正與AI深度融合,孕育出AI原生云這一全新的技術形態。
騰訊云聯合Gartner發布的《AI原生云建設與加速指南》指出,AI原生云將AI技術深度融合到云服務的每一個層面,并著重于開放性和生態系統的構建,通過提供豐富的API和SDK,以支持AI原生新服務和應用的開發。
李力介紹,騰訊云將圍繞AI原生云,為客戶提供生成式AI驅動的新一代云平臺架構,為客戶帶來AI原生理念的基礎設施、模型、工程、應用、全棧安全防護等五大核心能力。
其中,基礎設施層,騰訊云構建了支持多GPU卡型的統一算力平臺,結合長穩訓練、利用率提升以及任務和節點的異常恢復機制等技術,能夠助力模型訓練提效 200%,提升硬件資源利用率至 99%+。
在工程平臺層面,騰訊云打造了基于騰訊云高性能服務HAI 與 云端開發工具CloudStudio的GPU開發空間;騰訊云向量數據庫提供了全面的數據檢索增強套件能力;騰訊云機器學習平臺TI提供了從數據標注到模型推理的工具鏈。在此之上,騰訊云OrcaTerm AI助手、AI代碼助手可以提供智能運維、技術問答、代碼補全等AI輔助能力。
在模型層,騰訊自研的大模型混元最大參數量級已過萬億,在國內率先采用混合專家模型 (MoE) 結構,部分中文能力已追平GPT-4,在“時新”問題的回答表現上,數學、推理等能力上均有較大提升。同時,騰訊會議等騰訊SaaS產品已經全面接入騰訊混元大模型。
在安全方面,騰訊全棧安全產品都已應用AI技術,并在實際攻防場景中守護安全防線,同時,騰訊云還在積極探索生成式AI在安全場景的落地。
值得一提的是,騰訊云還支持通過分布式云的方式部署,能夠為用戶在多云、混合云場景下提供一致的產品服務和體驗,并且通過集中管控,統一管理位于不同位置的云資源和業務應用,幫助用戶在任意位置獲取需要的AI原生云資源與云服務。
截至目前,包括百川智能、MiniMax、智譜科技、元象等在內的90%頭部大模型企業,都在使用騰訊云的解決方案。
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。