用AI重新定義通信——超算互聯網時代
傳統的通信方式正在被AI重新定義。
隨著人工智能技術和應用的快速發展,算力已成為一個高度擁擠的賽道,從GPU、光模塊到算力租賃,算力的核心環節吸引了投資者絕大多數注意力。然而,GPU逐步到貨只是整個算力鏈條的第一步,后續如何發揮出這些昂貴設備的最大潛力也是較為困難的過程。
國盛證券指出,算力到貨后如何將其上云并保證穩定性,如何從通信層面和模型層面壓榨出顯卡的每一絲性能,如何將不同算力中心的算力,調度并實時輸送到終端用戶手中,這些都是服務器的“紙面算力”到最后“實際算力”的困難與挑戰。
由此,引出下一個朝陽賽道——超算互聯網。
根據國盛證券通信團隊在最新報告中的定義,超算互聯網是指,服務器到貨后,從形成穩定算力到輸出穩定的商業推理結果的全過程,其中主要包括了云化、調優、調度、部署、落地、數據管理等等軟硬結合的數個環節。
國盛證券指出,云化/調優/調度是將紙面算力變為可用算力的先期步驟,云化使算力變成用戶可以便捷調用的“數字能源”,調優則是從通信和模型層面,壓榨GPU的利用率,實現算力降本增效的必經之路。調度是將全國乃至全球的算力資源統籌分配,實現成本優化,入網即有算力的核心環節。
值得注意的是,由于算力資源,先發優勢等等因素,海外AI發展擁有了較大的領先,國內AI發展進一步承壓。但國盛證券認為,隨著國內自主算力和交換體系逐漸起量,中國算力有望加速追趕。
中國軟件公司有望走出一條從加速庫等核心環節延伸至下游落地場景的全新體系,同時,憑借全球領先的DCI網絡與基建,運營商也有望走出一條算力網建設的全新道路。
此外,北美如OctoML,DECI,Databrick等優秀的AI后周期服務公司也給中國創業者們提供了方向和思路,軟硬件加速追趕,中國AI前景光明。
AI超算互聯網——算力的后周期市場國盛證券表示,相較于傳統行業,算力后周期市場的 “后”指的更多的是后服務市場,包括了顯卡服務器到貨IDC后,從形成穩定算力到輸出穩定的商業推理結果的全過程,主要環節包括云化、調優、調度、部署、落地、數據管理等等軟硬結合的數個環節。
縱觀全球算力后周期的發展態勢,國盛證券認為正在形成兩個迥然不同的生態:
在涉及算力使用和大模型訓練的等上層建筑時,整個行業對于資本支出、模型經驗積累等等方面的壁壘正在逐漸加深,行業格局加速走向巨頭通吃。
但在涉及到商業落地,數據安全,平臺可視化等等模型偏下游環節時,北美的創業公司呈現了百花齊放的生態,同時傳統軟件巨頭也在積極開發方案,對接AI需求。
至于國內市場的現狀,國盛證券認為:
隨著國內算力資源起量與模型訓練深入,對于算力和模型層面的投資將會再度聚焦,聚焦大廠,聚焦通信能力。同時國內相關軟件市場仍處于萌芽階段,對標海外優秀創業產品,提早滿足客戶需求,將給國內軟件和創業公司帶來新一輪機會。
算力云化:算力租賃勢起,被AI重定義的云計算國盛證券指出,云計算是科技行業過去十年發展最為迅速的領域之一,伴隨的是全球數字化程度的持續提升。隨著ChatGPT引爆生成式AI賽道,許多企業正在轉向云計算,算力需求從CPU向GPU躍遷。
對于大模型訓練而言,多GPU互聯基礎設施是門檻,不僅僅是GPU,更重要的是GPU之間的高速互聯,是GPU與交換機、光模塊等基礎設施共同互聯后的集群,其資本開支和技術難度相較于以CPU和存儲服務器為主的傳統基礎設施,有明顯的提升,這也進一步抬高了大模型的門檻。
大模型訓練需要數千片甚至上萬片GPU集群連續訓練數月時間,海量計算的同時還有海量數據交換需求,與傳統cpu和存儲集群比較,內部通信互聯要求提高十分明顯。在超算集群中,以H100集群為例,其中第一層便使用400G光模塊,向上則使用800G光模塊和對應交換機,網絡互聯要求提升十分明顯。
近年來,全球云計算提供商都在積極布局AI,英偉達憑借GPU技術領先地位在AI云計算領域占有優勢,國內算力租賃行業也蓬勃發展。
英偉達DGX Cloud發布后,標志著英偉達正式入局AI云計算,考慮到英偉達GPU在AI領域的一家獨大,云計算行業正在進入新的時代。
與此同時,甲骨文通過與英偉達深度綁定,正在越來越多的拿下AI領域的客戶,而亞馬遜aws、微軟azure、谷歌云為代表的頭部公有云也正在加速布局AI領域,英偉達憑借自身優勢在AI云計算領域領先眾對手,云計算格局正在發生變化。
而國內,算力租賃也在高速發展,擁有算力資源的公司和具備算力運營能力的企業正在逐漸體現出相應優勢,伴隨國內AI產業的高速發展,算力租賃行業也進入高速發展階段。
實際上,在大規模訓練上,和傳統云計算比較,需要考慮的問題更加復雜,包括如何利用多卡來突破內存限制的瓶頸,大量計算資源間如何通信、協作,如何平衡各類層出不窮的大規模訓練技術。國盛證券將大規模訓練技術面臨的挑戰分為四個部分:內存、通訊、計算和調優。
總結來看,現階段大模型訓練上,最核心的兩個要素分別是數據和算力,國盛證券表示,在很長一段時間,不斷地提高參數量和提升算力集群規模,是大模型發展的主要思路,通過“大力出奇跡”的形式反而更容易訓練出高質量大模型。
AI如何重新定義通信,看一看算力全球龍頭英偉達的通信之路。
英偉達作為全球GPU領軍企業,早在十年前就開始布局AI領域,對AI發展有著深刻思考和理解。我們回顧英偉達超算方案,從DGX A100到DGX H100,再到最新的DGX GH200,我們可以清楚的看到,除了GPU芯片計算能力的提升以外,通信能力的大幅度持續增長,是另一個最明顯的變化。
在AI領域,通信的作用不亞于計算,通信能力的不足或確實將直接限制GPU芯片計算能力的發揮,英偉達早在2019年收購網絡交換公司Mellanox,加碼布局數據中心網絡交換領域,充分體現英偉達的超前眼光和對于通信的重視。
我們以GH200為例,NVlink雙向寬帶900GB/s,單向寬帶450GB/s,8張卡即3.6Tbps,總帶寬28.8Tbps,分攤到三個NVlink Switch,單個NVlink Switch的上下行帶寬為9.6Tbps,對應800G光模塊為9.6T/800g*2=24只,一臺服務器共有72只800G光模塊,GPU與800G光模塊比例為1:9。
而此前DGX H100架構GPU與800G光模塊比例約為1:3,DGX A100則主要以400G光模塊為主。從英偉達產品的迭代來看,我們也清晰的看到算力龍頭在通信上的持續發力,通信匹配計算能力的提升將會一直演繹。
實際上,打破通信墻,是目前高效發揮算力集群能力的無二之選。國盛證券指出,通信能力的提高,是當前最高效的“調優”方式,再出色的調度和調優,也比不上廣泛使用高性能交換機和高端高速率光模塊修建的集群內部“高速公路”。
此外,目前跨架構、跨集群的算力調度也是現實問題,英偉達不同代際產品之間并不能混合組網,而不同數據中心之間的算力調度難度也不小。東數西算等跨區域算力調度需求也正在增長。具體到模型訓練層面,調優也是一個重要方面。
算力調優:大模型時代,通信即調優根據國盛證券研報,算力發展產生三大邊際變化,推動算力調優成為核心議題。算力調優概念的誕生與興起,主要伴隨了算力及網絡的三大變化,算力需求總量、擴散趨勢和需求特征均在5G、AI等產業加速發展的背景下發生邊際變化。
國盛證券認為,未來伴隨AI、5G、數字經濟的持續發展,算力資源持續緊缺,算力調優將成為算力使用者的終身課題。
算力調優概念范疇龐大,囊括軟硬件技術,涵蓋宏微觀場景。宏觀層面包含模型調優、網絡調優、算力調度三大層級,具有針對性的解決不同的算力問題,其中,網絡調優是算力調優的核心手段。
網絡調優:算力調優的核心手段
國盛證券指出,GPU采用并行計算方式,擅長處理大量、簡單的運算,因此多適用于圖像圖形處理和AI推理。但是大模型復雜度日益提升,單卡GPU顯存有限,無法滿足訓練需求,此外,后續大模型訓練需要更多參數和更多計算,由此產生的GPU需求更為龐大。為適應算力需求,需要聯合多張GPU甚至多臺服務器協同工作,分布式訓練成為核心訓練方式。
網絡連接在分布式系統中擔任重要角色。網絡在分布式系統中提供了連接作用,可以根據連接層級區分為單卡、多卡、多機互聯,單卡內的網絡為計算用的神經網,多卡之間的連接(即GPU互聯)通常采用PCIe或各種高帶寬通信網絡,多機之間的連接(即服務器互聯)通常采用RDMA網絡。
國盛證券表示,分布式訓練下RDMA網絡成為最佳選擇,包含IB網絡和以太網絡。傳統的TCP/IP網絡通信是通過內核發送消息,涉及較多數據移動和數據復制,不適用高性能計算、大數據分析等需要IO高并發、低時延的場景。
RDMA是一種計算機網絡技術,可以直接遠程訪問內存數據,無需操作系統內核介入,不占用CPU資源,可以顯著提高數據傳輸的性能并且降低延遲,因此更適配于大規模并行計算機集群的網絡需求。目前有三種RDMA:Infiniband、RoCE 、iWARP,后兩者是基于以太網的技術。
值得一提的是,AI大模型的訓練和推理對網絡提出了有三大新的需求:超大規模、超高帶寬以及超長穩定。
1)超大規模-訓練快慢:規模的大小直接決定模型訓練的快慢。一個 1750 億的模型,如果采用2千張 GPU,需要訓練100天以上。采用8千卡則可以把時間壓縮到30 天左右。
2)超高帶寬-效率:Allreduce帶寬直接決定大規模分布式下的整體效率。平均單GPU的Allreduce帶寬有5GB/s的時候,大規模分布式的整體加速比只有約70%;平均單GPU的Allreduce帶寬20GB/s才能獲得約90%的加速比,相當于單GPU跑滿400G網卡。
3)超長穩定-訓練不中斷:大模型訓練時長至少是幾個星期,長時間下的穩定性尤為重要。
穩定性又可以細分為GPU 可用性+網絡可用性:
GPU 可用性:根據百度智能云技術站測算,假定單 GPU 的月可用性是 99.9%,那么在千卡規模下模型訓練一月內遇到故障發生中斷的概率是60%,而如果采用 8 千卡中斷概率就有99%。即使 GPU 的可用性提升到 99.99%,8 千卡下的中斷概率仍然在 50% 左右。
網絡可用性:存儲的讀寫性能也對大模型的訓練非常重要,這里面就包括了數據集的讀取以及訓練過程中checkpoint的讀寫。網絡必須保證更高的可用性,才能盡可能減少模型的訓練中斷,降低模型做 checkpoint的頻率以及開銷。
國盛證券認為,超長穩定性能在三大基礎性能中,屬于必不可少的剛需地位,直接影響模型訓練和后續推理的延續性以及成功率。
大模型訓練中,網絡極其復雜,一些硬件故障無法被顯式直接感知,為保障模型訓練的長期穩定性,各大平臺均在不同程度上應用智算可視化工具,對數據進行實時監控采集。
在目前的技術中,百度百舸平臺大模型配備兩大核心工具,任務可視化工具+故障診斷工具,openAI在訓練過程中加checkpoint保證連續性。
國盛證券表示,面對AI大模型對算力網絡通信功能提出的新需求,核心在于網絡通信能力的提升,輔助以智算可視化等必備硬件。
模型調優:大模型時代逐漸式微
國盛證券表示,模型層面的調優,當前可理解為,如何通過模型架構的設計,進一步壓榨GPU的性能,而并非壓縮模型的非必要環節,從而節省模型的訓練所需的算力。
模型架構層面優化GPU使用能力的方法主要是并行,即對流水線的工人的任務分配或者流水線的優化。并行的方式主要有兩種:數據并行和模型并行。
“數據并行,是指將一層模型運算中所需要的數據切分至N張顯卡進行運算,N張顯卡運算出結果后,即可匯總進行下一層。模型并行指的是將一次模型訓練需要的N層運算,分別放入N張顯卡進行運算,但隨著模型體積愈發龐大,單個顯卡難以容納一整層的計算,所以模型并行在當下正在加速被數據并行所替代,數據并行的瓶頸則在于數據實時的切分與溝通,并行方式的變化,也在一定程度上,進一步提高了通信能力的重要性。
不過,當下大模型時代,模型的算法層面調優,或者是去優化模型訓練中所需要的算力與金錢性價比這種路線已經逐漸式微。國盛證券認為,模型層面的進化,可能更多的會發生于訓練系統和工具庫層面如何去更好的調用GPU算力。
算力調度:全局最強輔助
算力調度本質上是將算力作為資源,進行資源分配和優化的過程,核心解決算力資源供需不匹配的問題。
算力調度的場景較為廣泛,既可以按照產業鏈分為云與云之間、云和數據中心之間、云網端之間,也可以按照行業、地區、層級進行劃分,目前較為典型的兩個調度場景存在于跨區域和跨層級。
算力調度目前尚處于逐步落地階段,具體實施步驟有待在執行中逐漸完善,但是根據算力分布分散、需求具備多樣性和靈活性等特質,通常情況下算力調度至少需要包含三大步驟:整合多元異構資源、搭建算力調度平臺、建立標準規范體系。
目前國內已經涌現多個算力調度平臺,按照主導方的不同可以分為四大類:電信運營商主導平臺、地方政府主導平臺、地方政府主導平臺、行業機構主導型平臺。
其中運營商算力調度平臺的基礎能力優勢較為顯著:中國移動推出移動云智能算力調度平臺,中國電信天翼云下的“息壤”平臺即具備智能高效算力調度能力,中國聯通推出算網一體化編排調度體系進行算網資源的智能調配。
國盛證券指出,軟件服務主要存在三個發展方向:數據管理、模型落地、訓練可視化。其中,模型微調的基礎是數據管理。
優質的、結構化的數據要素,推動大模型訓練向著高精確度、高安全性和垂直化專業化的方向前進?,F有的開源LLM稱為“預訓練模型”,也就是說其他人已經收集了大量的訓練數據并提前訓練了模型,例如NVIDIA NeMo和MetaLlama都是“多面手”,它們能流利地使用英各種語言,并且對各種話題都有不同程度的了解,但是礙于訓練時的數據,這些LLM往往對某個專業領域不夠深入。
在模型落地方面,國盛證券介紹了幾種不同的工具,比如,Modular Mojo、octoML、Deci。其中,octoML,一種模型部署工具,快速實現成品模型在各種算力設備上的優化和部署。
以OctoML部署的StableDiffusion為例,OctoML利用機器學習優化技術能夠實現三倍的推理速度,同時還支持快速模型微調。
OctoML優化了多GPU部署和連續批處理,Llama 2實現3倍性能提升。大模型的參數數量給GPU帶來的負載并非線性增長而是指數增長,因為參數數量的提升帶來了多GPU并行計算問題和大模型最為經典的KV緩存問題。OctoAI針對以上問題進行了優化。
訓練可視化方面,Databricks:GPU資源管理工具,模型和訓練進度可視化,Databricks核心業務是將數據湖和數據倉庫統一到一個平臺中,也就是湖倉一體,和snowflake相似,Databricks在數據庫功能實現方式上與snowflake存在區別。
在模型與AI進展更加領先的海外,已經能夠看到客戶需求與行業創造的共振。但國內目前的AI生態,仍然處于先追趕算力,再追趕模型的階段,對于商業部署,全流程可視化等等的后續需求,市場尚未顯現。但國盛證券認為,AI大勢在國內不可阻擋,并且隨著算力資源,模型資源向著互聯網大廠、運營商等加速集中,國內現有的中小型AI參與者可以未雨綢繆地參考海外模式進行轉型或者擴張。
算力租賃/調優廠商參考databrick模式。上節提到,databrick軟件擁有幾大特色,訓練資源,訓練流程的可視化,訓練算力。訓練用存儲的實時擴容等,并通過把這些能力形成一套完整的SaaS平臺,獲得了客戶的認可。相比Databrick,國內算力租賃廠商,算力調優廠商擁有更加自主可控的算力資源與算力可視化硬件基礎,如果能夠在此之上配合SaaS整合能力和存儲相關服務,有望成為軟硬件一體的綜合訓練服務SaaS平臺。
數據庫廠商參考snowflake、cloudflare模式。近年來,海外以Snowflake為代表的全新數據庫巨頭將云端數據存儲帶入了新的高度。如今隨著AI對于訓練數據的需求,如何將數據庫安全,合理的輸送到訓練集群,如何將現有數據庫自動轉換成適用于AI訓練的數據,已經成為這些頭部數據庫公司的下一代進化方向。國內數據庫公司目前多服務于信創等場景,對于云存儲,AI數據轉化,支持AI訓練等方向仍然有很大的發展空間。
中小模型,垂直場景創業者參考DECI、octoML模式。隨著海外大模型廠商漸漸往垂直領域滲透,垂類應用廠商逐漸從獨立開發小模型轉向接入成熟大模型,同時醫藥,圖像識別等需要特殊處理或者獨立數據庫支持的行業依然依賴于獨立模型。隨著國內模型格局逐漸向大廠集中,中小模型創業者或是垂類場景創業者轉向幫助已有垂類應用快速AI化,將打開新的末端生態。
國盛證券認為,隨著英偉達,AMD等海外算力在國內受限,國內算力及其配套生態則有望變得更加開放。
影響算力發揮的核心環節主要集中在GPU配套的編譯器以及覆蓋海量垂直應用場景的加速庫,編譯器環節需要對于GPU架構的強耦合,因此產業鏈外溢機會可能較少。但加速庫需要各類場景下的客戶與GPU廠商共同進步。
當前以昇騰為代表的國產GPU加速生態仍然處于建設初期,因此給予了國內第三方相關廠商與GPU互相合作建設加速庫的機會,因此,可能在加速庫共建的基礎上,國內軟件創業公司將對于后續的落地部署環節能有更強的垂直擴張能力。
本文主要觀點來自國盛證券,作者:宋嘉吉、黃瀚、趙丕業、邵帥、石瑜捷、孫爽,原文標題:《用AI重新定義通信——超算互聯網時代的調度與調優》
宋嘉吉?執業證書編號:S0680519010002
黃瀚?執業證書編號:S0680519050002
趙丕業?執業證書編號:S0680522050002
邵帥?執業證書編號:S0680522120003
石瑜捷?執業證書編號:S0680523070001
孫爽?執業證書編號:S0680521050001
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。