國君通信:AI超算渾然一體,光互聯地位顯著提升
編者按:Nvidia創始人黃仁勛在臺北Nvidia Computex 2023研究中宣布發布DGX GH200產品,該產品通過將256個Grace Hopper超級芯片連接成一個新型AI超級計算機。黃仁勛在大會上反復提到,未來的超算數據中心將表現的越來越像一個超級計算機,正如這次DGX GH200系統可以將256個GPU無縫連接,使其性能等于一個超大號的GPU。國泰君安證券通信團隊發布研報指出,超算中心與傳統云中心相比,網絡相關投入比例將繼續增加,建議重點關注數通產業鏈和算力網絡鏈。
投資要點
超算中心趨于一個整體,光互聯重要性快速提升。Nvidia CEO黃仁勛在大會上反復提到,未來的超算數據中心將表現的越來越像一個超級計算機,正如這次DGX GH200系統可以將256個GPU無縫連接,使其性能等于一個超大號的GPU。DGX GH200里面采用了242.4公里的光纖,證明在高速互聯領域,對光通信器件、模塊的應用將大大增加,光進銅退的趨勢在服務器外部的層級趨勢越來越明顯。
GH200性能提升原因在存儲,H100仍為主流場景應用。集群性能的提升主要有算力本身、網絡、存儲三大要素。市場擔憂DGX GH200對GPT3訓練性能提升2.2x,不利光模塊比例提升。但算力層面,單顆GH芯片和H100芯片FP8浮點算力沒有差異。存儲層面,DGX GH200內部GPU和CPU的連接方式與DGX H100不同,其高速觸達的存儲容量可以大幅提升。我們觀察到對于同樣消耗數十TB內存級別的操作,存儲瓶頸越明顯,DGX GH200系統表現就比DGX H100集群越優越。因此,傳統GPT3、GPT4等主流大模型下,DGX H100集群(NVLink聯網)與DGX GH200系統沒有明顯差異,因為存儲、網絡、算力都不是瓶頸。
芯片光模塊比為1:9,比H100 NVLink組網更高。這個數字比DGX H100使用NVLink組網下還要高2倍,主要的差距在于是DGX H100服務器內到服務器外做了2:1的收斂,8個GPU僅用了4個NVSwitch芯片,無法做到1:1無阻塞的傳輸。而GH200是6個NVSwitch芯片對應8個GPU,可以實現胖樹架構,因此這個光模塊比例約比256個H100 NVLink組網方案多一倍。
投資建議:超算中心與傳統云中心相比,網絡相關投入比例將繼續增加,重點關注數通產業鏈和算力網絡鏈:1)數通光模塊核心標的:模塊龍頭、新易盛、天孚通信、光迅科技;2)稀缺的光芯片突破企業:光芯片龍頭,光庫科技,仕佳光子;3)有望突破的模塊企業,受益標的:劍橋科技、博創科技、華工科技。
風險提示:DGX GH200推廣不及預期,AI訓練需求不及預期
1. DGX GH200光互聯比例大幅增加
事件回顧:Nvidia創始人黃仁勛在臺北Nvidia Computex 2023研究中宣布發布DGX GH200產品,該產品通過將256個Grace Hopper超級芯片(下稱GH芯片)連接成一個新型AI超級計算機,其GPU存儲容量144TB,在歷代里面最高,同時可以提供1 EFlops的FP8 Transform Engine算力。
發布會以來,DGX GH200的網絡結構、DGX GH200的應用場景、DGX GH200的算力是否提升成為市場最關注的焦點,我們在本報告嘗試作出自己的理解和解答。
1.1. DGX GH200應用場景特定,內存容量大幅提升
市場關注:DGX GH200的性能優勢體現在哪里,可能應用在什么場景,是否會對DGX H100產生替代效應。
從隨之發布的技術博客內容看,DGX GH200目標使用場景為“存在GPU內存容量瓶頸的AI和HPC應用。”博客中強調,許多主流的AI和HPC應用負載實際上可以完全放在一個單獨的DGX H100服務器中,對于這樣的工作負載,DGX H100是最具有性價比的訓練方案。而對于其他的工作負載,例如深度學習推薦模型,需要TB級別的嵌入表,以及TB級別的圖像神經網絡訓練模型,或者大型的數據分析負載(數十TB級別的join、排序),可以看到DGX GH200對于大型記憶模型的表現比DGX H100集群(Infiniband組網)是要提高5-6x。
DGX GH200存儲大是因為GPU可以NVlink高速訪問更大容量的CPU的內存,而不是通過傳統的PCIe。傳統的AI服務器內GPU網絡主要有兩種,一類是NVS,一類是PCIe的形式。而DGX GH200作為超大型計算機,GPU存儲容量大,是因為在GH芯片中,GPU通過NvlinkC2C連接Grace CPU,從而可以直接訪問Grace CPU的512GB內存。
CPU和GPU的NVlink-C2C連接可以提供900GB/s的總帶寬,是普通加速系統GPU和CPU連接使用的PCIe Gen5(這里使用16個通道,每個通道是8GB/s)通道的7x。而每個GH芯片中有480GB/512G的CPU內存,以及高達96GB的GPU側HBM3內存,最終所有256個GPUs連接可以訪問到累計150TB(或者GH200宣傳的144TB)的存儲。而H100單顆芯片HBM3最多為80GB,而且與X86 CPU的內存側無法高效的進行互聯,因此DGX H100的共享內存大致僅640GB的顯存。
1)H100與GH200芯片本質是分立GPU和集成CPU+GPU的關系。H100是分立的GPU,因此它和CPU的連接需要PCIe。而GH200芯片是集成了CPU和H100 GPU,兩者可以用超高效的Nvlink-C2C連接,導致單顆H100芯片和GH200芯片可高速訪問的存儲容量不同,組網形成集群后可高速訪問的存儲容量也不同,最終對應的應用場景不同;
2)DGX H100滿足大量主流應用的需求,DGX GH200是特殊應用場景。許多主流的AI和HPC應用負載可以完全放在單獨的DGX H100服務器中, DGX H100是最主流的應用訓練方案。而DGX GH200一般是滿足TB級別內存容量需求的最佳選擇。模型訓練需要的內存級別越大,兩者性能差距越明顯。
1.2. DGX GH200和DGX H100集群性能差異并非算力造成
市場擔憂:DGX GH 200表現出來的訓練性能是DGX H100集群的2.2倍,市場認為這是單片GH200芯片與H100算力的差異2倍造成的,所以擔憂換算成H100,單個H100對應的光模塊需求量其實并沒有增加,同時,由于各場景訓練性能效率更好,所以形成替代關系,不構成利好。
我們認為,GH芯片與H100芯片在FP8算力上沒有差異。一方面,GH芯片部本來即由一個H100和CPU組成;另一方面,單個H100的芯片算力參數和單個GH芯片的算力參數是一致的。如下圖所示。
我們認為是內存瓶頸和聯網方式是導致測試結果中性能差異最重要原因。1)內存瓶頸要素:性能圖上,底部有一層小字,列舉了不同的測試對應的GPU數量,我們計算了這些GPU對應的顯存情況,結果表明Nvidia的測試結果普遍是在讓H100達到內存瓶頸,而GH200不達到瓶頸的角度去測算。2)網絡連接要素:此外,傳統DGX H100集群是采用Infiniband組網,而本次DGX GH200是采用Nvlink組網。NVLink是局部極高帶寬的通信,DGX GH200已經擴展到了整個256個芯片級別,可以實現無阻塞,單個GH芯片接入帶寬可以有3.6Tb/s;而如果選用Infiniband連接,單個H100芯片接入帶寬(1個Connect-X 7)僅為400Gb/s,性能差并不與網絡差形成正比關系,因為只要網絡是充足的,再擴大網絡是不會線性的再繼續提升。
1.3. DGX GH200 芯片與光模塊比例如何?
我們認為應該自底向上采用流量法測算其網絡端口數。考慮其博客提及DGX GH200采用胖樹和無阻塞的拓撲結構。因此我們的測算思路是:
計算出Grace Hopper超級芯片的連接到L1層NVLink交換機的北向流量;
計算出L1層到L2層交換機的流量。
最后考慮可能選用光模塊的端口部分。
1.3.1. 芯片接入層流量的測算
GH200芯片架構中,GPU部分連接到NVLink鏈路中的連接方式和速率與DGX H100一樣,即每個GPU采用18個NVLink4,每條NVLink4單向帶寬為25GB,即單個GH芯片帶來18*25GB=450GB的接入帶寬。因此一個Block里面8顆芯片帶來的流量是8*450GB/s=3.6TB/s,整體256顆芯片帶來256*450GB=115200GB。
1.3.2. L1層Nvlink交換機層級
NVLink交換機本質是由2個NVSwitch芯片組成的NVLink交換設備,其中每個NVSwitch芯片擁有128個Lane,這里的2個Lane速率與前述的1個NVLink速率對應,對應112Gb/s PAM4/lane 。因此,一個NVLink交換機為25.6Tb交換容量,32*800G端口。
我們認為DGX GH200 L1層可以實現無阻塞、1:1的傳輸,主要原因是相較DGX H100結構8個GPU對應4個NVSwitch的架構,最終L1層采用了2:1的收斂比。而這里采用了8個GH芯片對應6個NVSwitch芯片的架構, 6個NVSwitch芯片可以接收6*12.8Tb/s=9.6TB/s,大于芯片層過來的3.6TB(8*450GB)的2倍,可以實現1:1的傳輸。而DGX H100由于僅有4個NVSwtich芯片,可以支撐4*12.8Tb/s=6.4TB/s,小于8個H100帶來的3.6TB的2倍,因此需要做2:1的收斂來滿足流量設計的要求。
從下圖設備結構看,無論是L1與芯片的連接,還是L1與L2層設備的連接,都采用網絡端口OSFP的形式,因此計算下,拓撲圖中96個L1層交換機平分256個GH芯片上行帶來的256*450GB=115200GB流量,即平均每個L1層NVLink交換機32個端口中,有9.6Tb/s被下行流量占用,即12個800G端口,有9.6Tb/s要向北向,也是對應12個800G端口,因此共計填充了9.6Tb/s*2÷800G=24個端口,還有8個端口沒有被占用。
1.3.3. L2層NVLink交換機
L2層交換機端口全部用滿。由于L2層已經是結構的最上面一層,不難發現,把36個交換機全部端口容量加上,36*32*800G/8=115200GB,這個數字剛好是上述最底層256顆GH芯片產生的流量之和,這也側面印證了,整個網絡是一個無阻塞、Fat Tree的架構,同時L2層交換機端口全部用滿,因此產生了32*36=1152個800G端口需求。
1.3.4. 總結:單顆芯片:800G光模塊比例=1:9
我們下表整理了不同層級可能使用光模塊的情況,我們假設芯片至L1層交換機大概率使用銅纜OSFP的形態去連接,其余L1層往北向傳輸,以及L2層往南向傳輸大概率都用800G光模塊形態。
本章測算僅考慮NVLink網絡,是因為Nvidia通常會采用NVLink和Infiniband的架構,兩者的定位不同。其中,NVLink為特定系統或節點內部GPU與GPU連接的通信方式,速率非常高,目前通過NVLink 交換機可以擴展至最多256個GPU互聯。Infiniband網絡為通用高性能網絡,既可以用在GPU之間的通信,也可以用在CPU之間的通信,可以快速擴展到數千至數萬節點。雖然DGX GH200也配置了Infiniband的組網方式,英偉達自身要用最新發布的Spectrum-X 51.2T 64*800G的交換機將4個DGX GH200系統連接起來,但整體Nvlink的互聯帶寬和光模塊端口數占大頭,同時Infiniband組網結構未有細節,暫不考慮。
2.相關標的盈利預測
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。