首頁 > AI資訊 > 最新資訊 > 2023中國高新技術論壇主旨演講——新加坡國立大學校長青年教授、潞晨科技創始人兼董事長尤洋

2023中國高新技術論壇主旨演講——新加坡國立大學校長青年教授、潞晨科技創始人兼董事長尤洋

新火種    2023-11-22

今天很高興來到深圳和大家交流,我今天主要介紹一下大模型訓練的一些關鍵技術,我們公司打造了面向大模型開發的軟件系統叫Colossal-AI,我今天會重點介紹一下我們如何通過更好的軟件,把相同硬件的價值發揮出來,同時大幅度降低AI大模型訓練部署的成本。

image首先跟大家看一張圖。這張圖大家在別處可能也見過,它的橫坐標是時間,縱坐標就是AI模型的參數量,從這張圖可以看出有兩條虛線和一條實線,兩條虛線代表的是過去6年人工智能大模型每年平均,或者每18個月參數量增長40倍。比如2016年的時候,當時世界上最好的AI模型像微軟亞洲研究院的,只有2000萬參數。到2020年6月份,其實Chat GPT的核心技術,GPT3在疫情那一年的暑假已經出來了,有1750億參數。從2016年-2020年,大模型一直是在高速蓬勃的發展,在短短四年之中,沒有被大眾關注到的時候,它的參數已經增長了一萬倍。很有意思的點是,我們這一波用的大模型都是人工神經網絡,到2015年前后的時候,大家都叫這個技術是深度學習,因為它相對80年代的神經網絡多了很多層。

我們看一下現在的大模型,比如2016年的時候的Resnet50是50層,2020年的GPT3的參數沒有超過100層,我們現在這種AI的技術不能再叫做深度學習,其實更像是寬度學習,因為模型的層反而變得更寬了。但是現在一個很嚴重的問題是我們的算力、硬件跟不上,不管是中國還是美國,都無法充分地去滿足大模型訓練的全部能力。為什么?其實我們都知道,現在的GPT3、GPT4動輒都需要上T的內存,世界上最好的GPU,英偉達的H系列只有100GB左右內存,我們的單個GPU遠遠不足夠去訓練大模型,這就是我們為什么需要成千上萬,甚至以后上十萬GPU訓練大模型的核心原因。

我總結一下,從AI技術發展看到的問題,首先大模型成本特別高,根據一些報道,Open AI的消息,他們訓練GPT4的時候用了2000個GPU,成本是一美元一小時,大概是6300萬美元左右,換上H100之后,他的成本降到2100萬美元,不知道是不是在給英偉達打廣告,直接換一個硬件,成本降了3倍,省了4000多萬美元,這還是非常讓人眼前一亮的。即便我們現在想訓一個不是那么大的模型,像Palm,相當于谷歌版的GPT,它有5400億個參數,訓練它要900萬美元,用A100訓練的話,需要300年。我們訓練大模型,如果只用幾個GPU訓練,雖然理論上可行,但是基本上這個產品就沒法做了,300年顯然是無法接受的。

我們的角度來看,我認為未來AI大模型的生態和基礎設施應該包括六層,首先最下層就是硬件,不管是英偉達的硬件,還是英特爾硬件、華為的硬件。第二層是更底層的軟件,這個軟件一般是由硬件廠商控制的。第三層是像集成管理工具,RAY 、SLURM等等這些工具。任務管理工具就是把上百個任務合理劃分給GPU,相當于我是一個將軍一樣,要指揮一百個兵團作戰,如何把有限的資源分給這一百個兵團,是集成管理工具要干的事情。第四層是集成訓練,我的兵團內的這些士兵相互配合好去完成一個任務,這是分布式訓練所做的事情。第五層是用戶的編程接口。第六層是現在的大模型,不管是ChatGPT、llama等都是屬于這一層。我簡單解釋一下,大模型到來的時代,第三層和第四層的關系發生很大變化,之前的模型不是很大的情況下,我們有一萬個GPU,每天或者每個月要訓10萬個任務數,一個GPU同時在訓多任務,多個小任務驅動環境,使得這個集群管理工具變得非常重要。但是現在大模型時代的計算特點發生了實質上的變化,一個任務占據了1000個GPU,占據20天、30天,或者一個任務占據5000個GPU一個月,它便成了每個任務都很重,所以任務之間的關系不是那么重要,因為我是一個一個很粗大的任務,把任務內的上千個GPU分配好是更關鍵的技術。為了應對目前的問題,我們團隊打造了Colossal-AI這個軟件,Colossal-AI主要包括三個層次,第一個層次是內存管理系統,我們希望通過Colossal-AI去大幅度降低AI大模型訓練的內存開銷和硬件需求成本。第二層就是并行技術,我們未來需要成千上萬個GPU去訓練,我把GPU的數量從十個上升幾百倍,能否有效實際進行加速,GPU和GPU的數據傳輸和服務器與服務器的數據傳輸占滿運行時間的80%到90%,我們的效率只有10%左右或者20%,這就是為什么英偉達要斥巨資收購ARM的原因。我們在全國都有很多算力,但是我們無法把它集中起來訓練一個模型,因為這個數據傳輸的開銷會遠大于計算的開銷,我們假定把內蒙古、北京、上海、天津各個分散的算力集中起來訓練一個ChatGPT,它的訓練速度還不到10個GPU的訓練速度,因為它的所有計算能力都會浪費在通信上。因為這是現在大模型的特點,我們的大模型是很大的參數,我把它分割成很多塊之后,最終都是需要匯總同步結果的。

通過Colossal-AI軟件,現在我們也在全球收獲很多用戶,我們在全球的下載榜單上非常好的。這張圖的橫坐標就是時間,豎坐標就是它的增速,我們的Colossal-AI已經超過了英偉達的訓練工具,在AI軟件基礎設施,我們是排名最高的。Colossal-AI的用戶遍布全球,中國、美國、歐洲、印度、東南亞都有很多的Colossal-AI的用戶。我們知道現在NeurIPS是AI世界峰會,我們也入選了NeurIPS等頂級會議的官方tutorial。

我接下來幾分鐘簡單介紹一下Colossal-AI的核心技術,第一個是N維并行系統,它的核心目標就是希望通過更好的優化,把上千個GPU的能力徹底釋放出來,比如我們都知道Open AI用了2500個GPU訓練他們的ChatGPT。但是還有一組數字更現實一點,它的GPU利用率只有30%多,像OpenAI、微軟水平這么高的團隊,它用GPU不是很高效,只有30%的效率。我和華為的朋友交流,他們用昇騰在訓自己的模型,但是問題是每訓一天,就有一些機器要出現故障,從出現故障到找到這些故障也需要一天,雖然我們的人工智能現在這么發達了,但是我們處理物理機器的效率還是很低。未來我們操控上萬個GPU,如何把這些GPU穩定地運行一個月,其實這是一個技術含量非常高的工作。第一個就是節點崩潰問題,傳統的機房或者大規模計算都有這樣的問題,更嚴重的就是它的效率問題,比如說我們用商網GPU,一個集群GPU能否獲得成千上萬倍的加速是非常核心的問題。所以Colossal-AI團隊就打造了六維并行技術,通過盡可能的所有的并行計算把每個單位GPU的效率都發揮到極致,其中包括流水線并行、張量并行、數據并行,它的核心思想就是用更多的局部通信去替換一個全局通信,我們在深圳開十個小時會議的代價高于我飛到洛杉磯開一個會議。GPU與GPU的通信遠慢于GPU內部的計算,這是上百倍,上萬倍的關系。

在里我說一下目前AI大模型訓練的核心技術的現狀,GPT3出現以后,做GPT3的訓練就是英偉達,英偉達用3072個GPU訓練GPT3。經過幾年的迭代,大家基本走向了一致,就是數據并行、張量并行、流水線并行,未來會是任何AI大模型訓練的核心技術。我剛才也簡單介紹了Colossal-AI團隊的方案,比如我們設定了2維張量并行、2.5維張量并行、3維張量并行,把更多的張量并行把層內計算分割到硬件上,通過最小化的通信實現效率最大化。我們覺得張量并行可能是未來發展空間更大的,因為未來的模型變得更寬,而不是變得更深,比如說今天的GPT,或者LLM都沒有超過一百層,包括網傳GPT4是把多個專家放在同一個層,它的層變得更寬了,張量并行的發展空間,在以后很大的情況下,張量并行的優化變得至關重要。

現在的很多模型都會聲稱自己支持超長序列的功能,為什么超長序列很重要?因為GPT類模型的核心原理是通過上下文的信息去預測下一個單詞的概率,但是如果這個上下文太長,它會帶來嚴重內存開銷,所以我們就打造了環狀通信的Self Attention,就是通過環狀的方式去交換信息,這樣就把通信復雜度從N平方變成N-1。舉一個非常簡單的例子,現在大家都坐在這里會場里,每個人都抱了一包很大很大的零食,我現在想讓所有人都嘗一下其他所有人的零食,顯然最基本的方式就是兩兩互換,這樣我們有一百人,就需要一萬次操作,有P個人,就需要P平方次操作。這個方式顯然不是最優的,最優的方式是大家手拉手拉成一個圈,我把這個零食拿過來,吃了之后再傳給另外一個人,大家都這樣操作,P-1次就可以完成這個操作,復雜的環狀Self Attention系統就是這樣實現的。

Colossal-AI也提供了高效內存管理系統,主要是為了應對現在AI大模型訓練的需求。比如說我們現在一個很典型的GPU服務器就是這樣的構造,往往有多個GPU,CPU內存,以及硬盤,這三者的關系是GPU最貴最小,CPU內存更大更便宜,DISK是最大最便宜。舉個例子,我需要在深圳蓋一棟樓,需要很多原材料,這個原材料如果放不下,我就放到樓下工地,樓下工地放不下就放到隔壁工廠,隔壁工廠放不下,我就放到東莞,但是如果我每蓋一層樓到東莞拿原材料,這個開銷非常大。我們在顯卡內存有限情況下,我們需要把內存卸載到CPU上,就需要最小化CPU和GPU的數據移動。Colossal-AI通過一套高效的軟件系統優化,我們可以把張量進行高效的分組和移動,卸載到GPU上。目前Colossal-AI的效果非常好,在這里給大家展示一張圖,左上方這張圖就是一個很直接的比較,在同樣的設備條件下,可以看到Colossal-AI相比原生PyTorch提升上百倍的模型容量。比如說,我現在想訓練GPT3,我本來需要100臺機器,現在不到10臺機器就可以了。通過更好的優化,Colossal-AI把Chat GPT的訓練速度提高10倍左右,我們現在也開源了流程的復現方案。Colossal-AI前一段時間發布了Colossal-LLaMA-2模型,它比國內任何大模型公司的模型下載量都要高,我們是做基礎設施的公司,但是我們的人工智能模型也做得比較好。我們少兩個數量級數據的情況下,性能達到甚至超過了各大知名模型廠商。我們通過Colossal-LLaMA-2的技術方案,幫助客戶部署了他們自己的大模型。客戶的疑慮是布置大模型的成本很高,我們只需要通過幾千塊錢的預算,可以快速迭代出高質量的私有化模型,他們就很愿意嘗試,通過Colossal-LLaMA-2,我們幫助客戶落地他們結合私有數據的業務大模型,見到效果后,他們也有信心做更大的模型。雖然只有70億參數成本便宜,但也能夠測試一些初步的效果,未來幾百億參數也不是太難。包括Colossal-LLaMA-2是排在全球開源社區的第一位,世界頂級AI技術峰會上的模型列表也包括了Colossal-LLaMA-2。

最后我簡單介紹一下我們公司的產品。我們公司很榮幸也在成立兩年多的情況下收獲了很多融資,我們的投資人包括紅杉、華為、新加坡電信等等,通過跟這些渠道合作,我們打造了云平臺和一體機。Colossal-AI云平臺就是希望客戶用兩個初始工程師就可以取代原來30個AI專家加上一千個GPU干的事情,我們公司通過軟硬一體的方案,把這個算力成本降到最低,我本來訓練一個Chat GPT需要一千萬美金,現在在云平臺上400萬美金、300萬美金可以做,本來我有一億人民幣的預算訓10個模型,我們現在可以訓20個甚至10倍參數量的模型,可以幫助客戶把模型訓練質量更好,幫助用戶賺更多的錢。我們也打造了Colossal-AI一體機,讓客戶可以一鍵部署自己的產品,我們的很多模型在一體機里都有,各位如果感興趣可以看一下我們公司的二維碼,我們公司的代碼基礎部分都是開源的,第一個就是Colossal-AI的系統,開發者可以自由嘗試和驗證。

謝謝大家。

相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章