鄭緯民院士:中國大模型能走在世界前列,目前多數(shù)萬卡集群不好用
1月8日,環(huán)球時報、中國科協(xié)新技術(shù)開發(fā)中心、清華大學技術(shù)創(chuàng)新研究中心等單位聯(lián)合發(fā)起新質(zhì)生產(chǎn)力產(chǎn)業(yè)實踐洞見活動。
會上,中國工程院院士、清華大學計算機系教授鄭緯民表示,2024年國內(nèi)大模型產(chǎn)業(yè)主要有兩大特點,即從基礎(chǔ)大模型向多模態(tài)發(fā)展以及大模型+行業(yè),并認為我國在發(fā)展大模型+各行各業(yè)上優(yōu)勢突出,有可能走在世界前列。
鄭緯民院士展開介紹了大模型生命周期的五個環(huán)節(jié),以及不同環(huán)節(jié)存在的問題。第一個環(huán)節(jié)是數(shù)據(jù)獲取,其難點在于文件數(shù)量多且讀取頻繁,大模型訓練過程可能需要處理百億級別的數(shù)據(jù)文件。
第二個環(huán)節(jié)是數(shù)據(jù)預處理,數(shù)據(jù)質(zhì)量不高不能直接用于訓練,所以需要預處理。以GPT-4為例,1萬塊卡訓練11個月,差不多有半年時間在做數(shù)據(jù)預處理,效率非常低。
目前國際采用的主流軟件是開源的Spark,優(yōu)勢是生態(tài)佳,可擴展性、容錯性好。缺點有兩點,是處理速度比較慢,受限于Java語言本身的條件,二是Spark采用了內(nèi)存計算,即把要處理的數(shù)據(jù)放到內(nèi)存里計算,放到內(nèi)存比放到硬盤的計算速度快,但是內(nèi)存的價格高、容量低。如果有一個T的數(shù)據(jù)要處理,那就需要占用內(nèi)存20T。
清華大學研究了部分模塊用C++來寫,同時擦去一些辦法降低內(nèi)存占用,低至數(shù)據(jù)規(guī)模的2倍到3倍,有可能將數(shù)據(jù)預處理時間縮短一半。
第三個環(huán)節(jié)是模型訓練,模型訓練需要大量的計算、存儲等相關(guān)技術(shù),鄭緯民院士重點提及了可靠性。假如10萬張卡組成一個系統(tǒng),每一個小時出一次錯,就會大幅降低訓練效率,這已經(jīng)是世界先進水平。
目前業(yè)內(nèi)的通用做法是,在訓練到一定程度時主動“暫停”,比如40分鐘時把軟硬件的狀態(tài)記下來, 然后繼續(xù)訓練,等到下一次出錯恢復到前一個標記點繼續(xù)訓練,但是數(shù)據(jù)量大且復雜,效率仍然有待提高,目前行業(yè)在探索更高效的讀寫方案。
第四個環(huán)節(jié)是模型微調(diào),基礎(chǔ)大模型訓練出來需要針對特定行業(yè)或者場景二次訓練,比如醫(yī)療行業(yè),在基礎(chǔ)大模型之上結(jié)合醫(yī)院數(shù)據(jù)再訓練一次,得到一個醫(yī)療領(lǐng)域的大模型,也可以進一步第三次訓練,比如在醫(yī)院大模型上結(jié)合B超數(shù)據(jù)再訓練一次,得到一個B超領(lǐng)域相關(guān)的大模型,連續(xù)多次訓練得到更小領(lǐng)域的大模型,這也是微調(diào)的主要作用。
第五個環(huán)節(jié)是推理,即將訓練好的大模型應用在具體場景。
AI芯片是大模型產(chǎn)業(yè)焦點,鄭偉民院士指出,產(chǎn)業(yè)各界聚焦大模型下一步要著力探索構(gòu)建國產(chǎn)萬卡系統(tǒng)和異構(gòu)卡聯(lián)合訓練,更好支撐起國產(chǎn)大模型訓練。
他說,國產(chǎn)AI芯片最近兩三年取得了很大的進步,但是從嚴格的角度來說,國產(chǎn)的卡用戶不太喜歡用,不是硬件做得不好,而是生態(tài)不太好。
如何定義生態(tài)好不好?如果原來有一個軟件是基于英偉達開發(fā),現(xiàn)在很容易移植到國產(chǎn)系統(tǒng)上,就是生態(tài)好,如果移植起來沒有兩年、三年移不完,移不成功,生態(tài)就不好。基于新的硬件新寫軟件也是同理,目前的策略是開發(fā)更多的軟件系統(tǒng)優(yōu)化生態(tài),讓多張卡同時訓練有更好的線性加速比。
鄭緯民院士最后總結(jié),構(gòu)建國產(chǎn)萬卡系統(tǒng)很重要,也很難,但一定要建,萬卡系統(tǒng)總的來說達到基本可用,特別是軟件生態(tài)要建好,此外,要重視異構(gòu)卡聯(lián)合訓練。
中國算力進入新一輪快速發(fā)展周期,主要源于東數(shù)西算和大模型訓練,智能算力發(fā)展最快。大模型訓練高端卡用得比較多,中低端卡用得比較少,大概只有30%的利用率,國產(chǎn)軟件生態(tài)建設(shè)得當,有望把30%利用率提高到60%。
會上,科大訊飛聯(lián)合創(chuàng)始人、高級副總裁江濤表示,基于昇騰AI云服務,科大訊飛聯(lián)合華為推出國內(nèi)首個萬卡規(guī)模大模型算力平臺“飛星一號”,能夠?qū)崿F(xiàn)大模型訓練推理一體化設(shè)計,解決大模型時代“卡脖子”問題,并不斷優(yōu)化集群訓練效率。在此平臺上, 訊飛星火大模型持續(xù)迭代至4.0 Turbo,綜合指標上已達到GPT-4 Turbo水平,數(shù)學能力、代碼能力超過GPT-4o。
華為云大數(shù)據(jù)與AI領(lǐng)域總裁尤鵬表示,未來基礎(chǔ)模型可能會收斂到三家,不會超過五家,會有大量的企業(yè)去做上面的行業(yè)模型以及行業(yè)落地。
華為云結(jié)合AI To B實踐總結(jié)出三個觀點:一、不是每一個企業(yè)都需要大規(guī)模建設(shè)AI算力。不排除資金比較雄厚的互聯(lián)網(wǎng)公司,它們的每個業(yè)務場景、每個推薦、每個搜索、每個內(nèi)容標簽、每個內(nèi)容生成都會用到大模型,但是可能95%的公司都不需要建數(shù)據(jù)中心,用云的方式可以以快速解決AI的訓練、增訓、推理,實現(xiàn)算力的高效利用。二、不是每一個企業(yè)都需要訓練自己的基礎(chǔ)模型,選擇業(yè)界主流基礎(chǔ)模型應用于自己的場景是比較經(jīng)濟的選擇,投資也比較少,周期也比較短,見效也比較快。三、不是說所有的應用都要追求大模型,世界從來都不是拋棄式的發(fā)展,而是繼承式的發(fā)展,原來的專業(yè)小模型可以繼續(xù)使用,大模型作為一個調(diào)度系統(tǒng),能夠很好地把大小模型調(diào)度起來,未來大模型系統(tǒng)是一個混合工程的平臺,通過大模型調(diào)度小模型,大模型為中模型、小模型去生成數(shù)據(jù)。(本作者 | 張帥,編輯 | 蓋虹達)
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內(nèi)容相關(guān)的任何行動之前,請務必進行充分的盡職調(diào)查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產(chǎn)生的任何金錢損失負任何責任。