首頁 > AI資訊 > 最新資訊 > 中國工程院院士鄭緯民:構(gòu)建國產(chǎn)萬卡系統(tǒng)應(yīng)避免“木桶效應(yīng)”

中國工程院院士鄭緯民:構(gòu)建國產(chǎn)萬卡系統(tǒng)應(yīng)避免“木桶效應(yīng)”

每日經(jīng)濟新聞    2024-12-14

  12月12日,“突破新邊界·智見新未來”2024大模型技術(shù)與應(yīng)用創(chuàng)新論壇在北京舉行。會上,中國工程院院士、清華大學(xué)計算機系教授鄭緯民表示,今年大模型發(fā)展有兩個特點,第一是基礎(chǔ)大模型進(jìn)入多模態(tài)狀態(tài),文本之外,還有圖像、視頻,也就是多模態(tài)。第二是“用起來”,“大模型+”應(yīng)用于各行各業(yè),如“大模型+金融”“大模型+醫(yī)療”“大模型+汽車”“大模型+智能制造”等。

  中國工程院院士、清華大學(xué)計算機系教授鄭緯民

  他表示,我國在“大模型+”領(lǐng)域,有希望超過美國。通過講解大模型生命周期的五個環(huán)節(jié),鄭緯民認(rèn)為,當(dāng)前大模型發(fā)展的難點在于算力、存儲、時間成本。構(gòu)建國產(chǎn)萬卡系統(tǒng)重要但尚存困難,需要避免“木桶效應(yīng)”。

  算力、存儲、時間成本是大模型開發(fā)過程的難點

  鄭緯民通過講解大模型生命周期的五個環(huán)節(jié),闡述當(dāng)前大模型發(fā)展的難點。他介紹,大模型生命周期的五個環(huán)節(jié)分別是數(shù)據(jù)獲取、數(shù)據(jù)預(yù)處理、模型訓(xùn)練、模型微調(diào)和模型推理。

  在數(shù)據(jù)獲取環(huán)節(jié),核心任務(wù)是從全球各地收集訓(xùn)練數(shù)據(jù)。盡管收集到的文件體積較小,有利于節(jié)省存儲空間,但數(shù)量極其龐大,達(dá)到數(shù)百億個。這些文件需要被存儲在硬盤上,并記錄其在硬盤上的具體位置,這個過程被稱為源數(shù)據(jù)處理。由于文件數(shù)量巨大,需要多臺計算機協(xié)同工作以存儲、記憶這些位置,這對計算機來說是一項挑戰(zhàn)。隨著位置數(shù)量的增加,查找特定文件的位置變得更加耗時,因此如何高效地存儲和檢索數(shù)據(jù)成為數(shù)據(jù)獲取階段的關(guān)鍵問題。

  其次是數(shù)據(jù)預(yù)處理環(huán)節(jié)。在這一階段,收集到的數(shù)據(jù)由于質(zhì)量參差不齊、格式不一致,并且包含廣告、重復(fù)內(nèi)容等不需要的信息,因此需要進(jìn)行預(yù)處理以提升數(shù)據(jù)質(zhì)量。預(yù)處理包括去除重復(fù)內(nèi)容、廣告等,以確保數(shù)據(jù)質(zhì)量的提高能夠帶來更好的訓(xùn)練結(jié)果。預(yù)處理過程相當(dāng)復(fù)雜,據(jù)統(tǒng)計,在GPT4的訓(xùn)練過程中,預(yù)處理占據(jù)了一半的時間,成為訓(xùn)練效率的瓶頸。如何提高預(yù)處理的速度,是大數(shù)據(jù)處理中的一個難題。

  第三階段是模型訓(xùn)練。這一階段需要大量的算力和存儲空間,最終得到基礎(chǔ)大模型,面臨的問題眾多。例如,如果在訓(xùn)練過程中硬件出現(xiàn)故障,就需要重新開始訓(xùn)練。為了避免這種情況,可以在訓(xùn)練到一定時間后主動暫停,記錄當(dāng)時的硬件和軟件環(huán)境,以便在故障發(fā)生后能夠從記錄的點繼續(xù)訓(xùn)練,而不是從頭開始。然而,對于大模型來說,訓(xùn)練數(shù)據(jù)量巨大,主動保存數(shù)據(jù)到硬盤可能需要數(shù)小時,這會導(dǎo)致效率低下。因此,如何縮短這一過程,使其在10到20分鐘內(nèi)完成,是訓(xùn)練階段需要解決的問題。

  第四階段是模型微調(diào)。基礎(chǔ)大模型雖然已經(jīng)訓(xùn)練完成,但若要應(yīng)用于特定領(lǐng)域,如醫(yī)療,還需要進(jìn)一步的訓(xùn)練。微調(diào)是在基礎(chǔ)大模型的基礎(chǔ)上,針對特定領(lǐng)域的數(shù)據(jù)進(jìn)行的第二次訓(xùn)練。例如,基礎(chǔ)大模型訓(xùn)練數(shù)據(jù)中醫(yī)院的數(shù)據(jù)量太少,因此需要在基礎(chǔ)大模型的基礎(chǔ)上進(jìn)行微調(diào),以適應(yīng)醫(yī)院的需求。這個過程可以繼續(xù)細(xì)分,例如,可以針對B超數(shù)據(jù)進(jìn)行第三次訓(xùn)練,以得到專門用于B超的模型。微調(diào)實際上是在基礎(chǔ)大模型的基礎(chǔ)上,根據(jù)不同領(lǐng)域的需求形成領(lǐng)域、行業(yè)大模型。

  最后是模型推理階段,這是模型實際應(yīng)用的過程。推理階段同樣需要大量的算力和存儲,并且耗時較長。整個大模型的開發(fā)過程都需要考慮到算力和存儲的需求,以及時間成本。

  構(gòu)建國產(chǎn)萬卡系統(tǒng)應(yīng)避免“木桶效應(yīng)”

  談到產(chǎn)業(yè)期待,鄭緯民院士表示,構(gòu)建國產(chǎn)萬卡系統(tǒng)(由一萬張及以上的加速卡,包括GPU、TPU及其他專用AI加速芯片,組成的高性能計算系統(tǒng))很重要。目前,異地卡、異構(gòu)卡訓(xùn)練效果較差,資金有限的公司暫時不要考慮,資金充裕的公司可以嘗試。

  首先,萬卡系統(tǒng)的重要性不言而喻,我們都非常希望能夠擁有這樣的系統(tǒng),但目前的發(fā)展?fàn)顩r并不理想,實現(xiàn)起來相當(dāng)困難。構(gòu)建國產(chǎn)萬卡系統(tǒng)不僅重要,而且難度很大。由于外部供應(yīng)受限,我們迫切需要建立自己的萬卡系統(tǒng),盡管這是一個艱巨的任務(wù)。對萬卡系統(tǒng)而言,所謂的“好”,指的是一旦建成,能夠被廣泛接受并認(rèn)為好用,但要達(dá)到這樣的目標(biāo)非常具有挑戰(zhàn)性。

  目前,我們構(gòu)建的卡系統(tǒng)用戶接受度如何?例如,第一塊卡來自A公司,第二塊來自B公司,第三塊來自C公司。當(dāng)這些卡一起使用時,使用的效果取決于最差的那張卡。我們應(yīng)該避免這種組合方式,建議減少數(shù)量,深入研究,避免“木桶效應(yīng)”。1000個舊CPU和1000個新CPU組合使用時,性能甚至還不如單獨使用2000個舊CPU,我們?yōu)槭裁匆@樣做呢?

  其次,異地卡和異構(gòu)卡在訓(xùn)練中的效果非常差,目前不建議考慮。異構(gòu)卡和異地卡的聯(lián)合訓(xùn)練效果并不理想。在異構(gòu)卡的情況下,問題變得更加復(fù)雜。即使是靜態(tài)情況下,我們也不將它們組合使用,中國人和美國人都不這樣做,因為不劃算。我們所說的聯(lián)合訓(xùn)練,以及異地卡的問題,更是難上加難。例如,數(shù)據(jù)從北京傳輸?shù)劫F州可能需要5天時間,而貴州處理完結(jié)果再發(fā)送到上海又需要5天,這如何實現(xiàn)?因此,異構(gòu)卡和異地卡的訓(xùn)練效果不佳。資金有限的公司暫時不要考慮,資金充裕的公司可以嘗試。

(文章來源:每日經(jīng)濟新聞)

相關(guān)推薦
免責(zé)聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認(rèn)可。 交易和投資涉及高風(fēng)險,讀者在采取與本文內(nèi)容相關(guān)的任何行動之前,請務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。

熱門文章