沈向洋:大模型對算力需求每年增長四倍以上合成數(shù)據(jù)催生百億創(chuàng)業(yè)風(fēng)口
“從長遠的角度來看,人類社會發(fā)展每次巨大躍遷都是由技術(shù)創(chuàng)新帶來的。工業(yè)時代的全球GDP年均增速約為1%-2%,信息時代增速為3%-4%,人工智能時代,這個數(shù)字會是多少?”
11月22日,IDEA研究院創(chuàng)院理事長、美國國家工程院外籍院士沈向洋在2024 IDEA大會上表達了上述觀點。他強調(diào),隨著AI的各項能力逼近、甚至超越人類,AI治理已成亟待全球共同面對的議題。
當(dāng)天,粵港澳大灣區(qū)數(shù)字經(jīng)濟研究院(下稱IDEA研究院)發(fā)布DINO-X目標(biāo)檢測視覺大模型,該模型作為GroundingDINO系列升級之作,在多項能力上得到提升。
在檢測能力上,無需用戶提示即可檢測萬物,無論是常見物體還是罕見的長尾物體(出現(xiàn)頻率低但種類繁多的物體)都能精準(zhǔn)識別并給出類別。
得益于超1億高質(zhì)量樣本的大規(guī)模數(shù)據(jù)集多樣化訓(xùn)練,DINO-X對未知場景和新物體適應(yīng)性強,泛化能力出色,在實際應(yīng)用場景中更具靈活性。
在探討AI發(fā)展脈絡(luò)時,沈向洋提及算力、算法與數(shù)據(jù)層面變化。算力上,摩爾定律指出每18個月算力需求增長一倍,而當(dāng)下大模型對算力需求每年增長四倍以上,過去十年英偉達市值大幅攀升300倍與算力需求劇增緊密相關(guān),十年間算力需求增長約100萬倍。
算法層面,2017年Transformer架構(gòu)面世后,AI、深度學(xué)習(xí)、大模型多沿此路線發(fā)展,OpenAI的O1系列帶來算法突破思路,改變過往單純預(yù)訓(xùn)練預(yù)測“下一個token”模式,融入類似人思考、推理的后訓(xùn)練、后推理過程。
數(shù)據(jù)方面,“缺數(shù)據(jù)”已經(jīng)成為大模型行業(yè)內(nèi)的共識之一。隨著GPT系列發(fā)展,數(shù)據(jù)需求激增。沈向洋透露,距離GPT3面世已經(jīng)過去三年,當(dāng)時OpenAI用了2T數(shù)據(jù),1萬億Token。GPT4用了12T數(shù)據(jù),訓(xùn)練用了20T數(shù)據(jù),“事實上,互聯(lián)網(wǎng)上洗干凈的數(shù)據(jù)大概是20萬億。”
沈向洋認(rèn)為,GPT5預(yù)計需200T數(shù)據(jù)規(guī)模,合成數(shù)據(jù)可以給大模型提供更為豐富的訓(xùn)練材料,還有望催生未來百億美金級別的創(chuàng)業(yè)機遇。
“互聯(lián)網(wǎng)上已經(jīng)找不到那么多的數(shù)據(jù),未來需要更多高質(zhì)量的合成數(shù)據(jù)訓(xùn)練未來的模型。”他舉例稱,1萬億的數(shù)據(jù)約等于500萬本書,20萬張高清照片,抑或500萬篇論文。人類歷史上的書籍大概是21億Tokens,微博有38億Tokens,F(xiàn)acebook大概擁有140TTokens的數(shù)據(jù)。
當(dāng)下互聯(lián)網(wǎng)數(shù)據(jù)存量告急,社交媒體數(shù)據(jù)質(zhì)量欠佳,合成數(shù)據(jù)受重視,且私域數(shù)據(jù)利用存在安全孤島問題。對此,IDEA研究院通過IDEADataMaker用加密方式利用私域數(shù)據(jù)生成新語料、語境圖譜。
(文章來源:界面新聞)
- 免責(zé)聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認(rèn)可。 交易和投資涉及高風(fēng)險,讀者在采取與本文內(nèi)容相關(guān)的任何行動之前,請務(wù)必進行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。