首頁 > AI資訊 > 最新資訊 > “超強陣容”獻(xiàn)計國產(chǎn)大模型如何突圍?

“超強陣容”獻(xiàn)計國產(chǎn)大模型如何突圍?

新火種    2023-11-17

  “一個國產(chǎn)大模型要如何才能成為市場主流?需要跨越哪些關(guān)鍵的挑戰(zhàn)?”11月16日下午,在由科技部、深圳市人民政府共同主辦的“2023西麗湖論壇”平行分論壇,一場以“AI大模型的開源創(chuàng)新與賦能應(yīng)用”為主題的高峰對話正在進(jìn)行,清華大學(xué)計算機系陳文廣教授向百川智能創(chuàng)始人兼CEO王小川提出了一個所有大模型創(chuàng)業(yè)者都十分關(guān)心的問題,也引發(fā)了與會嘉賓的熱議。

  今年以來,人工智能大模型掀起了澎湃的科技創(chuàng)新與創(chuàng)業(yè)浪潮,許多科技巨頭與創(chuàng)業(yè)公司都在研發(fā)自身的大模型,形成了“百模大戰(zhàn)”的局面。在高峰對話當(dāng)中,來自政府、企業(yè)、高校的領(lǐng)軍人物圍繞國產(chǎn)大模型的突圍之道,進(jìn)行了熱烈的討論。

  除了目前市場普遍關(guān)心關(guān)注的可靠算力問題,記者梳理與會嘉賓的觀點發(fā)現(xiàn),國產(chǎn)大模型要在全球競爭當(dāng)中實現(xiàn)突圍,有三個重要的關(guān)鍵詞:優(yōu)質(zhì)數(shù)據(jù)、繁榮生態(tài)、產(chǎn)研合作。

  中國外文局副局長高岸明表示,根據(jù)研究,目前在國際信息流當(dāng)中,英文的內(nèi)容占到60%,而中文的信息流只占到大約2%,不僅遠(yuǎn)遠(yuǎn)低于英文,而且也低于很多非通用語種,高質(zhì)量中文語料的缺失為國內(nèi)大模型的訓(xùn)練帶來挑戰(zhàn)。“我們需要有海量、精準(zhǔn)、可靠的中文語料數(shù)據(jù)來訓(xùn)練我們的大模型。”高岸明表示。

  作為大模型創(chuàng)業(yè)公司中的佼佼者,百川智能發(fā)布的Baichuan-7B/13B(B為大模型訓(xùn)練參數(shù)數(shù)量,分別代表70億/130億參數(shù))兩款開源大模型累計下載量已超過600萬次。其背后的成功原因,離不開王小川“搜索”出身帶來的數(shù)據(jù)優(yōu)勢。記者注意到,在ChatGPT推出不久之后,王小川就曾公開指出,搜狗輸入法和搜狗搜索的數(shù)據(jù)制備和產(chǎn)品形態(tài)與ChatGPT接近,都是把互聯(lián)網(wǎng)上的全部語言數(shù)據(jù)收集、清洗,壓縮成數(shù)據(jù)并構(gòu)建超級產(chǎn)品。

  “我可以很自豪地說,在開源大模型里面,百川智能的水平在中文方面已經(jīng)超越了LLaMA。”王小川說。目前,Meta公司的開源大模型ChatLLaMA是國際上最為主流的開源大模型之一。王小川表示,百川智能采用的是搜狗從搜索引擎時代開始就積累的萬億級數(shù)據(jù),在其中選取最優(yōu)質(zhì)的數(shù)據(jù),從而取得了良好的訓(xùn)練效果。

  當(dāng)前,國內(nèi)外競逐大模型都采取開源和閉源兩條腿并行的模式。開源即開放源代碼,允許開發(fā)者查看、修改和分發(fā)開源代碼;而閉源則與之對應(yīng),用戶只能對產(chǎn)品有使用的權(quán)利,沒有修改的權(quán)利。業(yè)內(nèi)普遍認(rèn)為,閉源契合知識產(chǎn)權(quán)保護(hù),順應(yīng)投資與獲取利潤的邏輯,而開源則有助于技術(shù)的快速迭代與創(chuàng)新,形成繁榮的生態(tài)。

  “兩種技術(shù)路線有各自的邏輯,不能簡單判斷哪一種更好,但是我認(rèn)為事物的發(fā)展必須要有多樣性。在大模型研發(fā)的生態(tài)環(huán)境中,既會有開源的做法,也會有閉源的做法。”中國工程院院士、鵬城實驗室主任高文說。他進(jìn)一步表示,鵬城實驗室與百川智能在開源大模型方面開展了密切合作,并將模型提供給全社會使用,從而助力打造更加活躍與繁榮的生態(tài)。

  大模型時代中,產(chǎn)研合作的作用變得更為突出。由于大模型研發(fā)需要投入巨額的算力,目前該領(lǐng)域的創(chuàng)新主要來自于資金實力更為雄厚的企業(yè)。北京郵電大學(xué)人工智能學(xué)院教授何召峰曾公開表示,在大模型領(lǐng)域,高校不太可能與大企業(yè)競爭,但二者之間有廣闊的合作空間,緊密的產(chǎn)研合作能助力國產(chǎn)大模型實現(xiàn)更快的發(fā)展,二者應(yīng)結(jié)合各自優(yōu)勢,進(jìn)行針對性的合作。

  據(jù)了解,鵬城實驗室與百川智能合作研發(fā)了“鵬城-百川·腦海33B”長窗口大模型。這一大模型也在此次高峰對話后正式發(fā)布。據(jù)介紹,該大模型是國產(chǎn)算力平臺的最長上下文窗口模型,實現(xiàn)了段落、句子粒度的自動化數(shù)據(jù)過濾、選擇和配比,能支持128K的上下文窗口長度,即一次可容納相當(dāng)于300多頁文本內(nèi)容的提示詞,后續(xù)還將升級至192K。值得注意的是,不久前ChatGPT發(fā)布了最新迭代版的GPT-4 Turbo產(chǎn)品,其中的一個變化便是上下文窗口長度由32K擴展至128K。

  “在去年ChatGPT發(fā)布后,國內(nèi)整體處于比較焦慮的狀態(tài),如今已經(jīng)比年初好很多了。”王小川表示,目前無論是科技巨頭還是獲得資本加持的創(chuàng)業(yè)公司,都在加速向前邁進(jìn),他期待國內(nèi)大模型的突圍能夠在明年到來。

(文章來源:證券時報)

相關(guān)推薦
免責(zé)聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認(rèn)可。 交易和投資涉及高風(fēng)險,讀者在采取與本文內(nèi)容相關(guān)的任何行動之前,請務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。

熱門文章