大模型卷潮小模型叩關(guān)
來(lái)源:21世紀(jì)經(jīng)濟(jì)報(bào)道
大模型浪潮轟轟烈烈,“小模型”另辟蹊徑——參數(shù)小、占內(nèi)存少、反應(yīng)速度快、可以本地化運(yùn)行。
近日,微軟推出了SLM(小語(yǔ)言模型)Phi-3系列,在多項(xiàng)基準(zhǔn)測(cè)試中比肩大模型能力。微軟強(qiáng)調(diào)Phi-3的高性?xún)r(jià)比,“便宜得多,但響應(yīng)能力接近比它大10倍的模型”,號(hào)稱(chēng)能力對(duì)標(biāo)GPT3.5,并稱(chēng)Phi-3是目前同類(lèi)中最強(qiáng)大且最具成本效益的小型語(yǔ)言模型。
蘋(píng)果也緊隨其后公布了“小模型”家族——四款預(yù)訓(xùn)練的大模型Open ELM,體量極小,宣告離“讓人工智能在蘋(píng)果設(shè)備上本地運(yùn)行”的目標(biāo)更近一步。
巨頭們的新動(dòng)作體現(xiàn)了AI競(jìng)賽的另一個(gè)分支。以小模型降耗增能,在性能、安全性等維度追平大模型,加速AI在終端設(shè)備的普及。
未來(lái),大小模型混搭,以合適的模型匹配對(duì)應(yīng),成為用戶(hù)實(shí)現(xiàn)AI訴求的可取路徑。
“在一些特定場(chǎng)景中,經(jīng)過(guò)精調(diào)后的小模型,其使用效果甚至可以媲美大模型。”百度創(chuàng)始人、董事長(zhǎng)兼首席執(zhí)行官李彥宏近日就曾有過(guò)論斷,“未來(lái)大型的AI原生應(yīng)用將主要采用大小模型混合使用的方式,根據(jù)不同場(chǎng)景選擇適合的模型。”
IBM中國(guó)數(shù)據(jù)與人工智能首席架構(gòu)師徐孝天在接受21世紀(jì)經(jīng)濟(jì)報(bào)道記者采訪(fǎng)時(shí)指出:“具體到應(yīng)用層面,如果應(yīng)用考慮的是通用AIGC,那么目前的大模型能力會(huì)更廣;但如果是專(zhuān)有的某個(gè)領(lǐng)域,小模型其實(shí)是非常好的選擇。”
“最近一兩年內(nèi),小模型與大模型并存是生成式AI更合適的發(fā)展格局,但更長(zhǎng)遠(yuǎn)看,可能會(huì)有更經(jīng)濟(jì)高效的模型結(jié)構(gòu)取代當(dāng)前Transformer為主的大模型,比如KAN(Kolmogorov–Arnold Networks)模型結(jié)構(gòu)。”徐孝天也提出了另一種設(shè)想。
實(shí)際上,現(xiàn)行大模型Transformer框架,的確被業(yè)內(nèi)認(rèn)為走到了瓶頸期,小模型作為一條高效分支,提供的是實(shí)用化捷徑,而要想達(dá)成AIGC,還有更遠(yuǎn)的路要走。
對(duì)于什么是小模型,AI界尚無(wú)標(biāo)準(zhǔn)化界定,但業(yè)界普遍認(rèn)同小型語(yǔ)言模型是大語(yǔ)言模型的簡(jiǎn)化版本。
小模型被視為“瘦身版”的大模型,參數(shù)更少,一般參數(shù)量介于幾百萬(wàn)元素至幾千萬(wàn)元素,有些模型參數(shù)量達(dá)到上億元素,模型結(jié)構(gòu)也更簡(jiǎn)單。根據(jù)中工互聯(lián)創(chuàng)始人智振的觀(guān)點(diǎn),10億~30億參數(shù)的模型,應(yīng)該被稱(chēng)為輕量化大模型。
實(shí)際上,大模型門(mén)檻高企是一些廠(chǎng)商轉(zhuǎn)投小模型的動(dòng)因。目前GPT-4是唯一突破萬(wàn)億級(jí)參數(shù)的大模型,市面上大部分開(kāi)源大模型多為十億或百億級(jí)別。
究其原因,基于“大數(shù)據(jù)、大算力、強(qiáng)算法”的大模型的大規(guī)模預(yù)訓(xùn)練是一項(xiàng)燒錢(qián)的競(jìng)賽。咨詢(xún)研究公司Semi Analysis曾指出,排除故障、微調(diào)等諸多因素,GPT-4單次訓(xùn)練成本也高達(dá)6300萬(wàn)美元。
算力荒是大模型的困境之一,千億參數(shù)大模型部署在云端服務(wù)器,占據(jù)龐大算力資源。研究機(jī)構(gòu)Epoch AI數(shù)據(jù)顯示,訓(xùn)練尖端模型所需的算力每6到10個(gè)月就會(huì)翻一番。
“錯(cuò)失恐懼”驅(qū)動(dòng)下,任何一家想在AGI賽道博出位的企業(yè)都需要持續(xù)迭代,優(yōu)化參數(shù),比拼性能,而運(yùn)行巨型模型的顯卡、芯片等不可或缺,核心技術(shù)資源近乎被巨頭壟斷。
目前,已發(fā)布的大部分NLP大模型技術(shù),都是基于谷歌的Transformer技術(shù)架構(gòu),谷歌已對(duì)其進(jìn)行專(zhuān)利保護(hù)。種種跡象表明,大模型技術(shù)屬于技術(shù)完備的科技巨頭,行業(yè)馬太效應(yīng)明顯。
面對(duì)這場(chǎng)成本與基建較量,科技公司開(kāi)始尋覓其他路徑。小模型的登場(chǎng)降低了模型推理訓(xùn)練、算力部署的高昂成本,而巨頭們顯然有更深入的戰(zhàn)略考量。
2024年將是大模型走向落地應(yīng)用的關(guān)鍵之年,小模型最顯著的優(yōu)勢(shì)在于其能適合具體應(yīng)用。國(guó)內(nèi)一位AI創(chuàng)企人士告訴21世紀(jì)經(jīng)濟(jì)報(bào)道記者,如果說(shuō)大模型是一輛能量強(qiáng)但笨重的機(jī)甲戰(zhàn)車(chē),小模型則是一臺(tái)小巧玲瓏的小型武器,“射程”集中,所需數(shù)據(jù)更少,一旦鎖定特定場(chǎng)景,便能以高效取勝。
此外,就大模型存在的嚴(yán)重缺陷——“幻覺(jué)”而言,小模型雖尚不能破解人工智能模型應(yīng)用固有的幻覺(jué)難題,卻能“專(zhuān)注”學(xué)習(xí)某個(gè)狹窄領(lǐng)域的數(shù)據(jù),降低不相關(guān)、意外或不一致輸出的風(fēng)險(xiǎn)。
對(duì)大模型趨之若鶩的巨頭們開(kāi)始青睞低參數(shù)的小模型,始于去年上半年。比如谷歌定制的PaLM2輕量級(jí)選手“壁虎”,可以在移動(dòng)設(shè)備上離線(xiàn)運(yùn)行,展現(xiàn)出不錯(cuò)的交互式應(yīng)用能力。到了年底,小模型時(shí)代的大幕才緩緩拉起。
去年12月17日,法國(guó)創(chuàng)企Mistral AI率先發(fā)布Mixtral 8x7B模型,結(jié)合多個(gè)為特定任務(wù)訓(xùn)練的較小模型來(lái)提高運(yùn)行效率,基準(zhǔn)測(cè)試結(jié)果媲美GPT-3.5。時(shí)隔一天,微軟乘勢(shì)發(fā)布27億參數(shù)的Phi-2。小尺寸的Phi-2可以在筆記本電腦、手機(jī)等移動(dòng)設(shè)備上運(yùn)行,其邏輯推理和安全性均有改進(jìn)。
與此同時(shí),微軟組建新團(tuán)隊(duì)開(kāi)發(fā)小模型的消息也活躍于輿論場(chǎng)。今年2月,Google攜帶Gemma模型向Meta的Llama-2大模型發(fā)起挑戰(zhàn)。Gemma不僅性能出色,還被整合進(jìn)了開(kāi)源生態(tài)系統(tǒng),其2B版本甚至可以直接在筆記本電腦上運(yùn)行,這一舉措無(wú)疑為小模型的普及和應(yīng)用開(kāi)辟了新的道路。
從大模型落地終端開(kāi)始,行業(yè)就已察覺(jué)到小模型的風(fēng)口,但彼時(shí)科技巨頭的重心仍是遵照Scaling Law擴(kuò)充基礎(chǔ)模型能力,其舉措尚未明確釋放本地部署小模型的想象力。
如今,Phi-3秀出在手機(jī)端的流暢運(yùn)行力、蘋(píng)果將Open ELM塞進(jìn)iOS系產(chǎn)品等動(dòng)作共同導(dǎo)向一個(gè)方向:模型本地化和垂直化。
隨著AIGC技術(shù)進(jìn)入應(yīng)用階段,C端小體量應(yīng)用場(chǎng)景呼喚小模型。手機(jī)計(jì)算能力有限,而去中心化小模型無(wú)需昂貴的云計(jì)算設(shè)施和大量顯存消耗,微軟Phi-3只需占據(jù)1.8G的內(nèi)存。
塞進(jìn)手機(jī)的小模型也因此更能適應(yīng)個(gè)性化、精準(zhǔn)化的使用需求,用戶(hù)可以隨時(shí)隨地調(diào)用陪伴式的服務(wù),滿(mǎn)足用戶(hù)低頻、日常化的細(xì)分需求。同時(shí),小模型的本地化也能更大程度上保障用戶(hù)的數(shù)據(jù)控制權(quán)和隱私權(quán),推動(dòng)AI技術(shù)的健康發(fā)展。
國(guó)內(nèi)大模型創(chuàng)企擠進(jìn)生成式人工智能賽道也多遵循上述邏輯,中小企業(yè)放棄仰視通用大模型,腳踏實(shí)地專(zhuān)攻量身定制的小模型,尋找商業(yè)化解決方案。
不久前,長(zhǎng)期押注AIGC的商湯科技推出“日日新·端側(cè)大模型”,并在發(fā)布會(huì)現(xiàn)場(chǎng)呈現(xiàn)該模型在手機(jī)端的應(yīng)用場(chǎng)景,查看會(huì)議日程,設(shè)置群發(fā)消息等功能一氣呵成。
對(duì)于為何自研端側(cè)小模型,商湯科技董事長(zhǎng)兼CEO徐立給出了接地氣的答案,“如果幾十億端側(cè)的設(shè)備都在不停地調(diào)用大模型,沒(méi)有任何一個(gè)服務(wù)器能夠‘服務(wù)得起’。”
專(zhuān)而精、深而窄的小模型對(duì)移動(dòng)端AI發(fā)展具有重要意義。相比之下,重金加注的大模型吸金能力存疑。印度IT巨頭Infosys數(shù)據(jù)顯示,僅有6%的歐洲公司通過(guò)生成式AI創(chuàng)造了商業(yè)價(jià)值。
資本市場(chǎng)對(duì)大模型的商業(yè)潛力評(píng)估也出現(xiàn)分化,融資熱降溫明顯,資本不再像初期一樣,愿意為沒(méi)有明確商業(yè)化目標(biāo)的企業(yè)狂熱買(mǎi)單。
回顧2023年的“百模大戰(zhàn)”,會(huì)發(fā)現(xiàn)錯(cuò)位競(jìng)爭(zhēng)才是主旋律,模型在應(yīng)用場(chǎng)景落地的章法各異,無(wú)論是開(kāi)源、閉源生態(tài)之爭(zhēng),還是大小模型之辯均沒(méi)有定論。玩家們既需要將基礎(chǔ)大模型與數(shù)以百萬(wàn)的API鏈接起來(lái),又不能忽視普通用戶(hù)低成本使用的呼聲。
正如李彥宏在Create 2024百度AI開(kāi)發(fā)者大會(huì)所言,未來(lái)AI原生應(yīng)用要借助大小模型的混用,不依賴(lài)一個(gè)模型來(lái)解決所有問(wèn)題。運(yùn)用知識(shí)蒸餾的技術(shù),可以高效地將大型模型里的知識(shí),轉(zhuǎn)移到更簡(jiǎn)單的小模型中。
中國(guó)科學(xué)院自動(dòng)化研究所研究員鄭曉龍認(rèn)為,當(dāng)前AI大模型的演進(jìn),垂直化和領(lǐng)域化的大模型和小模型或者輕量化混合應(yīng)用將具有較大的發(fā)展空間。
大模型進(jìn)入小模型時(shí)代的說(shuō)法不完全準(zhǔn)確。未來(lái)一段時(shí)間內(nèi),大模型仍將提供通用的技術(shù)底座和基礎(chǔ)模塊,難以完全被小模型替代。小模型則要開(kāi)墾邊緣價(jià)值,在不同垂直領(lǐng)域找到立足點(diǎn)。
徐孝天告訴21世紀(jì)經(jīng)濟(jì)報(bào)道記者,大的基礎(chǔ)模型加小模型的結(jié)構(gòu)仍將持續(xù)存在一段時(shí)間。從AI Agent的角度來(lái)看,一般需要大模型來(lái)解決Agent級(jí)別的人機(jī)交互(命令行、APIs、文字等)、任務(wù)分割、計(jì)劃等能力,然后通過(guò)小模型來(lái)完成具體的小任務(wù)。
生成式AI規(guī)模化落地比想象中艱難。IDC調(diào)查數(shù)據(jù)顯示,超過(guò)半數(shù)的企業(yè)決策者認(rèn)為各個(gè)領(lǐng)域的應(yīng)用落地周期超過(guò)一年。想要跟上技術(shù)迭代的進(jìn)度條,“越小越好”的精簡(jiǎn)路線(xiàn)或許能助力中小型創(chuàng)企、邊緣設(shè)備制造商擠上牌桌,加速生成式AI落地,為“模型混合敘事”增添新注腳。
觀(guān)察大模型落地趨勢(shì),會(huì)發(fā)現(xiàn)個(gè)性化大模型應(yīng)用正在成為現(xiàn)實(shí)。開(kāi)源模型庫(kù)Hugging Face已經(jīng)共享了超過(guò)10萬(wàn)個(gè)預(yù)訓(xùn)練模型,幫助開(kāi)發(fā)者和初創(chuàng)公司管理和部署模型。
討論人工智能的“iPhone時(shí)刻”何時(shí)來(lái)臨為時(shí)尚早,但小模型集中面世并走向開(kāi)源,或許將在更廣泛的日常場(chǎng)景中賦能大眾。徐孝天向21世紀(jì)經(jīng)濟(jì)報(bào)道記者表示,在未來(lái),用戶(hù)將能夠像在應(yīng)用商店中選擇軟件一樣,輕松挑選并使用適合自己的AI模型。
- 免責(zé)聲明
- 本文所包含的觀(guān)點(diǎn)僅代表作者個(gè)人看法,不代表新火種的觀(guān)點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對(duì)本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險(xiǎn),讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前,請(qǐng)務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對(duì)因依賴(lài)本文觀(guān)點(diǎn)而產(chǎn)生的任何金錢(qián)損失負(fù)任何責(zé)任。