為什么說小語言模型(SLM)將成為AI領(lǐng)域的下一個(gè)大事件
來源:至頂網(wǎng)
隨著埃隆·馬斯克的xAI從Andreessen Horowitz、卡塔爾投資局、Valor Equity Partners以及紅杉資本處額外籌集到50億美元,加之亞馬遜向OpenAI的競(jìng)爭(zhēng)對(duì)手Anthropic慷慨砸下40億投資,步步走來的寒冬顯然沒有澆滅全世界對(duì)于AI的熱情。
但盡管微軟、谷歌、Meta以及亞馬遜等科技巨頭先后投入數(shù)十億美元來開發(fā)能夠處理各種任務(wù)的大語言模型(LLM),但對(duì)于AI這顆堪稱人類智慧皇冠上的明珠之一,一刀切的作法顯然并不適合所有情況。換言之,適合那些科技巨頭的大模型未必能夠滿足普通企業(yè)的需求。面對(duì)重重炒作疑云與各行業(yè)對(duì)于AI泡沫的普遍擔(dān)憂,現(xiàn)在的高管團(tuán)隊(duì)比以往任何時(shí)候都更需要深入理解并把握這些技術(shù)的現(xiàn)實(shí)影響。
隨著眾多大模型初創(chuàng)公司讓計(jì)算機(jī)獲得了合成大量數(shù)據(jù)并響應(yīng)自然語言查詢的能力,大模型驅(qū)動(dòng)的AI也成為全球商業(yè)體系中又一塊至關(guān)重要的拼圖。亞馬遜云科技 CEO Matt Garman在關(guān)于其不斷擴(kuò)大的合作伙伴關(guān)系與投資的新聞稿中表示,“在Amazon Bedrock中開發(fā)、并由Anthropic提供支持的生成式AI應(yīng)用程序,在亞馬遜客戶當(dāng)中獲得了非常好的反響。通過進(jìn)一步在Amazon Bedrock當(dāng)中部署Anthropic模型并與其合作開發(fā)我們的定制化Trainium芯片,我們將繼續(xù)突破客戶在生成式AI技術(shù)應(yīng)用方面的極限。”
對(duì)于不少企業(yè)來說,大語言模型仍然是特定項(xiàng)目的最佳選項(xiàng)。然而對(duì)于其他用例來講,特別是以美元、能耗以及算力資源來衡量,大模型對(duì)于多數(shù)公司來說成本仍過于高昂。根據(jù)IDC的計(jì)算,未來四年內(nèi)全球AI支出將翻一番達(dá)到6320億美元(看似不高),而生成式AI將迅速增長,占據(jù)總支出當(dāng)中的32%。
我個(gè)人懷疑在某些場(chǎng)景下,新興替代方案會(huì)帶來相同甚至更好的效果。為此,我與數(shù)十位CEO進(jìn)行討論,得出的結(jié)論也支持這一判斷。之前我曾采訪Teradata公司總裁兼CEO Steve McMillan。Teradata是全球規(guī)模最大的云分析平臺(tái)之一,專注于將數(shù)據(jù)與可信AI協(xié)同起來。McMillan為這些企業(yè)提出了一條替代路徑:“展望未來,我們認(rèn)為中小體量語言模型以及受控環(huán)境(例如面向特定領(lǐng)域的大模型)將成為更好的解決思路。”
你的公司,可能需要小語言模型(SLM)那么,小語言模型究竟是什么?簡(jiǎn)單來講,它們是僅針對(duì)特定類型的數(shù)據(jù)進(jìn)行訓(xùn)練的語言模型,可生成定制化輸出。這種設(shè)計(jì)的一大核心優(yōu)勢(shì),在于數(shù)據(jù)被保存在防火墻域內(nèi),因此外部小模型不會(huì)受到潛在敏感數(shù)據(jù)的“污染”。小語言模型的優(yōu)點(diǎn)是它們能夠根據(jù)項(xiàng)目的實(shí)際需求靈活調(diào)整算力與能耗,這有助于降低持續(xù)運(yùn)行成本并減少對(duì)環(huán)境造成的負(fù)面影響。
另一個(gè)重要的替代方案則是面向特定領(lǐng)域的大語言模型,其專注于特定類型的知識(shí),而不再廣泛關(guān)注所有知識(shí)門類。特定領(lǐng)域大模型同樣經(jīng)過大量訓(xùn)練,能夠深入掌握特定專業(yè)類別,并更準(zhǔn)確地響應(yīng)領(lǐng)域內(nèi)的查詢操作——例如CMO與CFO的查詢。
AI的幻覺、能力與訓(xùn)練挑戰(zhàn)由于大語言模型需要數(shù)千塊AI處理芯片(GPU) 來處理其成千上萬億的參數(shù),因此這類模型的構(gòu)建成本往往高達(dá)數(shù)百萬美元。而且哪怕是在完成前期訓(xùn)練之后,后續(xù)針對(duì)用戶查詢提供的推理服務(wù)同樣需要消耗大量資源。
數(shù)據(jù)科學(xué)家協(xié)會(huì)(ADaSci)指出,僅僅使用1750億個(gè)參數(shù)訓(xùn)練的GPT-3“就消耗了約1287兆瓦時(shí)的電力……大致相當(dāng)于一個(gè)普通美國家庭120年的電力消費(fèi)總量。”這還不包括對(duì)外開放后的運(yùn)行與使用電量。相比之下,為100萬用戶全面部署一套擁有70億參數(shù)的小語言模型則僅需消耗55.1兆瓦時(shí)——所需電力不足大語言模型能耗的5%。換句話說,在構(gòu)建AI解決方案時(shí),遵循McMillan的建議有望大大降低能源成本。
大語言模型對(duì)于算力資源提出的嚴(yán)苛要求,也是單一設(shè)備基本無法滿足的,因此其往往會(huì)運(yùn)行在云計(jì)算環(huán)境之下。對(duì)于企業(yè)而言,這會(huì)帶來以下幾個(gè)后果:首先是失去對(duì)數(shù)據(jù)的物理控制能力,因?yàn)閿?shù)據(jù)會(huì)被轉(zhuǎn)移至云端,響應(yīng)速度也因數(shù)據(jù)通過互聯(lián)網(wǎng)的傳輸而被大大減慢。另外,由于知識(shí)面太廣,大語言模型經(jīng)常會(huì)產(chǎn)生幻覺。某些回答乍聽之下似乎正確,但結(jié)果卻完全錯(cuò)誤(即所謂「一本正經(jīng)地胡說八道」),而問題的根源往往在于模型訓(xùn)練所使用的信息不適用或者不夠準(zhǔn)確。
小語言模型的優(yōu)勢(shì)小語言模型可以幫助企業(yè)實(shí)現(xiàn)更好的結(jié)果。盡管它們與當(dāng)今廣泛使用的知名大模型具有相同的底層技術(shù),但其訓(xùn)練的參數(shù)規(guī)模更小,權(quán)重和均衡也針對(duì)具體用例進(jìn)行量身定制。由于需要關(guān)注的變量更少,它們能夠更加果斷地給出高質(zhì)量答案,產(chǎn)生的幻覺更少、效率也更高。與大模型相比,小語言模型不僅速度更快、成本便宜,對(duì)自然環(huán)境的影響也更加友好。
由于不需要使用大模型那種龐大的AI處理芯片集群,小語言模型完全可以在本地運(yùn)行,在某些場(chǎng)景下甚至可以在單一設(shè)備上運(yùn)行。消除了對(duì)云計(jì)算資源的依賴,也讓企業(yè)能夠更好地控制自有數(shù)據(jù)及合規(guī)性。根據(jù)McMillan的解釋,他們公司的目標(biāo)絕不是將客戶鎖定在往往并不適合其特定需求的單一解決方案或者大語言模型當(dāng)中。“我們的理念是擁抱全部技術(shù)選項(xiàng),讓我們的客戶能夠在Teradata生態(tài)系統(tǒng)當(dāng)中隨意使用他們指定的語言模型,這樣他們不僅可以信任輸入到這些模型中的數(shù)據(jù),還能以最有效、最高效的方式運(yùn)用由模型生成的分析和見解。”
花開兩朵,各表一枝:領(lǐng)域特定大模型領(lǐng)域特定大模型則另外一條極具前景的技術(shù)路線。大家可以將這類模型與常規(guī)大模型,理解成歷史教科書與百科全書的區(qū)別——前者更側(cè)重于滿足特定需求,而不是以更加淺表的方式滿足多種需求。由于領(lǐng)域特定大模型充分接受專業(yè)知識(shí)的訓(xùn)練,因此可以提供相關(guān)性更強(qiáng)、更符合語境且準(zhǔn)確度更高的答案。與通用大模型中使用體量龐大的通用參數(shù)相比,領(lǐng)域特定模型中更具針對(duì)性的參數(shù)設(shè)置也易于針對(duì)具體任務(wù)進(jìn)行定制或者微調(diào)。
當(dāng)然,這些優(yōu)勢(shì)的背后也有相應(yīng)的弊端。特定領(lǐng)域大模型需要在立項(xiàng)之初就接受專門訓(xùn)練,后續(xù)還需要不斷強(qiáng)化,特別是隨著領(lǐng)域內(nèi)信息的不斷演進(jìn)和擴(kuò)展——這二者往往會(huì)帶來高昂的實(shí)現(xiàn)成本。
小語言模型用例:當(dāng)今能為企業(yè)做些什么從小語言模型的具體部署角度看,它們已經(jīng)在對(duì)各個(gè)行業(yè)產(chǎn)生足以改變游戲規(guī)則的深刻影響,包括:
客戶服務(wù):小語言模型可用于快速分析客戶情緒和投訴內(nèi)容,且使用的是需要駐留在公司防火墻之內(nèi)的高價(jià)值數(shù)據(jù)。它們能夠生成高質(zhì)量摘要,并可被集成至客戶關(guān)系管理(CRM)產(chǎn)品當(dāng)中以改進(jìn)解決成效。
醫(yī)療保健:小語言模型也在逐步證明其在醫(yī)生筆記分析方面的價(jià)值,這也是又一個(gè)有理由避免移動(dòng)敏感數(shù)據(jù)的信息處理領(lǐng)域。當(dāng)AI提取并解釋醫(yī)療信息時(shí),醫(yī)療保健服務(wù)商可以騰出精力更多關(guān)注病患護(hù)理——例如更多與病人溝通交互,而不是長時(shí)間盯著自己的電腦屏幕。
金融:很多企業(yè)需要隨時(shí)關(guān)注可能影響合規(guī)性或者治理要求的電子郵件或文檔,現(xiàn)在小語言模型可以及時(shí)找到并將其標(biāo)出。就任務(wù)本身而言,這對(duì)大語言模型有點(diǎn)“大材小用”——實(shí)際效果只需小模型即可實(shí)現(xiàn),且能夠?qū)⑵溥\(yùn)行在數(shù)據(jù)所處的同一服務(wù)器之上,從而避免占用額外的存儲(chǔ)、昂貴的AI處理器以及網(wǎng)絡(luò)傳輸資源。
零售:從沃爾瑪、Kroger、Costco到Target、CVS乃至Walgreens,提供基于AI的產(chǎn)品推薦已經(jīng)成為零售業(yè)中一項(xiàng)普遍性的戰(zhàn)略功能。這同樣是一個(gè)嚴(yán)重依賴(甚至是完全依賴)企業(yè)自有數(shù)據(jù)的流程,具體涵蓋客戶信息、購買/瀏覽歷史記錄以及公司的產(chǎn)品目錄。這類用例可以選擇開源大語言模型的分析功能,例如聚類或者向量相似性比較。大模型生成的產(chǎn)品推薦可以與典型搜索結(jié)果一同運(yùn)行,在滿足客戶確切要求的同時(shí),更加智能地引導(dǎo)消費(fèi)者找到符合自己個(gè)性化需求的商品。
雖然OpenAI的ChatGPT-4、Anthropic的Claude乃至Meta的Llama 2等知名大模型完全有能力處理大量數(shù)據(jù)并生成看似合理的洞見結(jié)論,但它們往往無法理解企業(yè)面臨的具體問題或者醫(yī)學(xué)術(shù)語背后的特定含義。
小語言模型(包括Hugging Face上托管的模型)能夠收窄所需攝取的數(shù)據(jù)類型、輸出結(jié)果和使用的功能,從而建立起具備可擴(kuò)展性,能夠檢索上百萬文檔或者服務(wù)百萬客戶的靈活解決方案。它們還能被整合進(jìn)AI套件當(dāng)中,由此組成一系列量身定制的高效解決方案,而不再單純以龐大笨重的大模型面貌示人。
企業(yè)高管們接下來該做何準(zhǔn)備展望未來,企業(yè)對(duì)于AI技術(shù)的應(yīng)用方式絕不會(huì)千篇一律:每家企業(yè)都將更注重效率指標(biāo),選擇最好、成本最優(yōu)的正確工具以完成工作。這意味著應(yīng)當(dāng)為每個(gè)項(xiàng)目選擇規(guī)模合適的模型,包括通用大模型乃至規(guī)模較小且面向特定領(lǐng)域的模型。只有這樣,企業(yè)才能在獲取高質(zhì)量結(jié)果、降低資源消耗以及盡可能避免將數(shù)據(jù)遷移至云端之間享受到完美的平衡。
鑒于目前公眾對(duì)于AI生成的答案還不是特別信任,可信AI與數(shù)據(jù)無疑將成為下一波商業(yè)解決方案必須攻克的難題。McMillan解釋道,“在考慮訓(xùn)練AI模型時(shí),首先需要保證其建立在大量數(shù)據(jù)的基礎(chǔ)之上。這也是我們接下來的目標(biāo),包括提供可信數(shù)據(jù)集,而后提供功能和分析方案,以便客戶以及客戶的客戶能夠充分信任AI輸出。”
在這樣一個(gè)比以往任何時(shí)候都更需要高準(zhǔn)確性、高效率的新時(shí)代下,體量較小且面向特定領(lǐng)域的語言模型為企業(yè)和廣大公眾帶來了另外一種選擇,正努力為其提供值得依賴的結(jié)果。誰能夠持續(xù)規(guī)劃并投資支持這條演進(jìn)路線,誰就能加速公司內(nèi)的AI優(yōu)化戰(zhàn)略,進(jìn)而在特定市場(chǎng)領(lǐng)域擁有更強(qiáng)大的競(jìng)爭(zhēng)力。道路就在腳下,愿各位享受這段學(xué)習(xí)之旅。
- 免責(zé)聲明
- 本文所包含的觀點(diǎn)僅代表作者個(gè)人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對(duì)本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險(xiǎn),讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前,請(qǐng)務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對(duì)因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。