首頁 > AI資訊 > 最新資訊 > 2024AI大趨勢:“大模型”進入“小時代”?

2024AI大趨勢:“大模型”進入“小時代”?

新火種    2023-12-29

原文來源:硬AI

作者 | 房家瑤

圖片來源:由無界 AI生成

當前,人工智能領(lǐng)域正在嘗試開發(fā)更小型、成本更低的AI模型,這可能會使AI技術(shù)更加普及和易于使用。

上周,Deutsche Bank(德銀)的由Jim Reid and Luke Templeman領(lǐng)銜的研究團隊發(fā)布了他們的主題展望報告,報告顯示,德銀把AI納入了2024年度前十大主題并指出,大型AI模型可能將逐漸被更小型、更高效、成本更低的模型所取代。

OpenAI CEO、人工智能界當之無愧的先行者Sam Altman也承認:

“大模型”時代可能走向結(jié)束,未來我們會通過其他方式來改進它們。”

有人工智能專家預(yù)測,預(yù)計到2024年,小型語言模型將在特定任務(wù)部署AI的公司中發(fā)揮更大的作用。

01 大模型的局限性

當前大模型在成本和計算需求方面有局限性。

德銀指出,過去五年來,AI領(lǐng)域通常以參數(shù)的數(shù)量來衡量一個模型的能力。參數(shù)越多,通常意味著模型能處理更復(fù)雜的任務(wù),展示出更強的能力。

例如,最大模型的參數(shù)數(shù)量每年增加了十倍或更多,每次增加都帶來了意想不到的能力擴展,如編程和翻譯能力。所以大型神經(jīng)網(wǎng)絡(luò)模型通常被認為性能更優(yōu)。

有觀點指出:

“以參數(shù)數(shù)量作為能力或風險的衡量標準過于粗糙,我們應(yīng)更關(guān)注模型的實際使用方式。”

這些大模型使用的參數(shù)數(shù)量極多(有的超過1000億個),每個參數(shù)都需要計算資源來處理。盡管大模型(如GPT系列)在技術(shù)上領(lǐng)先,但這些模型往往規(guī)模龐大且對計算資源的需求極高。每當大模型在能力上有顯著提升時,它們的訓(xùn)練和運行成本也急劇上升。

即便這些模型是開源的,許多研究者和小型企業(yè)也難以承擔其所需的昂貴計算成本。

不僅如此,許多AI研究者在這些模型的基礎(chǔ)上進行迭代開發(fā),以創(chuàng)造適用于新工具和產(chǎn)品的自己的模型,但大模型的復(fù)雜性也讓其變得困難。

德銀稱,監(jiān)管對大模型也有所擔憂,并且對大型LLM的監(jiān)管趨于嚴格。例如,美國政府在去年10月底發(fā)布的一項行政命令要求對制造“雙用途”基礎(chǔ)模型的公司,如那些擁有“數(shù)十億參數(shù)”的模型,實施更高透明度要求。

02 小模型的優(yōu)勢

在某些特定任務(wù)上,小型、高效的AI模型可能比大模型更適用。

正如專注于人工智能和機器學習的技術(shù)公司Snorkel的Matt Casey寫道:

“在某些任務(wù)上使用大模型就像是用超級計算機玩《青蛙過河》?!?p>雖然大模型在處理復(fù)雜任務(wù)上有優(yōu)勢,但并不是每個任務(wù)都需要這樣強大的計算能力。

小語言模型的優(yōu)勢數(shù)不勝數(shù)。

更低的資源需求。小模型通常需要更少的計算資源來訓(xùn)練和運行,這使得它們更適合在計算能力有限的設(shè)備上使用,例如,小模型可以直接安裝在用戶的電腦或智能手機上,這樣就不需要與遠程數(shù)據(jù)中心連接。更低的成本。小模型在訓(xùn)練和部署時需要的計算資源較少,這直接導(dǎo)致了較低的運行和維護成本。更好的隱私保護。小模型可以在本地設(shè)備上運行,而無需將數(shù)據(jù)發(fā)送到云端服務(wù)器,這有助于提高數(shù)據(jù)處理的隱私性。有助于提高數(shù)據(jù)安全性。更快的處理速度。由于參數(shù)較少,小模型在處理請求時的響應(yīng)時間通常更短,這對于需要實時反應(yīng)的應(yīng)用尤其重要。

研究人員正在努力開發(fā)出更小、更高效的AI模型,縮減它們的參數(shù)數(shù)量,同時保證它們在特定任務(wù)上能夠達到甚至超越大模型的表現(xiàn)。

一種方法是“知識蒸餾技術(shù)”,與傳統(tǒng)的預(yù)訓(xùn)練不同,“蒸餾技術(shù)”的意思是使用一個大型的“教師”模型來指導(dǎo)一個小型的“學生”模型的訓(xùn)練。用“蒸餾”方式訓(xùn)練小模型,不再直接從訓(xùn)練大模型時會用到的那些巨量數(shù)據(jù)中學習,而只是在模仿。就像一個學生不會學到老師的全部知識庫,但在針對性的領(lǐng)域,ta可以獲得和教師差不多水平的考試表現(xiàn)。

Carnegie Mellon大學的計算機科學教授Graham Neubig說:

“通常情況下,你可以創(chuàng)建一個小得多的專門模型來處理特定任務(wù)。這種小模型雖然不具備大模型的廣泛適用性,但在特定任務(wù)上可以表現(xiàn)得非常出色?!?p>Neubig教授和他的合作者在一個實驗中開發(fā)了一個比GPT模型小700倍的模型,并發(fā)現(xiàn)它在三項自然語言處理任務(wù)上的表現(xiàn)超過了大型GPT模型。

小模型表現(xiàn)出色的例子有很多。

例如,微軟的研究人員最近也發(fā)報告稱,他們能夠?qū)PT模型縮減成一個參數(shù)僅略超10億的小模型。這個小模型能夠在某些特定任務(wù)上與大模型相媲美。

再者,德銀指出,今年7月,Meta的開源Llama 2,推出了三個版本,參數(shù)范圍從7億到70億不等。還有,為金融應(yīng)用設(shè)計的BloombergGPT只有50億參數(shù)。盡管這些模型的參數(shù)數(shù)量相對較少,但它們在多項任務(wù)上的表現(xiàn)都優(yōu)于類似模型,顯示了小模型的潛力。

03 小型語言模型的局限性

然而,這些優(yōu)勢通常是以犧牲一定的性能為代價的。一些研究顯示,但小型“學生”模型可能只在一定范圍內(nèi)的任務(wù)上表現(xiàn)出色。大型“教師”模型由于其龐大的參數(shù)數(shù)量和復(fù)雜的結(jié)構(gòu),通常在理解和生成語言方面更為精準和強大。因此,在更廣泛或復(fù)雜的任務(wù)上,選擇小模型還是大模型取決于特定應(yīng)用的需求和限制。

人工智能公司Cohere的非營利人工智能研究實驗室Cohere for AI的負責人Sara Hooker說道:

“小模型在處理廣泛或罕見任務(wù)時的能力仍有限?!?“還有很多未知的領(lǐng)域,我們?nèi)绾未_保從大模型中獲得的數(shù)據(jù)足夠多樣化,以覆蓋所有這些任務(wù)?”

此外,由于“模仿”本身存在一定的風險,因此“蒸餾技術(shù)”在法律上目前還屬于灰色地帶。

相關(guān)推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內(nèi)容相關(guān)的任何行動之前,請務(wù)必進行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產(chǎn)生的任何金錢損失負任何責任。

熱門文章