在ScalingTransformers用稀疏性就足夠了!“有了這樣的研究,我們以后或許能在筆記本電腦上托管GPT-3”
作者|鄭宇宏
編輯|陳彩嫻
Scaling Transformers:
讓大型語言模型更易于管理
近年來,基于Transformer架構(gòu)的大型神經(jīng)網(wǎng)絡(luò),自然語言處理領(lǐng)域取得了巨大的進步。前幾年在Reddit上發(fā)布大量灌水貼的thegentlemetre賬號一周后才被人類發(fā)覺:這竟然是一個應(yīng)用程序在“作怪”!它正是以被稱為地表最強的語言模型GPT-3為基礎(chǔ)開發(fā)的程序。
GPT-3作為一個大型語言模型,可以創(chuàng)作出整篇文章,即使把這些文章和人類寫的文章相比較的話,都很難被區(qū)分出來。
但是這種“聰明”的模型卻有一個弊端。
因為它的訓(xùn)練成本極高,不是每個人都有資源來訓(xùn)練這種大型模型。
那么如何讓大型語言模型更易于管理以適用日常需要呢?
華沙大學(xué),谷歌研究和OpenAI的學(xué)者們提出一個新的模型族-Scaling Transformers。

論文地址:https://arxiv.org/abs/2111.12763
文章提出了一種通過稀疏化網(wǎng)絡(luò)中線性層的激活(前饋和 Q、K、V 投影)來訓(xùn)練大規(guī)模稀疏模型的方法。該方法特別吸引人,因為它似乎不需要任何特定于硬件或低級別的優(yōu)化即可有效。控制器網(wǎng)絡(luò)在激活時生成一個塊式 one-hot 掩碼,并根據(jù)此掩碼動態(tài)選擇后續(xù)層的權(quán)重。當(dāng)擴大模型大小時,用稀疏層來有效擴展并執(zhí)行非批次解碼的速度比標(biāo)準(zhǔn)Transformer模型快的多。在參數(shù)數(shù)量相同的情況下,稀疏層足以獲得與標(biāo)準(zhǔn)Transformer相同的困惑度。
文章解讀
Fabio Chiusano在NLP上發(fā)表了對這篇論文的正面評價。Fabio Chiusano是Digitiamo 數(shù)據(jù)科學(xué)主管,也是人工智能領(lǐng)域的頂級媒體作家。AI科技評論對Chiusano的點評做了不改原意的整理:
Scaling Transformer 真的很有趣,因為當(dāng)我們擴大模型大小時,它們允許有效地縮放語言模型并且比標(biāo)準(zhǔn) Transformer 更快地執(zhí)行非批處理解碼。嚴謹?shù)卣f:
我們稱其d 為 Transformer 模型的參數(shù)個數(shù)。
然后,一個標(biāo)準(zhǔn)的密集 Transformer 將需要近似d^2計算來進行預(yù)測。
相反,稀疏的 Scaling Transformer 將需要近似d^1.5計算。
如果說這樣的改進看起來不明顯,請考慮一下這d通常是一個非常高的數(shù)字,大約數(shù)十億,實際上實驗表明,Scaling Transformer 為單個令牌帶來了近 20 倍的預(yù)測加速(從 3.690s 到 0.183 s) 關(guān)于具有 17B 個參數(shù)的密集 Transformer。注意:這些加速是針對未批量預(yù)測的。
在具有建議的稀疏機制(FF、QKV、FF+QKV)的 C4 數(shù)據(jù)集上,Scaling Transformers(相當(dāng)于 T5 大小,具有大約 800M 參數(shù))的對數(shù)困惑度類似于基線密集模型。
具有 17B 參數(shù)的 Terraformer 的單個令牌的解碼速度比密集基線模型快 37 倍,推理所需的時間少于 100 毫秒/令牌。這里注意力稀疏 = 64,ff-稀疏 = 256,損失稀疏 = 4
稀疏化的收益非常好。然而,當(dāng)解碼較長的序列時,它們會更糟,因為解碼時間將由注意力操作控制。
幸運的是,已經(jīng)提出了許多方法來解決 Transformer 的這個問題,例如LSH(Locality-Sensitive Hashing)注意處理長序列和可逆層以提高內(nèi)存效率。我會說這不是個微不足道的結(jié)果!
這篇論文還對用于提高 Transformer 效率的其他技術(shù)進行了有趣的概述。我在這里報告了它的一些摘錄,我認為它可以作為那些不熟悉 Transformer 技術(shù)效率的人的參考。
模型壓縮。模型修剪通過在訓(xùn)練之后或訓(xùn)練期間移除不需要的權(quán)重來使矩陣更小。
模型蒸餾。模型蒸餾包括在先前訓(xùn)練的大模型(即教師)的輸出上訓(xùn)練一個小模型(即學(xué)生)。用于移動推理的幾種自然語言模型依靠蒸餾來加速從預(yù)先訓(xùn)練的大型模型中進行推理。
稀疏注意力。基于稀疏注意力的方法通過合并額外的組合機制或選擇該層所關(guān)注的標(biāo)記子集,使注意力層更加高效,尤其是對于長序列。
稀疏前饋。關(guān)鍵思想是將前饋層劃分為多個部分(稱為專家),每個令牌只檢索一個部分,這降低了前饋塊的復(fù)雜性。這些加速主要以訓(xùn)練速度來衡量,并且該方法側(cè)重于前饋塊。專家方法的混合已被證明可以在訓(xùn)練中實現(xiàn)計算效率,擴展到一萬億個參數(shù)。
雖然目前的結(jié)果有許多局限性。盡管如此,這篇論文可以被認為是通往可持續(xù)大型模型的第一步。
大家怎么看?
參考資料
https://medium.com/nlplanet/two-minutes-nlp-scaling-transformers-with-sparsity-5bf004a7ea56
https://arxiv.org/abs/2111.12763
https://openreview.net/forum?id=-b5OSCydOMe

- 免責(zé)聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風(fēng)險,讀者在采取與本文內(nèi)容相關(guān)的任何行動之前,請務(wù)必進行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產(chǎn)生的任何金錢損失負任何責(zé)任。