首頁 > AI資訊 > 最新資訊 > 港大北航等1bit大模型引熱議,IEEE刊物評“解決AI能源需求”!作者親自解讀在此

港大北航等1bit大模型引熱議,IEEE刊物評“解決AI能源需求”!作者親自解讀在此

新火種    2024-06-11

極限量化,把每個(gè)參數(shù)占用空間壓縮到1.1bit!

IEEE Spectrum專欄,一種名為BiLLM的訓(xùn)練后量化(PTQ)方法火了。

通俗來講,隨著LLM參數(shù)規(guī)模越來越大,模型計(jì)算的內(nèi)存和資源也面臨著更大的挑戰(zhàn)。如何把模型變得小巧經(jīng)濟(jì)實(shí)惠,能塞進(jìn)手機(jī)等設(shè)備中?

BiLLM解決的正是這樣的一個(gè)問題。它使用1bit來近似網(wǎng)絡(luò)中的大多數(shù)參數(shù),使用2bit來表示一些對性能最有影響的權(quán)重。

港大北航等1bit大模型引熱議,IEEE刊物評“解決AI能源需求”!作者親自解讀在此

實(shí)驗(yàn)測試中,研究人員對OPT模型、Llama系列進(jìn)行了二值化。

在OPT模型家族上,BiLLM以1.1bit的平均權(quán)重大小實(shí)現(xiàn)了目前最極限的LLM訓(xùn)練后壓縮;在Llama系列模型上,BiLLM在1.08bit下的表現(xiàn)甚至超過了使用全精度的OPT-66B模型。

效率方面,BiLLM能夠在單個(gè)GPU上半小時(shí)內(nèi)完成7B LLM的二值化。

港大北航等1bit大模型引熱議,IEEE刊物評“解決AI能源需求”!作者親自解讀在此

BiLLM發(fā)布當(dāng)天,便引發(fā)了網(wǎng)友對大模型優(yōu)化的熱議,有網(wǎng)友就表示:

港大北航等1bit大模型引熱議,IEEE刊物評“解決AI能源需求”!作者親自解讀在此

這項(xiàng)研究由香港大學(xué)、蘇黎世聯(lián)邦理工學(xué)院、北京航空航天大學(xué)聯(lián)合推出,目前已被ICML 2024接收。

港大北航等1bit大模型引熱議,IEEE刊物評“解決AI能源需求”!作者親自解讀在此

新火種也聯(lián)系到了作者,給大伙兒解讀一下。

LLM權(quán)重分布探究

為了應(yīng)對超低位寬下大語言模型的能力崩潰問題,研究人員對多個(gè)預(yù)訓(xùn)練大語言模型的權(quán)重和其Hessian矩陣(損失的二階梯度)分布情況進(jìn)行了初步研究,得到以下觀察:

首先,研究人員發(fā)現(xiàn)大語言模型的Hessian矩陣表現(xiàn)出極端的長尾分布特性。

這也意味著大多數(shù)位置權(quán)重的變化對模型的輸入輸出并不敏感,而少部分元素對于權(quán)重的輸出非常敏感。

其次,大語言模型中的權(quán)重密度遵循不均勻的鐘形分布形式。

這種鐘形分布在特征方面與高斯分布或拉普拉斯分布非常相似,即大多數(shù)權(quán)重集中在0附近,整體呈現(xiàn)非均勻的鐘形分布。

上述觀察表明大多數(shù)權(quán)重在LLM當(dāng)中是冗余的,而少部分權(quán)重發(fā)揮著極其重要的作用;同時(shí),在極端的二值化壓縮場景下,這種非均勻鐘形分布會(huì)產(chǎn)生更大的量化誤差。

對此,研究人員對少部分顯著權(quán)重和大部分非顯著權(quán)重分別提出了二階殘差逼近和最優(yōu)鐘形分組方法進(jìn)行量化,在1.1bit的權(quán)重下首次實(shí)現(xiàn)了LLM的性能保證。

港大北航等1bit大模型引熱議,IEEE刊物評“解決AI能源需求”!作者親自解讀在此


△LLM權(quán)重分布現(xiàn)象

顯著權(quán)重:二階殘差逼近

研究人員發(fā)現(xiàn),顯著權(quán)重往往積聚在特定的通道當(dāng)中。

因此, BiLLM采用一種通道級別的分組方式來區(qū)分顯著權(quán)重和非顯著權(quán)重。這種結(jié)構(gòu)化劃分相比于非結(jié)構(gòu)化處理引入的開銷可以忽略不計(jì),對硬件部署十分友好。

港大北航等1bit大模型引熱議,IEEE刊物評“解決AI能源需求”!作者親自解讀在此


△顯著通道權(quán)重二階殘差逼近示意圖

由于顯著權(quán)重的重要性,先前工作往往直接將這部分權(quán)重保存為原精度或量化到8-bit來保證LLM的性能。然而,這種方式會(huì)導(dǎo)致整體位寬的增加。

為此,研究人員開發(fā)了一種用二值化殘差逼近方法作用于顯著通道的權(quán)重。

這一方法通過直接二值化和殘差二值化有效降低了顯著權(quán)重的極端量化誤差。與直接保留顯著權(quán)值為16位或者8位相比,該方法僅通過2位開銷存儲(chǔ)顯著權(quán)值,同時(shí)有效保護(hù)了權(quán)重中的重要元素。

非顯著權(quán)重:最優(yōu)鐘形劃分

由于顯著通道數(shù)量極低,剩余的大部分權(quán)重仍然保持著鐘形分布。

同時(shí),在排除顯著權(quán)重影響的情況下變得更加對稱。由于二進(jìn)制量化代表均勻量化的極端形式,直接將鐘形分布下的權(quán)重舍入到二值權(quán)重會(huì)帶來巨大的的量化誤差。

因此研究人員對這部分權(quán)重采用了分組二值化的方式,通過自動(dòng)搜索策略尋找最優(yōu)的分割點(diǎn)。

此外,研究結(jié)果表明,盡管非顯著權(quán)重并非理想的高斯分布或拉普拉斯分布,但搜索函數(shù)的誤差曲線仍然表現(xiàn)出凸性,證實(shí)了最佳分割點(diǎn)的存在。

港大北航等1bit大模型引熱議,IEEE刊物評“解決AI能源需求”!作者親自解讀在此


△非顯著權(quán)重分布搜索(左),搜索誤差曲線的凸性(右)

同時(shí)由于外側(cè)分組的數(shù)值方差較大,搜索中總是以較小的比例出現(xiàn)(0.5%~3%)??梢赃M(jìn)一步采用稀疏行壓縮的策略來進(jìn)行分組標(biāo)識,進(jìn)一步提升細(xì)粒度分組方案下的硬件友好性。

實(shí)驗(yàn)結(jié)果

研究團(tuán)隊(duì)在OPT和Llama系列模型上驗(yàn)證了BiLLM性能。此外,考慮到LLM通常需要基于指令進(jìn)行微調(diào)以適應(yīng)不同的應(yīng)用環(huán)境,實(shí)驗(yàn)還報(bào)告了Vicuna-7B和Vicuna-13B的量化結(jié)果。

BiLLM在平均1.1bit權(quán)重時(shí),在多個(gè)評價(jià)指標(biāo)上實(shí)現(xiàn)了超過GPTQ,PB-LLM等方法在2-bit時(shí)的性能,同時(shí)在部分模型體積上接近3-bit權(quán)重的性能。

結(jié)果表明, BiLLM 率先在接近1位的平均比特率下實(shí)現(xiàn)了LLM性能保證,推動(dòng)了LLM無訓(xùn)練量化的邊界。

港大北航等1bit大模型引熱議,IEEE刊物評“解決AI能源需求”!作者親自解讀在此


△opt系列困惑度對比結(jié)果

港大北航等1bit大模型引熱議,IEEE刊物評“解決AI能源需求”!作者親自解讀在此


△Llama系列困惑度對比結(jié)果

港大北航等1bit大模型引熱議,IEEE刊物評“解決AI能源需求”!作者親自解讀在此


△Zero-Shot評測數(shù)據(jù)集對比結(jié)果

BiLLM在Llama-13B和Vicuna-7B上實(shí)現(xiàn)了更好對話效果。

港大北航等1bit大模型引熱議,IEEE刊物評“解決AI能源需求”!作者親自解讀在此


Tags:
相關(guān)推薦
免責(zé)聲明
本文所包含的觀點(diǎn)僅代表作者個(gè)人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險(xiǎn),讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前,請務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。

熱門文章