首頁 > AI資訊 > 行業動態 > 精度與通用性不可兼得,北大華為證明低精度下scalinglaw難以實現

精度與通用性不可兼得,北大華為證明低精度下scalinglaw難以實現

新火種    2024-11-23

本工作來自北京大學智能學院王立威、賀笛老師課題組與華為諾亞方舟實驗室李震國、孫嘉城研究員。作者包括智能學院博士生馮古豪、古云天、羅勝杰;信息科學技術學院本科生楊鎧、艾心玥。

大模型量化通過將模型參數從較高的精度(如 bfoat16)壓縮到低精度(如 int8 或 int4)來降低模型推理的開銷,提高模型推理的速度。在大語言模型的實際部署中,量化技術能夠顯著提高大語言模型推理的效率。但近日,來自哈佛大學,MIT,CMU,斯坦福大學和 Databricks 的研究團隊通過大量實驗總結出了大語言模型關于精度的 Scaling Law,實驗發現模型的量化壓縮會較大影響大語言模型的性能。

無獨有偶,來自北大和華為的研究團隊近期則從理論角度研究了量化對于大模型通用性的影響。具體而言,研究者關注了量化對于大模型數學推理能力的影響。其研究理論表明足夠的模型精度是大模型解決基本數學任務的重要前提,而量化會大大降低大模型在基本數學任務上的表現,甚至提升足夠參數量也無法彌補。

圖片

論文鏈接:https://arxiv.org/abs/2410.13857

量化降低了模型的基本數學能力

數學推理能力是大語言模型的一項重要能力,也是大語言模型走向通用人工智能的關鍵能力之一。然而,相較于經典的自然語言處理任務,數學推理往往需要嚴格的邏輯和準確的中間結果。在各種各樣的數學推理任務中,算術能力是大語言模型解決各類復雜的數學問題的基礎。更需要注意的是,大模型在處理數值的時候,會將一個數 “切分” 成一段一段的數字,例如:數字 1234.5678 在大模型中可能被編碼為 “12” “34” “.” “56” “78”,如此編碼后的信息是否可以被正確理解進而完成算術任務也是一個疑問。

本工作研究者以基本的算術能力為切入點,研究了不同精度的 Transformer 在解決基本數學任務上的能力差異。下圖展示了一些相應的例子。為了反映大模型對長數字的實際解碼方式,在這些任務中,運算數中的每一數位均以一個獨立的 token 作為大模型的輸入,大模型的輸出也是從高位往低位逐數位地輸出。

圖片

在本工作中,研究者分別使用對數精度 Transformer 和常數精度 Transformer 的理論模型來刻畫標準精度大語言模型和量化后的低精度大語言模型。其中,對數精度指的是 Transformer 內部單個的神經元至多能夠存儲由O(logn)比特表示的實數,這里n指的是模型所能處理的最大序列長度。而常數精度指的是 Transformer 內部單個的神經元只能夠存儲至多c比特表示的實數,這里的c是一個與序列長度無關的小常數。這里,實數可以由定點數或者浮點數格式表示。

當前主流的大語言模型,包括 GPT 系列、Claude 系列或者開源的 LLAMA 系列,能夠處理的最大序列長度一般在 4k 到 128k 不等。在這樣的序列規模下,對數精度和常數精度較好地刻畫了量化前后的精度差異。

之前的研究結果表明,標準精度 Transformer 具備解決這些基本算術任務的能力。這表明合適的精度能夠保證大模型具有解決相應基本數學任務的能力。然而本工作理論證明當大語言模型經過量化、精度降低后,模型的能力受到了顯著的影響。當使用低精度模型時,模型在多整數相加、整數相乘的任務上需要超多項式的模型參數量。這表明當精度不足時,即便充分增大模型尺寸 (scaling parameters),其也難以獲得完成這些基本算術任務的能力。

下表總結了相應的理論結果,表明了不同精度下各基本算術任務所需模型寬度的理論結果。其中,藍色代表模型可以在較小的尺寸內解決相應的任務,而紅色代表模型無法在可接受的尺寸內解決相應的問題。可以發現,標準精度的大語言模型能夠輕松解決算術的任務,然而經過量化后低精度的大模型,在解決基本算術任務上的能力出現了明顯的缺失。

圖片

實驗驗證

除了理論推導,研究者進行了大量實驗來驗證理論結果。研究者在算術運算的數據集上訓練了一系列小模型,在小模型上的訓練結果表明,在多整數相加和整數相乘任務上,提升精度能夠使相同尺寸的模型解決更大規模的問題。

圖片

此外,研究者還在 LLaMA3.1-8B 模型上進一步進行了一些系列實驗,實驗結果同樣證實,在使用 int4 進行量化之后,在大語言模型各基本算術任務上的表現均出現了相應的下降。對于最為困難的整數相乘任務,其性能下降最為明顯。

圖片

總而言之,模型的量化壓縮會明顯損害大語言模型在數學推理問題上的性能,為了解決復雜的數學推理問題,足夠的精度是必不可少的。這也說明,在實際部署大語言模型的過程中,不能夠一味追求量化帶來的效率,也要考慮到應用場景,采用合適的部署策略,同時兼顧大語言模型的實際性能和運行效率。


相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章