首頁 > AI資訊 > 最新資訊 > 大模型推理效率無損提升3倍,滑鐵盧大學、北京大學等機構發(fā)布EAGLE

大模型推理效率無損提升3倍,滑鐵盧大學、北京大學等機構發(fā)布EAGLE

新火種    2023-12-20
大語言模型(LLM)被越來越多應用于各種領域。然而,它們的文本生成過程既昂貴又緩慢。這種低效率歸因于自回歸解碼的運算規(guī)則:每個詞(token)的生成都需要進行一次前向傳播,需要訪問數(shù)十億至數(shù)千億參數(shù)的 LLM。這導致傳統(tǒng)自回歸解碼的速度較慢。近日,滑鐵盧大學、加拿大向量研究院、北京大學等機構聯(lián)合發(fā)布 EAGLE,旨在提升大語言模型的推理速度,同時保證模型輸出文本的分布一致。這種方法外推 LLM 的第二頂層特征向量,能夠顯著提升生成效率。

具有以下特點:比普通自回歸解碼(13B)快 3 倍;比 Lookahead 解碼(13B)快 2 倍;比 Medusa 解碼(13B)快 1.6 倍;可以證明在生成文本的分布上與普通解碼保持一致;可以在 RTX 3090 上進行訓練(1-2 天內)和測試;可以與 vLLM、DeepSpeed、Mamba、FlashAttention、量化和硬件優(yōu)化等其他平行技術結合使用。
相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章