首頁 > AI資訊 > 最新資訊 > 從線性注意力視角揭秘視覺Mamba,清華、阿里合作提出全新MILA模型

從線性注意力視角揭秘視覺Mamba,清華、阿里合作提出全新MILA模型

新火種    2024-12-11

圖片

AIxiv專欄是機器之心發(fā)布學術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機器之心AIxiv專欄接收報道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級實驗室,有效促進了學術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

論文第一作者為清華大學自動化系博士生韓東辰,指導(dǎo)老師為黃高副教授。他的主要研究方向包括高效模型架構(gòu)設(shè)計、多模態(tài)大模型等。

Mamba 是一種具有線性計算復(fù)雜度的狀態(tài)空間模型,它能夠以線性計算復(fù)雜度實現(xiàn)對輸入序列的有效建模,在近幾個月受到了廣泛的關(guān)注。

本文給出了一個十分有趣的發(fā)現(xiàn):強大的 Mamba 模型與通常被認為性能不佳的線性注意力有著內(nèi)在的相似性:本文用統(tǒng)一的公式表述了 Mamba 中的核心模塊狀態(tài)空間模型(SSM)和線性注意力,揭示了二者之間的密切聯(lián)系,并探究了是哪些特殊的屬性和設(shè)計導(dǎo)致了 Mamba 的成功。

實驗結(jié)果表明,等效遺忘門和宏觀結(jié)構(gòu)設(shè)計是 Mamba 成功的關(guān)鍵因素。本文通過分析自然地提出了一個新的模型結(jié)構(gòu):Mamba-Inspired Linear Attention(MILA),它同時繼承了 Mamba 和線性注意力的優(yōu)點,在各種視覺任務(wù)中表現(xiàn)出超越現(xiàn)有的視覺 Mamba 模型的精度,同時保持了線性注意力優(yōu)越的并行計算與高推理速度。

圖片

論文鏈接:https://arxiv.org/abs/2405.16605代碼鏈接:https://github.com/LeapLabTHU/MLLA視頻講解:https://www.bilibili.com/video/BV1NYzAYxEbZ最近,以 Mamba 為例的狀態(tài)空間模型引起了廣泛的研究興趣。不同于 Transformer 的平方復(fù)雜度,Mamba 模型能夠以線性復(fù)雜度實現(xiàn)有效的序列建模,在長文本、高分辨率圖像、視頻等長序列建模和生成領(lǐng)域表現(xiàn)出很大的潛力。然而,Mamba 并不是第一個實現(xiàn)線性復(fù)雜度全局建模的模型。早期的線性注意力使用線性歸一化代替 Softmax 注意力中的 Softmax 操作,將計算順序從 (QK) V 更改為 Q (KV) ,從而將計算復(fù)雜度降低為線性。然而,之前的許多工作表明線性注意的表達能力不足,難以取得令人滿意的效果。令人驚訝的是,本文發(fā)現(xiàn)高性能的 Mamba 和表達能力不足的線性注意力的公式之間存在深層次的關(guān)聯(lián)。因此,一個引人思考的研究問題是:是什么因素導(dǎo)致了 Mamba 的成功和它相較于線性注意力的顯著優(yōu)勢?從這個問題出發(fā),本文在以下幾個方面進行了探索:1. 揭示了 Mamba 與 Linear Attention Transformer 之間的關(guān)系:Mamba 和 Linear Attention Transformer 可以使用統(tǒng)一的公式表示。進一步地,Mamba 可以視為具有若干特殊設(shè)計的線性注意力,其特殊設(shè)計為:輸入門 (input gate)、遺忘門 (forget gate)、快捷連接 (shortcut)、無注意力的歸一化、single-head 和更先進的宏觀架構(gòu)。2. 實驗證明,遺忘門和宏觀架構(gòu)很大程度上是 Mamba 性能成功的關(guān)鍵。然而,遺忘門會導(dǎo)致循環(huán)計算,可能并不適合視覺模型。本文發(fā)現(xiàn),適當?shù)奈恢镁幋a能夠在視覺任務(wù)中替代遺忘門的作用,同時保持并行計算和快速的推理。3. 提出了一系列名為 MILA 的 Linear Attention Transformer 模型,它引入了 Mamba 的設(shè)計思想,并且比原始 Mamba 模型更適合視覺任務(wù)。一、線性注意力與狀態(tài)空間模型回顧本文首先簡略回顧線性注意力和狀態(tài)空間模型的數(shù)學表達。本部分公式較多,詳細推導(dǎo)請參考論文或視頻講解。1. 線性注意力對于輸入序列圖片,單頭線性注意力可以表達為:圖片

可以看到,線性注意力通過先計算 K 和 V 的乘積,將計算復(fù)雜度降低到圖片。上式中,每個 Q 擁有全局感受野,可以與所有的 K、V 進行信息交互。實際應(yīng)用中,線性注意力也可以應(yīng)用在自回歸的模型中,限制每個 token 只能與之前的 token 進行信息交互:圖片

這種因果的線性注意力范式可以進一步寫成循環(huán)形式:圖片

2. 狀態(tài)空間模型對于實數(shù)序列輸入圖片,Mamba 所采用的狀態(tài)空間模型可以表達為:圖片

為了方便后續(xù)推導(dǎo),此處對上式進行了 3 處數(shù)學表達上的等價變形,具體請參考原論文。等價變形后得到的公式為:

圖片

對于向量序列輸入圖片,Mamba 會在每個維度分別應(yīng)用上式的實數(shù)輸入 SSM,從而得到下面狀態(tài)空間模型:

圖片

值得注意的是,上式嚴格等價于 Mamba 所進行的 SSM 操作,這里僅僅進行了數(shù)學表達形式上的等價變換。二、Mamba 與線性注意力關(guān)系解析對于輸入序列圖片,Mamba 與線性注意力的公式之間有許多相似之處。為了便于比較,本文將二者使用相同的公式進行表達:以下是上述兩個公式的示意圖:

圖片 

圖 1:Mamba 與線性注意力操作示意圖從公式和示意圖可以看到,Mamba 的 SSM 操作與線性注意力有深刻的聯(lián)系。具體來說,SSM 中的 C 類似于線性注意力中的 Q,B 類似于 K^T,x 類似于 V ,h 類似于 S。因此,Mamba 和線性注意力有著非常密切的關(guān)系,Mamba 可以被認為是一種特殊的線性注意力。此外,基于公式和示意圖中還可以發(fā)現(xiàn)二者的幾個不同點:(1) 在 Mamba 中,圖片會與圖片逐位相乘。由于圖片是每一位嚴格大于零的向量,因此可將其視為一個等效的輸入門,可以控制圖片輸入 SSM 的比例。(2) 在 Mamba 中,有額外的圖片圖片逐位相乘。在 Mamba 的實現(xiàn)中,圖片每一位都是 0 到 1 之間的實數(shù),因此圖片實際控制對于之前的狀態(tài)空間圖片的衰減程度,因此可將其理解為等效的遺忘門。(3) Mamba 中,有一個額外的可學習的 shortcut,圖片。(4) 線性注意力中,有一個保證注意力之和為 1 的歸一化分母圖片,Mamba 中沒有這樣的歸一化。除此之外,該圖和公式中的線性注意力都是單頭設(shè)計,因為僅有一組 Q 和 K。所以可以認為 Mamba 等效于單頭線性注意力,而沒有采用多頭設(shè)計(即多組 Q 和 K)。進一步,除了核心操作不同之外,Mamba 和傳統(tǒng)的線性注意力模型在宏觀結(jié)構(gòu)上也有區(qū)別。二者的宏觀結(jié)構(gòu)如下圖,Mamba 采用比較符合的結(jié)構(gòu),包含線性層、卷積、SSM 等。

圖片 

圖 2:線性注意力模型、Mamba 和 MILA 的宏觀模型架構(gòu)總而言之,Mamba 可以視為具有 6 種特殊設(shè)計的線性注意力模型,其特殊設(shè)計為:輸入門、遺忘門、shortcut、無注意力歸一化、單頭設(shè)計、更先進的宏觀結(jié)構(gòu)。三、實驗Mamba 被視為 Transformer 的一種有力挑戰(zhàn)者,而線性注意力通常性能不佳。在之前的分析中,本文發(fā)現(xiàn)這兩種性能差距很大的模型具有深刻的相似性,并指出了他們之間的 6 個不同設(shè)計。接下來,本文通過實驗來驗證究竟是哪些設(shè)計導(dǎo)致了二者之間如此大的性能差距。1. 核心驗證實驗本文使用線性注意力作為 baseline 模型,在其基礎(chǔ)上引入每一個不同設(shè)計,并在 ImageNet 上實驗驗證模型性能的變化。結(jié)果如下圖所示:圖片 

圖 3:每個不同設(shè)計的影響可以看到,Mamba 的等效遺忘門和宏觀設(shè)計對于模型性能最為關(guān)鍵,而其他設(shè)計影響不大或者不如線性注意力。同時,本文發(fā)現(xiàn),由于遺忘門必須采用循環(huán)計算,引入遺忘門使得模型推理速度明顯下降。遺忘門帶來的循環(huán)計算對于語言模型等自回歸模型是合適的,因為模型在推理時本來就需要不斷自回歸循環(huán)計算。然而,這種模式對于圖像等非因果并不自然,因為它不僅限制了模型的感受野,還極大降低了模型的推理速度。本文發(fā)現(xiàn),在視覺任務(wù)中,適當?shù)奈恢镁幋a能夠引入類似遺忘門的位置信息,同時保持全局感受野、并行計算和更快的推理速度。

圖片 

圖 4:在視覺模型中用位置編碼代替遺忘門2. MILA 模型基于以上分析和驗證,本文將 Mamba 和線性注意力的優(yōu)秀設(shè)計結(jié)合起來,將 Mamba 的兩項核心設(shè)計的精髓引入線性注意力,構(gòu)建了 Mamba-Inspired Linear Attention (MILA) 模型。MILA 能夠以線性復(fù)雜度實現(xiàn)全局建模,同時享有并行計算和更快的推理速度,在多種視覺任務(wù)上都取得了優(yōu)于各類視覺 Mamba 模型的效果。以下是一些實驗結(jié)果:

圖片 

圖 5:ImageNet 分類實驗

圖片 

圖 6:模型推理速度和性能的 Trade-off圖片

圖 7:高分辨率下游任務(wù) —— 物體檢測四、總結(jié)(1) Mamba 可以視為具有若干特殊設(shè)計的線性注意力,其特殊設(shè)計為:輸入門 (input gate)、遺忘門 (forget gate)、快捷連接 (shortcut)、無注意力的歸一化、單頭設(shè)計 (single-head) 和更先進的宏觀架構(gòu)。(2) 實驗證明,遺忘門和宏觀架構(gòu)很大程度上是 Mamba 性能成功的關(guān)鍵。然而,遺忘門會導(dǎo)致循環(huán)計算,可能并不適合視覺模型。本文發(fā)現(xiàn),適當?shù)奈恢镁幋a在視覺任務(wù)中替代遺忘門的作用,同時保持并行計算和快速的推理。(3) 本文提出了一系列名為 MILA 的 Linear Attention Transformer 模型,它繼承了 Mamba 的核心優(yōu)點,并且比原始 Mamba 模型更適合視覺任務(wù)。

相關(guān)推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內(nèi)容相關(guān)的任何行動之前,請務(wù)必進行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產(chǎn)生的任何金錢損失負任何責任。

熱門文章