首頁 > AI資訊 > 最新資訊 > 揭示Transformer重要缺陷!北大提出傅里葉分析神經網絡FAN,填補周期性特征建模缺陷

揭示Transformer重要缺陷!北大提出傅里葉分析神經網絡FAN,填補周期性特征建模缺陷

新火種    2024-11-15
來源: 機器之心

本文的通訊作者是北京大學計算機學院長聘教授李戈。第一作者:董益宏,北京大學計算機學院 22 級博士生,曾在 ISSTA、FSE、ACL、NeurIPS、TOSEM 等 CCF-A 類 / SCI 一區國際頂級會議和期刊上發表 11 篇學術論文。

周期性現象廣泛存在,深刻影響著人類社會和自然科學。作為最重要的基本特性之一,許多規律都顯式或隱式地包含周期性,例如天文學中的行星運動、氣象學中的季節變化、生物學中的晝夜節律、經濟學中的商業周期、物理學中的電磁波以及數學運算和邏輯推理等。因此,在許多任務和場景中,人們希望對周期進行建模,以便根據以往的經驗進行推理。

盡管以 MLP 和 Transformer 為代表的基礎模型已經取得了顯著的成功,但是它們卻在周期性建模方面存在潛在的缺陷。即使面對簡單的正弦函數,現有基礎模型也難以理解其中的周期性規律,在外推時表現出完全失控的狀態,未能有效捕捉到周期性現象的本質。

圖片

圖 1:不同基礎模型在其訓練數據域內外對正弦函數的表現,其中 x 為標量。

為此,北京大學李戈教授的團隊提出了一種新型網絡架構 FAN(Fourier Analysis Networks)。通過引入傅里葉級數的思想,FAN 能夠將周期性信息直接嵌入網絡的結構中,使模型更自然地捕捉和理解數據中的周期性模式。

圖片

  • 論文鏈接:https://arxiv.org/pdf/2410.02675.pdf
  • 代碼鏈接:https://github.com/YihongDong/FAN
  • 論文標題:FAN: Fourier Analysis Networks

實驗表明,FAN 不僅在周期性建模上的表現顯著優于現有模型,而且在符號公式表示、時間序列預測和語言建模等實際任務中也同樣表現出色,超過了 Transformer 等主流模型。

研究者認為,許多實際任務都顯式或者隱式地包含潛在的周期性特征,良好的周期性建模對于提升模型在這些任務上的表現是必要的,而現有基礎模型嚴重依賴數據驅動的優化方式,缺少明確的機制來理解數據中的根本原理。

FAN 的意義在于,它提供了一種全新的范式來有效地建模周期性,能夠無縫替換傳統 MLP,同時減少參數量和計算量,填補了當前基礎模型在周期性建模上的缺陷,并展示出廣泛的應用潛力。

圖片

圖片

圖 2:MLP Layer 和 FAN Layer 的示例。

FAN 的實現細節

北大研究團隊首先構建一個簡單神經網絡來建模傅里葉級數,然后在此基礎上設計了 FAN 網絡架構。

為構建一個簡單的神經網絡圖片表示函數的傅里葉級數展開,我們可以將圖片表示為:

圖片


其中圖片是可學習參數,(I) 根據圖片圖片通過定積分計算,(II) 和 (III) 是矩陣運算的等價形式,[?||?] 和 [?,?] 分別表示沿第一維度和第二維度的連接。為了充分利用深度學習的優勢,我們可以堆疊上述網絡圖片形成深度神經網絡圖片,其中第 i 層表示為圖片。因此, 圖片可以表示為:

圖片

其中 圖片圖片表示左側函數 圖片圖片作用于右側輸入 圖片圖片,即 圖片圖片。然而,我們發現直接堆疊圖片會導致模型圖片的主要參數集中于學習角頻率 ( 圖片圖片),從而忽略了傅里葉系數 ( 圖片圖片和) 的學習,如下所示:

圖片

其中圖片定義為圖片圖片用于近似角頻率,圖片用于近似傅里葉系數。因此,擬合傅里葉系數的能力與的深度無關,這是一個不理想的結果。

為了應對這一問題,研究團隊根據以下原則設計了 FAN:1) FAN 表示傅里葉系數的能力應與其深度正相關;2) 任何隱藏層的輸出都可以通過后續層使用傅里葉級數來建模周期性。第一個原則通過利用 FAN 的深度增強了其周期性建模的表現力,而第二個原則確保 FAN 中間層的特征可用于執行周期性建模。

假設我們將圖片解耦為:

圖片


其中

圖片

為了滿足這兩個原則,FAN 的中間層輸入需要同時使用圖片圖片而不是依次應用它們。

最終,FAN 基于此設計,其 FAN 層圖片定義如下:

圖片

其中圖片是可學習參數,圖片表示激活函數。

整個 FAN 定義為 FAN Layer圖片的堆疊:

圖片

其中

圖片

FAN 的性能表現

1. 周期建模

下圖 3 展示了 FAN 和其他模型在周期性建模中的表現。結果表明,現有的神經網絡(包括 MLP、KAN 和 Transformers)在建模周期性方面表現出明顯的不足。盡管它們試圖擬合這些周期函數,但其內在能力限制了它們在大范圍周期性上的性能表現。相比之下,FAN 在所有這些周期性建模任務中都明顯優于基線。更值得一提的是,FAN 在訓練數據域內和域外的測試數據上都表現得非常出色,表明它能夠真正理解周期性的深刻原理并對其進行精準建模,而不僅僅是記住訓練數據。

圖片

圖 3 FAN 在周期性建模中的表現與 MLP、KAN 和 Transformer 相比,其中綠線表示訓練數據域內的測試數據,而藍線表示訓練數據域外的測試數據。

研究團隊還分析了不同模型在學習復雜周期函數任務上的訓練過程,如下圖 4 所示,結果如下:1)FAN 在收斂速度和最終效果方面都遠遠超過其他模型。2)與 FAN 相比,FAN (Gated) 通常可以實現更快的收斂,但最終性能仍然相當。3)隨著訓練輪數的增加,雖然其他模型的訓練損失變得穩定或逐漸減少,但它們的建模可能與測試數據的分布有很大差異,導致測試損失急劇增加。這一現象進一步證明了這些模型在捕捉周期性方面的缺陷。

圖片

圖 4 不同模型在學習復雜周期函數任務上的訓練和測試損失比較

2. 符號公式表示

從不同模型應用于數學和物理學中四個常見函數的表現中可以觀察到,雖然 KAN 在參數數量較少時能與 FAN 相媲美,但隨著參數數量的增加,其性能會顯著下降。相反,隨著參數數量的增加,FAN 擬合這些函數始終優于其他基線,包括 MLP、KAN 和 Transformer,盡管這些函數中的許多只是部分周期性的或完全非周期性的。這些結果表明,FAN 不僅增強了對周期性的建模能力,同時也沒有損害擬合非周期性函數的能力。

圖片

圖 5 不同模型在符號公式表示任務中不同參數量的表現

3. 時間序列預測

如下表 2 所示,研究團隊在四個公共數據集上比較了結合 FAN 的 Transformer 和其他序列模型在時間序列預測任務上的表現。

在大多數情況下,與 LSTM、Mamba 和標準 Transformer 相比,結合 FAN 和 FAN(Gated)的 Transformer 在這些任務上取得了最佳性能。它們相對于標準 Transformer 的改進是顯著的,平均相對改進范圍為 14.3%-15.0% 的 MSE 和 7.6%-7.9% 的 MAE。這些結果表明,在神經網絡中加入顯式周期模式編碼可以提高實際應用中的時間序列預測性能。

圖片

4. 語言建模

研究者報告了不同序列模型在四種情緒分析數據集上的性能比較,如表 3 所示。可以發現,結合 FAN 和 FAN(Gated)的 Transformer 與標準 Transformer 和其他序列模型(例如 LSTM 和 Mamba)相比表現出明顯優越的性能,尤其是在 IMDB、Sentiment140 和 Amazon Reviewers 數據集上的零樣本跨領域表現。結合 FAN 的 Transformer 在損失和準確度方面分別實現了最 14.65% 和 8.50% 的相對改進,同時將參數數量減少了約 14.16M。結果表明周期性建模在跨領域語言建模和情緒分析任務上具有提高有效性和泛化的潛力。

圖片

FAN 的表達能力和應用范圍

FAN 在理論上具有與 MLP 相同的表達能力,因為它也遵循通用近似定理,這確保了其函數近似能力。不同的是,FAN 通過明確納入周期性,引入了重要的功能增強,這是傳統 MLP 所不具備的。FAN 的這一設計,不僅全面繼承了 MLP 的既有優勢,還增強了其捕獲數據周期性特征的能力。因此,FAN 可以作為 MLP 的有力替代品。 

當然,FAN 的實用性不僅限于明確需要周期性建模的任務,在更廣泛的應用中也展現出強大的適用性。研究團隊通過一系列現實世界任務的實驗證明,如符號公式表示、時間序列預測和語言建模等,FAN 的表現明顯優于 MLP 和其他基線模型。

事實上,許多看似與周期性無直接關聯的機器學習任務,如數學運算和邏輯推理,實際上也可能隱藏著周期性。如果神經網絡缺乏針對周期性特征進行建模的能力,則可能會損害其學習效率。從更深層次的角度來看,周期性不僅僅是一種數據特征,還反映了一種規律或知識,即允許抽象的規則和原理在不同上下文之間轉移和重用。

總結來看,FAN 與 MLP 相比,不僅增強了周期性建模能力,且參數量和計算量更少,有望成為基礎模型的關鍵組成部分。未來,北大研究團隊將進一步擴大 FAN 的應用范圍,增強其作為基礎模型組件的表現,持續推動基礎模型的技術進步與創新發展。


相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章