揭示Transformer「周期建模」缺陷,北大提出新型神經網絡FAN,填補周期性特征建模能力缺陷
北京大學研究團隊開發的FAN模型能有效捕捉數據中的周期性模式,相比傳統模型在多項任務中表現出色,同時降低了參數量和計算量,增強了對周期性特征的建模能力,應用潛力廣泛。
周期性現象廣泛存在,深刻影響著人類社會和自然科學。作為最重要的基本特性之一,許多規律都顯式或隱式地包含周期性,例如,天文學中的行星運動、氣象學中的季節變化、生物學中的晝夜節律、經濟學中的商業周期、物理學中的電磁波,以及數學運算和邏輯推理等。
因此,在許多任務和場景中,人們希望對周期進行建模,以便根據以往的經驗進行推理。
盡管以 MLP 和 Transformer 為代表的基礎模型已經取得了顯著的成功,但是它們卻在周期性建模方面存在潛在的缺陷。
即使面對簡單的正弦函數,現有基礎模型也難以理解其中的周期性規律,在外推時表現出完全失控的狀態,未能有效捕捉到周期性現象的本質。
為此,北京大學李戈教授的團隊提出了一種新型網絡架構FAN(Fourier Analysis Networks)。通過引入傅里葉級數的思想,FAN能夠將周期性信息直接嵌入網絡的結構中,使模型更自然地捕捉和理解數據中的周期性模式。
實驗表明,FAN不僅在周期性建模上的表現顯著優于現有模型,而且在符號公式表示、時間序列預測和語言建模等實際任務中也同樣表現出色,超過了Transformer等主流模型。
論文鏈接:https://arxiv.org/pdf/2410.02675.pdf
代碼鏈接:https://github.com/YihongDong/FAN
圖1 不同基礎模型在其訓練數據域內外對正弦函數的表現,其中x為標量
研究者認為,許多實際任務都顯式或者隱式地包含潛在的周期性特征,良好的周期性建模對于提升模型在這些任務上的表現是必要的,而現有基礎模型嚴重依賴數據驅動的優化方式,缺少明確的機制來理解數據中的根本原理。
FAN的意義在于,它提供了一種全新的范式來有效地建模周期性,能夠無縫替換傳統MLP,同時減少參數量和計算量,填補了當前基礎模型在周期性建模上的缺陷,并展示出廣泛的應用潛力。
圖2 MLP Layer和FAN Layer的示例
本文的通訊作者是北京大學計算機學院長聘教授、教育部長江學者李戈。第一作者:董益宏,北京大學計算機學院22級博士生,曾在ISSTA、FSE、ACL、NeurIPS、TOSEM等 CCF-A類/SCI一區國際頂級會議和期刊上發表11篇學術論文。
FAN的實現細節
北大研究團隊首先構建一個簡單神經網絡來建模傅里葉級數,然后在此基礎上設計了FAN網絡架構。
為構建一個簡單的神經網絡
表示函數的傅里葉級數展開,我們可以將
表示為:
其中
是可學習參數,(I) 根據
和
通過定積分計算,(II) 和 (III) 是矩陣運算的等價形式,[·||·] 和 [·, ·] 分別表示沿第一維度和第二維度的連接。
為了充分利用深度學習的優勢,我們可以堆疊上述網絡
形成深度神經網絡
,其中第i層表示為
。
因此,
可以表示為:
其中
表示左側函數
作用于右側輸入x,即
。
然而,我們發現直接堆疊
會導致模型
的主要參數集中于學習角頻率
,從而忽略了傅里葉系數
和
的學習,如下所示:
其中
定義為
用于近似角頻率,
用于近似傅里葉系數。
因此,
擬合傅里葉系數的能力與
的深度無關,這是一個不理想的結果。
為了應對這一問題,研究團隊根據以下原則設計了FAN:
1. FAN 表示傅里葉系數的能力應與其深度正相關;
2. 任何隱藏層的輸出都可以通過后續層使用傅里葉級數來建模周期性。
第一個原則通過利用FAN的深度增強了其周期性建模的表現力,而第二個原則確保FAN中間層的特征可用于執行周期性建模。
假設我們將
解耦為:
其中,
為了滿足這兩個原則,FAN的中間層輸入需要同時使用
和
而不是依次應用它們。
最終,FAN 基于此設計,其FAN層
定義如下:
其中
是可學習參數,
表示激活函數。
整個FAN定義為FAN Layer
的堆疊:
其中,
FAN的性能表現
周期建模
圖3 FAN在周期性建模中的表現與 MLP、KAN 和 Transformer 相比,其中綠線表示訓練數據域內的測試數據,而藍線表示訓練數據域外的測試數據
圖3展示了FAN和其他模型在周期性建模中的表現。結果表明,現有的神經網絡(包括 MLP、KAN 和 Transformers)在建模周期性方面表現出明顯的不足。盡管它們試圖擬合這些周期函數,但其內在能力限制了它們在大范圍周期性上的性能表現。
相比之下,FAN在所有這些周期性建模任務中都明顯優于基線。更值得一提的是,FAN在訓練數據域內和域外的測試數據上都表現得非常出色,表明它能夠真正理解周期性的深刻原理并對其進行精準建模,而不僅僅是記住訓練數據。
圖4 不同模型在學習復雜周期函數任務上的訓練和測試損失比較
研究團隊還分析了不同模型在學習復雜周期函數任務上的訓練過程,如圖4所示,結果如下:
1. FAN在收斂速度和最終效果方面都遠遠超過其他模型;
2. 與FAN相比,FAN (Gated) 通常可以實現更快的收斂,但最終性能仍然相當;
3. 隨著訓練輪數的增加,雖然其他模型的訓練損失變得穩定或逐漸減少,但它們的建模可能與測試數據的分布有很大差異,導致測試損失急劇增加。這一現象進一步證明了這些模型在捕捉周期性方面的缺陷。
符號公式表示
圖5 不同模型在符號公式表示任務中不同參數量的表現
從不同模型應用于數學和物理學中四個常見函數的表現中可以觀察到,雖然 KAN 在參數數量較少時能與FAN相媲美,但隨著參數數量的增加,其性能會顯著下降。
相反,隨著參數數量的增加,FAN擬合這些函數始終優于其他基線,包括 MLP、KAN 和 Transformer,盡管這些函數中的許多只是部分周期性的或完全非周期性的。
這些結果表明,FAN不僅增強了對周期性的建模能力,同時也沒有損害擬合非周期性函數的能力。
時間序列預測
如表2 所示,研究團隊在四個公共數據集上比較了結合FAN的Transformer 和其他序列模型在時間序列預測任務上的表現。在大多數情況下,與 LSTM、Mamba 和標準 Transformer 相比,結合FAN和FAN(Gated)的Transformer 在這些任務上取得了最佳性能。
它們相對于標準 Transformer 的改進是顯著的,平均相對改進范圍為14.3%-15.0%的 MSE和7.6%-7.9%的MAE。
這些結果表明,在神經網絡中加入顯式周期模式編碼可以提高實際應用中的時間序列預測性能。
語言建模
探究者報告了不同序列模型在四種情緒分析數據集上的性能比較,如表3所示。
可以發現,結合FAN和FAN(Gated)的Transformer與標準 Transformer 和其他序列模型(例如 LSTM 和 Mamba)相比表現出明顯優越的性能,尤其是在 IMDB、Sentiment140 和 Amazon Reviewers 數據集上的零樣本跨領域表現。
結合FAN的 Transformer 在損失和準確度方面分別實現了最14.65%和8.50%的相對改進,同時將參數數量減少了約 14.16M。結果表明周期性建模在跨領域語言建模和情緒分析任務上具有提高有效性和泛化的潛力。
FAN的表達能力和應用范圍
FAN在理論上具有與MLP相同的表達能力,因為它也遵循通用近似定理,這確保了其函數近似能力。不同的是,FAN通過明確納入周期性,引入了重要的功能增強,這是傳統MLP所不具備的。
FAN的這一設計,不僅全面繼承了MLP的既有優勢,還增強了其捕獲數據周期性特征的能力。因此,FAN可以作為MLP的有力替代品。
當然,FAN的實用性不僅限于明確需要周期性建模的任務,在更廣泛的應用中也展現出強大的適用性。研究團隊通過一系列現實世界任務的實驗證明,如符號公式表示、時間序列預測和語言建模等,FAN的表現明顯優于MLP和其他基線模型。
事實上,許多看似與周期性無直接關聯的機器學習任務,如數學運算和邏輯推理,實際上也可能隱藏著周期性。
如果神經網絡缺乏針對周期性特征進行建模的能力,則可能會損害其學習效率。
從更深層次的角度來看,周期性不僅僅是一種數據特征,還反映了一種規律或知識,即允許抽象的規則和原理在不同上下文之間轉移和重用。
總結來看,FAN與MLP相比,不僅增強了周期性建模能力,且參數量和計算量更少,有望成為基礎模型的關鍵組成部分。
未來,北大研究團隊將進一步擴大FAN的應用范圍,增強其作為基礎模型組件的表現,持續推動基礎模型的技術進步與創新發展。
參考資料:
https://arxiv.org/pdf/2410.02675.pdf
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。