首頁 > AI資訊 > 最新資訊 > 剛剛,Ilya的Seq2Seq、Ian的GAN獲NeurIPS時間檢驗獎

剛剛,Ilya的Seq2Seq、Ian的GAN獲NeurIPS時間檢驗獎

機器之心    2024-11-29


剛剛,NeurIPS 官方公布了 2024 年度的時間檢驗獎,破天荒的頒給了兩篇論文。

一篇是 Ian Goodfellow 的生成對抗網絡(GAN),一篇是 Ilya Sutskever 的 Seq2Seq。

但 10 年前的這兩篇論文獲得時間檢驗獎,也可以說是實至名歸。

「今年,我們破例頒發了兩篇時間檢驗論文獎,因為這兩篇論文對整個領域的影響毋庸置疑。」

Jeff Dean 也發來祝賀:

論文 1:Generative Adversarial Nets

獲得 NeurIPS 時間檢驗獎的其中一篇論文是《Generative Adversarial Nets》,作者陣容非常豪華,AI 圈知名大佬 Ian J. Goodfellow 、 Yoshua Bengio 等都在內。

Ian Goodfellow 本科與碩士就讀于斯坦福大學,師從吳恩達,博士階段則跟隨 Yoshua Bengio 研究機器學習。他最引人注目的成就是在 2014 年 6 月提出了生成對抗網絡(GAN)。

GAN 在圖像生成領域取得了重大突破,可以突破性地生成動物、風景以及人臉等高度逼真的合成圖像。這一概念衍生出眾多變體,成為機器學習界最火熱的討論話題,與 GAN 有關的論文不斷涌現。

Ian Goodfellow 的履歷涉及 OpenAI、谷歌、蘋果等多家科技公司。在最近一次 2022 年離開蘋果后,他回到了 Google DeepMind 擔任研究科學家。

  • 論文地址:https://arxiv.org/pdf/1406.2661
  • 作者:Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, Yoshua Bengio
  • 機構:蒙特利爾大學

截至 NeurIPS 揭曉獎項時,「GAN」的論文已被引用超過 85000 次,是生成模型領域的奠基之作,在過去 10 年間推動了眾多研究進展。除了在學術界的影響,它還使生成模型在視覺數據及其他領域的應用中產生了深遠影響。

論文介紹:本文提出了一個新的框架,通過對抗過程來估計生成模型,他們同時訓練兩個模型:一個生成模型 G,用于捕捉數據分配;一個判別模型 D,用于估計某個樣本是來自訓練數據的概率,還是來自 G 生成的概率。生成模型 G 的訓練目標是最大化判別模型 D 出錯的概率。

該框架對應于極小極大雙人博弈。在任意函數 G 和 D 的空間中,存在唯一解,其中 G 恢復訓練數據分布,而 D 處處等于 1/2。在 G 和 D 由多層感知器定義的情況下,整個系統可以用反向傳播進行訓練。在訓練或生成樣本期間不需要任何馬爾可夫鏈或展開的近似推理網絡。

生成對抗網絡的小批量隨機梯度下降訓練算法如下:

下圖展示了經過對抗訓練之后從生成器網絡中提取的樣本,凸顯了對抗框架的潛力。

論文 2: Sequence to Sequence Learning with Neural Networks

獲得今年 NeurIPS 時間檢驗獎的另外一篇論文是 Ilya Sutskever、Oriol Vinyals、Quoc V. Le 三人在谷歌合作完成的。

當時,谷歌收購了 Hinton 的公司 DNNResearch,并聘請 Ilya Sutskever 擔任谷歌大腦研究科學家。加入谷歌的 Sutskever 全身心地投入到序列建模問題中,它可以應用于語音,文本和視頻,其中的一個非常實際的應用就是機器翻譯。

2014 年,Sutskever 與谷歌研究員 Oriol Vinyals 和 Quoc Le 一起提出了 Seq2seq 學習(Sequence to Sequence Learning)。它輸入比如一句英文的序列結構,再將其映射到也具有序列結構的一句法文上。該方法就此開啟了 RNN 廣泛應用于語言任務的時代。這項研究被應用于機器翻譯,在大型數據集上的表現優于基于短語的統計機器翻譯基線。

  • 論文鏈接:https://arxiv.org/pdf/1409.3215
  • 作者:Ilya Sutskever, Oriol Vinyals, Quoc V. Le
  • 機構:谷歌

論文介紹:深度神經網絡 (DNN) 是強大的模型,在困難的學習任務上取得了優異的性能。盡管只要有大型標記訓練集可用,DNN 就能很好地工作,但它們不能用于將序列映射到序列。

該論文提出了一種通用的端到端序列學習方法,該方法對序列結構做出最少的假設,使用多層長短期記憶 (LSTM) 將輸入序列映射到固定維度的向量,然后使用另一個深度 LSTM 從向量解碼目標序列。

主要研究結果是,在 WMT'14 數據集的英語到法語翻譯任務中,LSTM 生成的翻譯在整個測試集上的 BLEU 得分為 34.8,其中 LSTM 的 BLEU 得分因詞匯外的內容而受到懲罰。

此外,LSTM 在處理長句子時沒有困難。作為比較,基于短語的 SMT 系統在同一數據集上的 BLEU 得分為 33.3。當使用 LSTM 對上述 SMT 系統產生的 1000 個假設進行重新排序時,其 BLEU 得分增加到 36.5,這接近于之前在該任務上的最佳結果。LSTM 還學習了對詞序敏感且對主動語態和被動語態相對不變的敏感短語和句子表征。

最后,作者發現反轉所有源句子(不是目標句子)中的單詞順序可以顯著提高 LSTM 的性能,因為這樣做會在源句子和目標句子之間引入許多短期依賴關系,從而使優化問題變得更容易。

隨著大型語言模型和基礎模型的快速發展,人工智能及其應用正在經歷范式轉變,整個領域受益于 Seq2Seq 奠定的基礎。至今,論文的引用量超過 27000 次。

它為編碼器 - 解碼器架構的提出奠定了基石,并啟發了后續基于注意力機制的研究,推動了如今基礎模型研究的蓬勃發展。


相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章