首頁 > AI資訊 > 最新資訊 > 一周發(fā)明GAN,時(shí)間檢驗(yàn)獎(jiǎng)得主分享背后故事:每件發(fā)明都不是最后的發(fā)明

一周發(fā)明GAN,時(shí)間檢驗(yàn)獎(jiǎng)得主分享背后故事:每件發(fā)明都不是最后的發(fā)明

新火種    2024-12-29

引用超85000次的經(jīng)典論文GAN獲NeurIPS2024時(shí)間檢驗(yàn)獎(jiǎng)后,它的起源和背后故事也被拋了出來。

要從Yoshua Bengio實(shí)驗(yàn)室的一次頭腦風(fēng)暴說起。

Bengio召集實(shí)驗(yàn)室成員,提出了一個(gè)富有挑戰(zhàn)性的設(shè)想:

訓(xùn)練一個(gè)確定性的生成網(wǎng)絡(luò)g,該網(wǎng)絡(luò)僅在輸入z中包含隨機(jī)噪聲。這個(gè)網(wǎng)絡(luò)的輸出x=g(z)應(yīng)該是從某個(gè)分布p(x)中抽取的樣本。輸出可以是任何形式:圖像、音頻、文本。

正當(dāng)眾人皆無頭緒之時(shí),一個(gè)在當(dāng)時(shí)看似滑稽且?guī)缀鯚o意義的想法揭開了GAN的序幕:

如果能有另一個(gè)神經(jīng)網(wǎng)絡(luò)充當(dāng)判別器,會(huì)怎樣?

作者之一Sherjil Ozair,一邊講述著這段經(jīng)歷,一邊還透露曾有DeepMind研究員向他開玩笑,說他可能已經(jīng)完成了最偉大的工作,可以直接退休了。

但他認(rèn)為事實(shí)并非如此。

CNN感覺像是最后的發(fā)明,但并不是。

GAN感覺像是最后的發(fā)明,但也不是。

LSTM、ResNet、DQN、AlphaGo、AlphaZero、MuZero都并非終結(jié)。

Transformer和大語言模型,亦不是最后的發(fā)明。

這項(xiàng)出自Yoshua Bengio、lan Goodfellow等一眾大佬,引用超過85000次,被NeurIPS2024官方評(píng)價(jià)為“生成建模的基礎(chǔ)部分之一,在過去10年中激發(fā)了許多研究進(jìn)展”的研究。

究竟是如何煉成的?

Sherjil Ozair講述背后故事

以下是Sherjil Ozair的完整自述:

非常高興聽到GAN(生成對(duì)抗網(wǎng)絡(luò))在2024年NeurIPS大會(huì)上獲得時(shí)間檢驗(yàn)獎(jiǎng)。

NeurIPS時(shí)間檢驗(yàn)獎(jiǎng)是授予那些在十年時(shí)間里經(jīng)受住考驗(yàn)的論文。

“我”花了一些時(shí)間回顧GAN是如何產(chǎn)生的以及過去十年中人工智能的發(fā)展。

2012年初,當(dāng)“我”還是印度理工學(xué)院德里分校的本科生時(shí),“我”偶然發(fā)現(xiàn)了Geoffrey Hinton在Coursera上的一門深度學(xué)習(xí)課程。

深度學(xué)習(xí)當(dāng)時(shí)是機(jī)器學(xué)習(xí)中一個(gè)邊緣化且小眾的分支領(lǐng)域,它承諾能實(shí)現(xiàn)更多的“端到端”學(xué)習(xí),并且更接近人類大腦的工作方式。

這門課非常精彩。它不僅很好地解釋了深度學(xué)習(xí)的原理,還充滿了Hinton特有的英式幽默和非傳統(tǒng)思維。

比如,他建議“我們”這樣可視化高維空間:

要處理14維空間中的超平面,想象一個(gè)3維空間,然后大聲對(duì)自己說“14”,每個(gè)人都是這么做。

但請(qǐng)記住,從13維到14維的轉(zhuǎn)變,其增加的復(fù)雜性與從2維到3維的轉(zhuǎn)變一樣大。

出于好奇興奮地想學(xué)習(xí)更多知識(shí),“我”開始仔細(xì)研究所有能找到的資料。

當(dāng)時(shí)主要是一些杰出研究者發(fā)表的學(xué)術(shù)論文,比如Yoshua Bengio,其中很多都保存在他實(shí)驗(yàn)室的網(wǎng)站上。

2012年,Quora非?;鸨?,Yoshua經(jīng)常在Quora上回答有關(guān)深度學(xué)習(xí)的問題。

“我”真誠地感謝他幫助像“我”這樣的本科生理解深度學(xué)習(xí)?!拔摇蓖ㄟ^Quora聯(lián)系他,表達(dá)謝意。

令“我”非常驚喜的是,“我”不僅收到了回復(fù),還收到了一份他實(shí)驗(yàn)室的實(shí)習(xí)邀請(qǐng)。

這是一次命運(yùn)的相遇,而當(dāng)時(shí)的“我”對(duì)這次交流和即將展開的旅程的重要性和影響力還只有一點(diǎn)點(diǎn)模糊的認(rèn)識(shí)。

“我”由衷地感激Yoshua Bengio為這個(gè)世界和為“我”所做的一切。

“我”通過了面試獲得了實(shí)習(xí)機(jī)會(huì),2014年夏天,將在Yoshua的LISA實(shí)驗(yàn)室實(shí)習(xí)。

本想2013年就實(shí)習(xí)的,但印度理工學(xué)院的制度要求學(xué)生必須在第三學(xué)年的暑假在他們認(rèn)可的公司實(shí)習(xí)。

2014年5月,“我”飛抵蒙特利爾,來到了實(shí)驗(yàn)室。

剛見到Y(jié)oshua,他就立馬把“我”拉進(jìn)了一個(gè)房間,里面坐著的還有Ian Goodfellow和Aaron Courville。

Yoshua繼續(xù)解釋著他最近一直在思考的一個(gè)新想法:

設(shè)想構(gòu)建一個(gè)確定性的生成網(wǎng)絡(luò)g,只在輸入z中包含隨機(jī)噪聲。這個(gè)網(wǎng)絡(luò)的輸出x=g(z)應(yīng)該是來自某個(gè)分布p(x)的樣本,可以是任何形式:圖像、音頻或文本。

他強(qiáng)調(diào)這就是“我們”需要訓(xùn)練的目標(biāo)。

但怎么訓(xùn)練呢?在這種“隱式”網(wǎng)絡(luò)中,概率p(x)并沒有明確表達(dá)。

他提出應(yīng)該對(duì)生成器的輸出(生成分布)和某個(gè)樣本數(shù)據(jù)集(可以是圖像、音頻等)進(jìn)行“雙樣本分布匹配”。

但如何進(jìn)行這種分布匹配仍然不明確。

作為一個(gè)年輕天真的本科生,“我”提出了矩匹配,但“我們”都知道矩匹配可能無法應(yīng)對(duì)高維數(shù)據(jù)。小組里也討論了其他想法,也都感覺不夠有說服力。

不過,Yoshua對(duì)訓(xùn)練一個(gè)確定性的、消耗噪聲并產(chǎn)生樣本的生成神經(jīng)網(wǎng)絡(luò)的愿景和熱情令人印象深刻且富有啟發(fā)性。

團(tuán)隊(duì)決定私下繼續(xù)思考這個(gè)問題。

在Les Trois Brasseurs餐廳的一次實(shí)驗(yàn)室聚餐中,Ian Goodfellow突然想到了一個(gè)在當(dāng)時(shí)看似滑稽且?guī)缀鹾翢o意義的主意:

如果讓另一個(gè)神經(jīng)網(wǎng)絡(luò)來充當(dāng)判別器會(huì)怎樣?

這是一個(gè)開拓前沿的時(shí)刻。

當(dāng)時(shí),神經(jīng)網(wǎng)絡(luò)的訓(xùn)練還相當(dāng)“原始”。通常做法是:

建立一個(gè)主神經(jīng)網(wǎng)絡(luò),輸入數(shù)據(jù),得到一個(gè)預(yù)測(cè)結(jié)果,對(duì)其應(yīng)用一個(gè)數(shù)學(xué)損失函數(shù),然后使用梯度下降來優(yōu)化這個(gè)網(wǎng)絡(luò)。

而Ian的想法則把損失函數(shù)本身設(shè)想成一個(gè)可學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)。不是優(yōu)化一個(gè)固定的數(shù)學(xué)損失,而是用另一個(gè)“判別器”神經(jīng)網(wǎng)絡(luò)來提供損失值和梯度,用于訓(xùn)練“生成器”神經(jīng)網(wǎng)絡(luò)。

這個(gè)想法自然招致質(zhì)疑。整個(gè)系統(tǒng)會(huì)不會(huì)崩潰到退化輸出?判別器從何而來?處處都是先有雞還是先有蛋的困境。

但I(xiàn)an對(duì)此也早有腹案。他提出讓判別器和生成器在一個(gè)零和博弈中對(duì)抗:

生成器試圖產(chǎn)生與真實(shí)數(shù)據(jù)“難以區(qū)分”的輸出,而判別器則要設(shè)法分辨看到的是生成樣本還是真實(shí)樣本。

也許這能行?第二天,實(shí)驗(yàn)室所有成員都收到了一封郵件。

在一個(gè)充斥著編程和運(yùn)行實(shí)驗(yàn)的長夜,Ian成功讓第一個(gè)生成對(duì)抗網(wǎng)絡(luò)運(yùn)行起來。

這些是在MNIST數(shù)據(jù)集上產(chǎn)生的第一批樣本。

當(dāng)時(shí)“我”正在研究類似的東西,用非神經(jīng)網(wǎng)絡(luò)判別器進(jìn)行訓(xùn)練,但效果遠(yuǎn)不及預(yù)期。

于是“我”決定轉(zhuǎn)而幫助Ian研究GAN。距離NeurIPS 2014的提交截止日期只有一周了?!拔覀儭睕Q定全力以赴,應(yīng)該能趕上提交一篇論文。

在接下來的幾天里,“我們”設(shè)置了評(píng)估方法來與現(xiàn)有的生成模型進(jìn)行比較,嘗試了不同的架構(gòu)、噪聲函數(shù)和博弈公式。

Jean、Yoshua和“我”發(fā)現(xiàn)GAN博弈是收斂的,并且在平衡狀態(tài)下最小化了Jensen-Shannon散度。

“我們”堅(jiān)持了下來,在最后一周完成了所有工作,并提交了一篇論文到NeurIPS。

GAN被接收為海報(bào)展示論文(posted presentation)。

“我”記得雖然大家都很興奮,但也都知道GAN的訓(xùn)練動(dòng)態(tài)非常不穩(wěn)定。大部分合作者開始研究其它模型架構(gòu),試圖解決在GAN中發(fā)現(xiàn)的問題。

GAN在12月份進(jìn)行了展示,卻基本上沒有引起注意。

幾個(gè)月后,2015年8月,Alec Radford開始發(fā)布他一直在研究的卷積GAN的樣本。

沒錯(cuò),就是那個(gè)幾乎參與了OpenAI所有重大突破的Alec Radford。2015年,他正在研究卷積神經(jīng)網(wǎng)絡(luò)、批量歸一化和GAN。

“我”無法完全展現(xiàn)DCGAN之后GAN引發(fā)的巨大關(guān)注。

但“我”想強(qiáng)調(diào)的是,GAN的演進(jìn)過程被恰如其分地用來象征AI整體的進(jìn)步。

這張展示圖像生成驚人發(fā)展的圖片已經(jīng)過時(shí)了,因?yàn)楝F(xiàn)在的圖像生成模型已經(jīng)能生成百萬像素級(jí)的圖像,甚至可以生成視頻。

至于“我”個(gè)人的故事,GAN作為“我”的第一篇學(xué)術(shù)論文既是福也是禍。一位DeepMind的研究員曾開玩笑說,“我”可能已經(jīng)可以退休了,因?yàn)椤拔摇笨赡芤呀?jīng)完成了自己最偉大的工作。

但是“認(rèn)為歷史已經(jīng)終結(jié)”可能是AI領(lǐng)域最大的錯(cuò)誤?!拔覀儭翱偸莾A向于認(rèn)為“就是這個(gè)了,這是最后的發(fā)明”。但事實(shí)從來都不是這樣。

CNN曾經(jīng)感覺像是最后的發(fā)明,但并不是。

GAN曾經(jīng)感覺像是最后的發(fā)明,但并不是。

LSTM曾經(jīng)感覺像是最后的發(fā)明,但并不是。

ResNets、DQN、AlphaGo、AlphaZero、MuZero都不是最后的答案。

回過頭來看,這些想法總是顯得很滑稽。但是想想現(xiàn)在,Transformer和大語言模型被認(rèn)為是最后的發(fā)明。

但它們也不是。

“我”最近離開了前沿AI實(shí)驗(yàn)室的圈子,開始創(chuàng)辦一家公司來構(gòu)建一些真正令人驚嘆的東西?!拔摇焙芸鞎?huì)分享更多相關(guān)信息。敬請(qǐng)關(guān)注。

感謝NeurIPS Conference授予GAN時(shí)間檢驗(yàn)獎(jiǎng),也感謝這些對(duì)抗者們:Ian Goodfellow、Jean Pouget-Abadie、Mehdi Mirza、Bing Xu、David Warde-Farley、Aaron Courville、Yoshua Bengio

也為Seq2Seq論文作者們表示祝賀。

Ian Goodfellow開麥

Mehdi Mirza將這段經(jīng)歷分享出來后吸引到不少網(wǎng)友圍觀,網(wǎng)友們看得津津有味:

沒想到論文一周就寫出來了。

好一段精彩的歷史回顧!在”Attention is all you need”之前,GAN才是主流。

GAN論文一作Ian Goodfellow也激情開麥:

如果你是那個(gè)時(shí)代的親歷者,值得一讀以懷舊;如果你不是,也能通過這些文字一窺當(dāng)年的情形。

關(guān)于GAN論文的更多細(xì)節(jié),可以點(diǎn)擊這里查看:史無前例!Seq2Seq和GAN同獲NeurIPS時(shí)間檢驗(yàn)獎(jiǎng),Ilya連續(xù)2年獲獎(jiǎng)。

相關(guān)推薦
免責(zé)聲明
本文所包含的觀點(diǎn)僅代表作者個(gè)人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對(duì)本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險(xiǎn),讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前,請(qǐng)務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對(duì)因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。

熱門文章