首頁 > AI資訊 > 最新資訊 > 何愷明劉壯新作:消除數據集偏差的十年之戰

何愷明劉壯新作:消除數據集偏差的十年之戰

新火種    2024-03-18

MIT新晉副教授何愷明,新作新鮮出爐:

瞄準一個橫亙在AI發展之路上十年之久的問題:數據集偏差。

何愷明劉壯新作:消除數據集偏差的十年之戰

該研究為何愷明在Meta期間與劉壯合作完成,他們在論文中指出:

這不禁讓人懷疑:我們在消除數據集偏差的戰斗中,真的取得了勝利嗎?

數據集偏差之戰,在2011年由知名學者Antonio Torralba和Alyosha Efros提出——

Alyosha Efros正是Sora兩位一作博士小哥(Tim Brooks和William Peebles)的博士導師,而Antonio Torralba也在本科期間指導過Peebles。

當時他們發現,機器學習模型很容易“過擬合”到特定的數據集上,導致在其他數據集上表現不佳。

十多年過去了,盡管我們有了更大、更多樣化的數據集,如ImageNet、YFCC100M、CC12M等,但這個問題似乎并沒有得到根本解決。

反而,隨著神經網絡變得越來越強大,它們“挖掘”和利用數據集偏差的能力也越來越強了!

為了分析這個問題,何愷明團隊設計了一個虛構的”數據集分類”任務。

聽名字你可能就猜到了:給定一張圖像,模型需要判斷它來自哪個數據集。通過看模型在這個任務上的表現,就可以了解它們捕捉數據集偏差的能力。

何愷明劉壯新作:消除數據集偏差的十年之戰

現代AI輕松識破不同數據集

在實驗中團隊發現,各種現代神經網絡架構,如AlexNet、VGG、ResNet、ViT等,在數據集分類任務上表現出驚人的一致性:它們幾乎都能以超過80%的準確率區分不同數據集的圖像!

何愷明劉壯新作:消除數據集偏差的十年之戰

更令人吃驚的是,這個發現在各種不同的條件下都非常穩?。?/p>

不管是不同的數據集組合、不同的模型架構、不同的模型尺寸、不同的訓練數據量,還是不同的數據增強方法,神經網絡始終能輕松”一眼識破”圖像的數據集來源。

那么,神經網絡是如何做到這一點的呢?是靠單純的記憶,還是學到了一些更普適的規律?

為了揭開謎底,團隊做了一系列對比實驗。他們發現,如果把不同的數據集隨機混在一起,神經網絡就很難再區分它們了(準確率下降到了33%)。這說明,神經網絡并不是在單純地記憶每一張圖像,而是真的學到了一些數據集特有的模式。

何愷明劉壯新作:消除數據集偏差的十年之戰

更有趣的是,即使在自監督學習的設置下,神經網絡也展現出了驚人的”數據集辨識力”。在這種設置下,模型在訓練時并沒有用到任何數據集的標簽信息,但當在這些自監督學習到的特征上訓練一個簡單的線性分類器時,它依然能以超過70%的準確率區分不同的數據集!

通過這一系列的實驗,何愷明、劉壯等人的研究給我們敲響了警鐘:盡管這十年我們一直在努力構建更大、更多樣化的數據集,但數據集偏差這個問題似乎并沒有得到根本解決。相反,現代神經網絡越來越善于利用這些偏差來獲得高準確率,但這可能并不代表它們真正學到了魯棒、普適的視覺概念。

何愷明劉壯新作:消除數據集偏差的十年之戰

論文的最后,作者呼吁整個AI社區重新審視數據集偏差這個問題,并重新思考如何在算法和數據兩個層面上來應對這一挑戰。

CVPR最佳論文作者的通力合作

本文是何愷明在Meta期間,與Meta研究科學家劉壯合作完成。

現在,何愷明已經正式在MIT上崗,擔任電氣工程與計算機科學系的助理教授。他的“開學第一課”開課即火爆,在youtube上已經有2.9萬的播放量。

何愷明劉壯新作:消除數據集偏差的十年之戰

和何愷明一樣,劉壯本科畢業自清華,并且也是CVPR最佳論文獎得主——他是CVPR2017最佳論文DenseNet的第一作者。

2017年,劉壯從清華姚班畢業,進入加州大學伯克利分校攻讀博士學位,師從Trevor Darrell,是賈揚清的同門師弟。

博士畢業后,劉壯進入Meta AI Research工作。在此之前,他已經在Meta實習了一年多時間,期間和謝賽寧合作,發表了ConvNeXt。

何愷明劉壯新作:消除數據集偏差的十年之戰

— 完 —

Tags:
相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章