李飛飛:WorldLabs這樣實現「空間智能」
遵循世界的 3D 特性,很多事就會變得自然而然。說到斯坦福大學教授李飛飛(Fei-Fei Li),她提倡的「空間智能」最近正在引領 AI 發展方向。
李飛飛已經在人工智能歷史上贏得了一席之地,她多年來一直致力于創建 ImageNet 數據集和競賽,在深度學習革命中發揮了重要作用。2012 年,一個名為 AlexNet 的神經網絡引爆了 AI 研究界,它的表現遠遠超過所有其他類型的模型,并贏得了當年的 ImageNet 競賽。自那時起,神經網絡開始騰飛,其動力來自互聯網上可用的大量免費訓練數據和提供空前計算能力的 GPU。自 ImageNet 以來的 13 年里,計算機視覺研究者們掌握了物體識別,并轉向圖像和視頻生成。李飛飛與他人共同創辦了斯坦福大學以人為本人工智能研究所 (HAI),并繼續突破計算機視覺的界限。就在今年,她創辦了一家初創公司 World Labs,旨在生成用戶可以探索的 3D 場景。World Labs 致力于為人工智能提供「空間智能」,即生成、推理和與三維世界互動的能力。李飛飛昨天在人工智能頂會 NeurIPS 上發表了主題演講,講述了她對機器視覺的愿景。她表示,非常榮幸第一次在 NeurIPS 上演講,50 分鐘講 180 頁 PPT 是個很有趣的經歷。
在演講之前,李飛飛接受了 IEEE Spectrum 的獨家采訪,讓我們看看她對空間智能有哪些新的見解:Eliza Strickland:你為什么把你的演講命名為「提升視覺智能的階梯(Ascending the Ladder of Visual Intelligence)?」李飛飛:智能具有不同層次的復雜性和精細度。在這次演講中我想傳達的是,在過去幾十年,尤其是深度學習發生變革的十多年里,我們在視覺智能方面學會做的事情簡直令人嘆為觀止。我們正在變得越來越擅長使用這項技術。同時,我也受到了 Judea Pearl 因果階梯理論的啟發,這一理論出自他 2020 年出版的書《The Book of Why》。演講還有一個副標題,即「從看到做到(From Seeing to Doing)」。這是人們沒有足夠重視的一點:從看到與交互和做事緊密相關,無論是對于動物還是對于 AI 智能體來說都是如此。這與語言背道而馳。語言從根本上來說是一種用來傳達思想的交流工具。在我看來,它們是非常互補但同樣深刻的智能模式。Eliza Strickland:你的意思是我們對某些視覺刺激有本能的反應嗎?李飛飛:我不僅僅是在談論本能。如果你觀察感知的演變和動物智能的演變,你會發現它們是深深交織在一起的。每當我們能夠從環境中獲取更多信息時,進化的力量就會推動事物能力和智能向前發展。如果你不能感知環境,你與世界的關系就非常被動;無論你是捕食者還是被捕食者,都是一個非常被動的行為。但是一旦你能夠通過感知從環境中獲取線索,進化的壓迫感就會增加,這推動了智能的發展。Eliza Strickland:你認為這就是我們創造越來越深層次的機器智能的方式嗎?通過讓機器更多地感知環境?李飛飛:我不確定「深度」這個詞是不是我該用的形容詞。我認為我們正在創造更多的能力。我認為它將變得更加復雜,更有能力。解決空間智能問題確實是朝著全面智能(full-scale intelligence)邁出的一個基本且關鍵的步驟,這是絕對正確的。Eliza Strickland:我看到過 World Labs 的演示。你為什么想研究空間智能并構建這些 3D 世界。李飛飛:我認為空間智能是視覺智能的發展方向。如果我們真的想要解決視覺問題,并且將其與行動聯系起來,有一個非常簡單、顯而易見的事實:世界是三維的。我們不是生活在一個平面世界中。我們的物理智能體,無論是機器人還是設備,都將生活在三維世界中。即使是虛擬世界也越來越變得三維化。如果你和藝術家、游戲開發者、設計師、建筑師、醫生交談,即使他們在虛擬世界中工作,很多內容也是三維的。如果你花一點時間認識到這個簡單但深刻的事實,毫無疑問,解決 3D 智能的問題是根本性的。
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。