首頁 > AI資訊 > 最新資訊 > 對話肖特特:從伯克利到PromptAI創業,發明創造下一代視覺智能

對話肖特特:從伯克利到PromptAI創業,發明創造下一代視覺智能

新火種    2024-12-18
通用語言模型率先起跑,但通用視覺模型似乎遲到了一步。究其原因,語言中蘊含大量序列信息,能做更深入的推理;而視覺模型的輸入內容更加多元、復雜,輸出的任務要求多種多樣,需要對物體在時間、空間上的連續性有完善的感知,傳統的學習方法數據量大、經濟屬性上也不理性...... 還沒有一套統一的算法來解決計算機對空間信息的理解。2023 年,Meta AI 發布了首個 "Segment Anything Model" (SAM),該模型無需專門的類別標注,而是通過交互的方式對真實世界中動態的任意物體進行分割。其分割方法通用,可對不熟悉的物體和圖像進行零樣本泛化,體現了對空間信息的處理和理解能力。這項工作獲得了 ICCV 2023 Best Paper Honorable Mention。來自加州大學伯克利人工智能實驗室 (BAIR) 的肖特特博士是該項工作的主要參與者之一。他評價說:“以往我們通過增加類別來提升模型效果,但 SAM 放棄了舊時代的很多枷鎖,放棄了特定的類別標注的方式,提升了模型對空間的理解能力。”這為 CV 新時代打開了一道門。而不同于上一代視覺智能,新時代下產生的空間智能最大的場景體現在具身智能的應用上,它讓機器人、自動駕駛、無人機等硬件設備擁有像人類的眼睛一樣,感知世界,并產生與世界互動的行動力。這就是 “看見不只是看見,更是理解到行動” 的智能產生鏈條。肖特特于 2015 年以優異成績(summa cum laude)獲得了北京大學智能科學專業的理學學士學位,后于 2019 年在加州大學伯克利分校計算機科學系獲得博士學位,并曾在 Facebook AI 研究院從事研究工作。作為年輕一代人工智能學者的代表樣本,他的多篇重要工作發表在包括《Science Robotics》、CVPR、ICCV、ECCV 和 NeurIPS 等主要期刊和會議上。他認為,未來 5-10 年 CV 要解決的是真實世界的問題,讓 AI 有人類一樣對物理空間的感知能力。2023 年,特特沒有繼續留在 Meta,而是選擇了人生新路徑,成立 PromptAI,致力于打造通用視覺智能平臺,為機器賦予類人的視覺感知能力。圖片成立一年時間,PromptAI 獲得來自 UC Bekerley Pieter Abbeel 的投資與 Trevor Darrell 的技術支持。兩位教授同為伯克利人工智能實驗室(BAIR)聯合主任,Trevor Darrell 教授在計算機視覺領域極大推動了大規模感知的創新研究,而 Pieter Abbeel 教授是深度強化學習應用于機器人領域的先驅人物。公司其他成員都是十分年輕的 AI 研究員與工程師,在算法架構、產品運營、工程管理上擁有杰出經驗。圖片而追問 What's next 的精神,是 PromptAI 這群年輕的 AI 科學家找到問題答案的關鍵。永遠在提問 What’s next?BV:PromptAI 在解決什么問題?特特:發明創造跟人一樣有感知能力的空間智能模型,讓機器和算法成為人類額外的眼睛。BV:為什么是 “發明創造”?很少聽到這個詞。特特:“發明創造” 一定是技術驅動,但技術驅動的東西不一定是 “發明創造”。舉個例子,在互聯網時代,我們可以用已有的互聯網技術來降本增效,這中間產生很多行業機會。這受到新技術的驅動,但并不是 “發明創造”。而目前在計算機視覺領域,新的方式還沒有出現,我們希望發明創造下一代視覺技術,并定義新的人與機器交互的方式。圖片 圖片來源:公司官網BV:是什么時候產生創業想法的?特特:我們看到了 AI 給人類社會帶來的這個機會:人類能看到的東西,計算機也能看到。計算機能把人類從繁瑣無聊的工作、任務中解脫出來,擁有更多的時間和自由去做更喜歡、更擅長的事情。我覺得 AI 在成熟,它可以變成我們額外的眼睛幫助我們更高效、更快樂地生活。這是我們創業開始時,在社會應用上的 insights,當然,除此之外還有技術變革上的 insights。BV:那技術上推動你創業的原因是什么?特特:在 PhD 后期,看到視覺領域從 MAE(注:《Masked Autoencoders》,這項工作來自 Meta AI,采用無監督學習的方式,提高模型的泛化能力和魯棒性。)到 SAM(注:《Segment Anything Model》)的變化,用通用視覺模型去解決大量不同問題是可行的。谷歌的前 CEO 埃里克?施密特在《How Google Works》中,就曾強調技術洞見的重要性,這是產品開發和公司成長的源動力。帶著應用和技術上的想法,我找到我在 UC Bekerley 的導師 Trevor Darrell 教授聊,他很認可也很支持。后來又吸納了更多團隊成員,大家都共享一個理念:新一代視覺技術的應用機會以及由此產生的空間智能對人類社會的價值。BV:是什么驅使你想到這種新范式?特特:往回看,研究者總是在問:What’s next?這是個非常自然而發的問題。What’s next 問的內容有很多種,一種是目前現有的技術能解決哪些任務,帶來哪些能力上的提升。比如視覺分類研究中,現在能做到準確率 95%,我能不能推到 97%?推到 99%?而另一種是,下一代技術是什么樣子?我們利用下一代技術能夠做什么事情?比如對數據集來說,原來只能看到 20 類物體,后來 80 類,后來 200 類,再往后,能否看到他們其他維度的特性?看到材質、結構、組成部分?因為很難定義類別,能否干脆用自然語言描述物體?這是在研究中水到渠成會思考到的問題。這兩種問題一定是交織進行、同時發生的。當前技術的深挖是很有必要的,不然很難看到他的影響力的擴散。但有時候這個技術不一定是最優解,這個時候就需要我們跳出來,去問問有沒有新的解決方案。而通用視覺模型,就是面對 CV1.0 時代中的各種問題而提出的新的解決方案。圖片 肖特特參加 2024 智源大會,分享《A Real-World Approach to Intelligence》BV:這種 What’s next 既可以問是否加速了過去的應用,也可以問是否創造了新的范式。特特:是的。偉大的公司都想要知道 “what's next”,比如 Google 用了新的技術方式去管理世界上五花八門的知識;Apple 創造了新的人與計算機交互的方式,讓個人電腦走進我們的生活里;英偉達實現了加速計算,用新的硬件形態去解決計算領域的問題。在研究和創業中,一旦停下對未來技術的追問,做的事情就會變得平庸,囿于目前已經掌握到的技術,只解決眼前有限的問題,而無法找到下一代技術,解決更多問題。這種追問的精神,就是我們的團隊信仰。CV 變革,智能產生:1.0-2.0BV:什么是 CV1.0 ?解決了哪些任務?特特:CV1.0 解決專一的、特定的任務,它在經濟屬性上并不是很理性。2012 年出現 AlexNet,這個機器學習范式,對圖片識別的能力大大超過了其它技術路線,可以用在自然語言處理、推薦系統、計算機視覺等多個方向上,瞬間激發了 AI 的應用價值。互聯網產品可以利用這種范式來學習圖片、視頻當中的特質,來更好地提升用戶體驗;醫療上會利用機器學習來做診斷;工廠里可以做各種質量檢測;城市管理當中還可以分析人的軌跡、流向。但這些任務之間不能互通,比如說,A 工廠生產手機屏幕,需要一套針對劃痕檢測這個單一任務的視覺系統;而 B 工廠生產汽車,也需要一套檢測劃痕的視覺系統。但此劃痕非彼劃痕,這是兩套完全不一樣的檢測系統。總結下來,我們一直在解決同一個問題,就是感知。這個大問題在應用中會被細分為無數細分問題,比如檢測材質、大小、位置、組成部分等等。在 CV1.0 時代,這些問題非常細,并且每個場景對智能的需求是有限的,我們解決了一個子問題,卻沒有能力解決另一個子問題。回到劃痕檢測問題,就算有一個模型能夠識別世界上所有的劃痕,但你卻識別不了世界上所有的杯子。如此以往,這個模型就非常的單一、不完善,實現難度也很大,經濟投入也會很多。BV:這種方法跟人類感知物體的方式是不一樣的。這是不是也回答了:為什么過去的 CV 技術沒有出現很多解決通用行業問題的產品?特特:是的。另外,CV1.0 與人類智能相比,“數據輸入” 的模式也并不相通。打個比方,對 CV1.0 來說,需要標注很多數據,讓計算機知道這個杯子是不銹鋼的,另一個是玻璃的。如果我再加一類塑料杯,那就又要標注成千上萬的這類數據。但是回過頭想,難道我真的需要 “見到” 成千上萬的玻璃杯,才能知道這個是玻璃杯嗎?人類并不是這樣做判斷的,我們用過玻璃杯,或者是見過玻璃制品,在不需要眾多 “數據輸入” 的情況下就可以推斷出來。BV:正因為這樣,我們需要大模型的能力。特特:大模型的目的不是把模型做大,價值并不在于加參數。回到剛才識別三種杯子的例子,你可以做出一個上億級參數的模型來完成這個任務,但仍存在無法解決更多任務的瓶頸。Foundation Model 和 Pre-training 的好處是,把不同的信息源都學習進來,我們可能并不知道模型從哪里學到的關于 “玻璃” 的概念,但當它習得這個概念之后,會把這個概念抽象出來,并且能把這個知識運用到未來的預測和感知當中。這個是大模型和過去的技術不一樣的地方。BV:CV 2.0 有哪些不同?特特:區別在于,第一是讓 AI 具備和人一樣感知世界的智能,解決真實世界的問題;第二是解決開放世界中通用任務問題;第三是具有人的常識能力。BV:從 CV1.0 到 2.0 的分水嶺有哪些?特特:第一個關鍵節點,是 2021 年 OpenAI 的 CLIP 工作(《Learning Transferable Visual Models From Natural Language Supervision》),它講的是如何 “以語言作為監督” 學習視覺信息。過去,如果我們用預定類別的方式來做識別,這個過程跟語言是沒有關系的。而這篇工作提到,不同的概念在語義上有相關性,我們可以從人類的語言中獲得這種相關性。思路就是,讓模型去學習圖片對應的描述,學習圖片的視覺語義信息。但這個 idea 即使在當時來看也并不新鮮,它獨特性在于,用更大的數據量和計算量,用幾百個 million 的數據來做訓練,并且這些數據能很容易從互聯網上獲取。之所以有這個想法,是因為這項工作來自 OpenAI,當時已經開始做 GPT,他們看到了 scale 后模型的變化和影響,這徹底改變了我們對視覺和語言之間的認知。再往后,2023 年 Meta AI 發布的 SAM(《Segment Anything Model》)相關工作也是這個轉變過程中的 milestone。圖片SAM 是 CV 舊時代的最后一篇工作,新時代的第一篇工作。原因是,它要解決的是傳統的視覺分割問題,這是一個舊問題。高等生命的視覺系統都有對物體分割的能力,這個能力非常重要,但實現 AGI 不會通過完美解決分割問題而實現。盡管如此,SAM 放棄了舊時代的很多枷鎖,放棄了特定的類別,解決了通用物體分割的問題。以椅子舉例,椅子里有很多零部件,零部件里面可能還有細分的零部件,那么到底什么才是這個椅子呢?在 SAM 中,我們無需對椅子及其零部件進行標注,而是通過交互的方式對任意物體進行分割,找到我們希望得到的部分。這為我們指明了一個方向:在一個模型下,一個通用的視覺模型去解決大量不同問題是可行的。這就是為什么我相信這項工作是為 CV 新時代開了一道門的原因。比如,分割人像和分割文字,是兩套系統。但在 SAM 中,是一套系統中需要解決的兩個任務。那么思路打開之后,這套系統能解決的問題就很多了,有些人用它來去分割衛星的圖像,有人其實用它來分割古書籍里面的一些文字,還可以去分割微生物體...... 這個模型完全沒有見過古書字,但依靠良好的泛化性,可以再零樣本情況下取得很好的效果。BV:那下一個 10 年 CV 要去解決哪些問題?特特:未來 5-10 年 CV 要解決的是真實世界的問題,讓 AI 像人一樣有感知世界的能力。但我們的真實世界是連續的視覺信息,不是單幀的,為了感知更多真實世界的內容,我們需要更強的視頻理解能力。這里也有很多難題,比如說如何去表征一個視頻?如何讓模型去理解時間的概念?理解動作在時間上的連續性?理解物體在空間中的具體位置、遠近大小?假如有一個人經過一個障礙物,在單幀系統中,計算機就會感知不到被擋住的人;但如果是視頻系統,就會捕捉到人經過障礙物前后的信息,“看” 到人在障礙物后面。計算機視覺的金標準是人的感知能力。這個不光是學術領域的下一代問題,也是工業界下一代 AI 的經濟價值所在的地方。BV:感知和 “世界模型” 的聯系是什么?“世界模型” 的本質是什么?特特:當有了對真實世界更多的理解之后,對感知到的信息做未來的預測,這一套系統就是 “世界模型”。“世界模型” 是推理的一種形式,這種推理不僅包括邏輯推理,還包括一些 low-level (比如在像素上)的推理。例如,如果我推了球一下,這個球下一秒在視頻里會顯示成什么樣子?對球的運動的推理,就是 “世界模型” 的體現。這樣的 “世界模型” 固然理想,但它很難構建,甚至人也不會用這樣的推理方式來完成任務。其實世界模型不是一個全新的概念,麥卡錫、明斯基和香農等科學家在 1956 年達特茅斯會議上談論人工智能開端的時候,就提到了 Abstraction(注:抽象指的是 AI 系統對現實世界的簡化和概念化表示,這種表示使得 AI 能夠進行狀態估計、預測、模擬、推理和決策,從而更好地與外部環境互動)。Abstraction 是比世界模型更廣泛的定義,世界模型是實現 Abstraction 的一種構想,但不會是唯一的一種方案。我認為它甚至大概率不是未來成功實現智能的方式 ——智能體對常識的推理能力應該是涌現的。圖片 達特茅斯會議主要參與者及議題

BV:當 AI 能更好地理解視頻、建立 “世界模型”,是否就擁有了空間上的智能能力?

特特:這個問題的關鍵在于,理解是智能的原因還是智能的現象?

如果理解是智能的現象的話,我們看到一個智能體,它就應該具有理解世界的能力;但如果理解是智能產生的原因,那么只有它學會了對世界的預測、掌握了世界模型之后,它才能成為智能體。生物進化是一個很復雜的過程,智能的出現在進化的角度是一個相輔相成的過程。理解能力越強,智能體就越強大,智能體越強大,它在進化上就更占優勢,就會有更好地理解能力。下一代 AI 一定是對世界有理解、推理和搭建 “世界模型” 的能力的,但下一代的 AI 未必會因為學習 “世界模型” 而產生。BV:如果學習推理未必產生智能,那么智能如何產生?特特:把 AI 部署到真實世界中去,在與世界的互動中獲得空間智能。如果一套系統只存活在數字世界,沒有辦法在真實世界中一覽天下,那它不一定會成為真正的智能體。就像具身智能機器人,從多模態環境里學到各種各樣的常識,獲得預測能力。比如踩到了石頭會摔倒,從手中掉了的杯子可能會摔碎。我們很難只通過訓練世界模型的方式產生下一代智能,所以我們要像滾雪球一樣,讓智能體學到越來越多的常識,做更多的任務。說不定有一天智能體可以把自己送到月球上去,自己干活工作,然后回來告訴你它干了什么事情。BV:智能是在智能體跟環境的交互過程中產生、涌現。這樣來看,空間智能的產生路徑就很清楚了。特特:是的,第一步是通過傳感器觀察、理解物理世界,如果沒有辦法觀察物理世界,就沒有辦法理解物理世界。第二步,跟物理世界做交互,知道如何做抓取、走路、避障、操作物體。因此,我們需要通用視覺模型來更好地理解感知世界,理解時間上、空間上的運動性等特征;另一個就是 Embodied AI,讓機器跟環境交互,在多模態的真實世界里產生智能。比如,在與 Ilija Radosavovic 合作的《Real-World Robot Learning with Masked Visual Pre-training》中,我們通過在大規模真實世界圖像和視頻數據上進行自監督視覺預訓練,預訓練后需要在實際的任務中做小規模 finetune,使機器人在現實世界任務中學習到豐富的視覺表示,幫助機器人更好地理解和感知現實世界中的三維空間信息,并在復雜環境中做出合理的決策和行動。圖片做 AI 的人怎么看藝術生成?BV:生成呢?在智能產生的過程中,生成到底以什么形式出現?特特:這個是目前大家沒有定論的事情。這與人的想象是不同的,人的想象是抽象地去想象可能會發生的事情;而現在的生成式 AI,更多是以在細節上、以像素級別的水準,把內容給生成出來。大多數人都不是畫家,我的畫畫的藝術能力極為落后,但我還是有藝術上欣賞的能力。回到達特茅斯會議上大家對人工智能的憧憬。大家認為生成其實是 creativity and randomness,計算機不是完全按照既定的程序去執行每一個指令。就像人類一樣,無論是我們的思維還是動作,都不一定是在執行一個特定的指令,因為我們有創造力和想象力。所以我覺得生成是智能的一個重點,但是具體能不能像畫家一樣把它的藝術性畫出來,就是另一回事。BV:“熱愛藝術人” 和 “搞技術的人” 這兩個標簽的疊加下,讓你對 “AI 是否能創造藝術” 這個話題有什么不同的感受?特特:音樂、美術、電影,這些在我的生命中是不可或缺的。第一,藝術是關于未來的,不是關于過去的,無法用過去已有的信息來訓練 “生成” 藝術。藝術需要經歷和感受,是人對外在世界和內在世界的抽象理解。目前,AI 的價值更多的體現在生產工具的屬性上,我們可以通過 AI 來讓生活更便捷、安全、理想,解放我們的時間和生產力。但 AI 沒有感情經歷,沒有生活經歷,跟人類的悲喜并不相通,所以 AI 很難去感受藝術,也就很難生成藝術。圖片 法國印象派代表人物克勞德?莫奈《日出印象》回過頭來看,藝術之所以是藝術,很多時候是跟觀察者有關系的,一千個人里有一千個不同的哈姆雷特。當人們欣賞畫作、音樂的時候,會從中得到共鳴,感受到新的東西。第二,藝術和內容制作很難區分開來。藝術是一個復雜的過程,其中包括創造 idea 部分,也包括制作內容部分。比如說,畫家畫畫,雕塑家雕刻作品,劇作家創作劇本,我們很難把創造 idea 和制作內容區分開來。這些藝術行為不僅是一個靈感想法的產生,更重要的是要把靈感想法串起來、表現出來、制作出來,這中間需要很多 “體力活”。比如羅丹的每一個雕塑作品,都經歷了藝術家大量繪畫,試驗,和完善。當我們用寫 prompt 的方式去生成一個內容,我們只是利用 AI 制作了內容,不一定是創造了藝術。第三,我們也要把藝術和娛樂也要區分開來。當我們聽到一段旋律或是看到一段影像,覺得很好看、很過癮,但不代表它激發我產生了認知上的改變、情緒上的共鳴、對世界新的理解。目前 AI 更多是在生成娛樂,而不是藝術。故事另一面BV:科研路上,哪些人給你帶來技術上的啟發?特特:2018 年,我在孫劍老師的指導下參加 COCO 競賽(注:Common Objects in Context),題目就是如何做出更強大的物體檢測器。我們用了 256 張 GPU 去訓練這個模型,這個數量級的 GPU 讓模型的收斂速度非常快,但卻很 “非主流”。因為當時的主流觀點是模型并非越大越好,而我們的方案甚至早于第一代 GPT。孫劍老師問我們:這個東西的邊界、上限在哪里?模型效果好的背后原因到底是什么?這個啟發非常重要:你要不停的問為什么是這樣,而不是那樣?傳統的方式就一定是對的嗎?有沒有下一代解決方案?授人以魚不如授人以漁,總有問題是老師解決不了的,總有問題是需要年輕的頭腦去思考的。而這些思考對剛入門的年輕科研者來說是非常重要的一課,能讓我們的工作做的更扎實。圖片 圖中左三為肖特特,右二為孫劍老師BV:伯克利人工智能實驗室(BAIR)給你留下什么印象?特特:BAIR 不是一個 lab,而是一個很多方向的 super lab 聯合體。整個科研樓還挺擠挺小的,很多教授就擠在角落里沒有窗戶的辦公室里搞科研。BAIR 有很多方向,在計算機視覺領域有傳統感知,有 3D 重建,也有圖片和視頻生成,還有視覺和語言中間的 understanding。其他還有 NLP、robotics、AI 倫理、AI for Science 等領域方向。BAIR 成立的背景,就是希望學生們從不同的方向上做交流,在學科內交叉領域相互碰撞。理解、感知、思考、推理、操作、運動這些都是 AI 的一部分,更廣一點來看,我們跟心理學、神經科學、行為科學也都有關系。我的教授 Trevor Darrell 是 BAIR 的 co-founder 和 Founding Director。Trevor Darrell 教授最大的特點就是包容,在一個有很大變化的研究領域,研究者需要自由的空間去探索感興趣的問題。很多時候我們的發現發明不一定是大家都認可的技術路線,但我們要有空間去追逐這樣不被認可的技術想法。在 BAIR Lab,從 2021 年開始,我與 Ilija Radosavovic 合作了多篇工作,從《Masked Visual Pre-training for Motor Control》到《Real-World Robot Learning with Masked Visual Pre-training》,以及《Real-world Humanoid Locomotion with Reinforcement Learning》。我們原來都是學習計算機視覺的,但都認為如果沒有機器在真實世界的部署,AI 的發展就會陷入瓶頸。之后我們放棄了原有的研究舒適圈,進入到沒接觸過的 robotics 領域,希望探索下一代通用人工智能。圖片 圖片來源:Berkeley Artificial Intelligence Research 官網,首排左四為肖特特BV:創業之后一定有很多團隊建設上的思考。組建團隊是否是在找 CEO 的 “復制粘貼”?特特:我們團隊非常多元。有剛從學校出來的 PhD,也有工業界工作 20 多年的成員,還有大學輟學自學設計來做產品的成員。我們在組建團隊的時候,并不是看這個人跟我的經歷背景、技術觀點、對未來的想法 “有多像”,而是看他是否能獨立地帶來不同的觀點,提出不同的聲音。因為我們要做一個新的東西,既然是新的,那它就沒有對錯之分。Debate 是我們的團隊文化之一。Debate 的價值不是輸贏,不見得每一個技術想法我們都需要達成一致。而越是不一致,我們就可以去討論更多的 corner cases。我也很鼓勵大家在職業早期到創業公司經歷一番,鍛煉自己定義問題的能力,以及在小團隊工作承擔更多責任的能力。BV:如今,AI 領域涌現出新一代年輕有為的創始人。空間智能是下一代 AI 創業者的機會嗎?特特:我相信所有的新的技術都會帶來新的改變,不只是空間智能。而新一代創業者只是對新一代技術的理解會更深刻一些。但是更重要的是,新一代創業者有沒有去創造新事物的激情,有沒有對舊世界、舊方法體系的不甘,有沒有問出 what's next 的勇氣。BV:看到你朋友圈有分享過一句歌詞:What shall be our legacy?What will our children see?你更希望留給世界、留給下一代技術人些什么呢?特特:我覺得每一代的人都有每一代人的責任。個體的總和就是世界。我覺得各行各業的人應該對工作有熱情,因為我們的工作就是對理想世界的塑造,都會最終對世界產生影響。同時,我們技術人就像是新世界的守門人,也要保護技術不被濫用。開發和保護,是相輔相成的。這不是兩撥人的責任,是同一撥人的責任。BV:那最后一個問題:為什么叫 PromptAI?特特:Maybe leave it for the future. 大家現在都不知道蘋果公司的蘋果為什么少了一塊,對吧。永遠不滿足于目前的定義,永遠在提出下一個問題的路上。
相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章