首頁 > AI資訊 > 最新資訊 > 橫跨6種模態Meta開源AI模型ImageBind為虛擬世界打開大門

橫跨6種模態Meta開源AI模型ImageBind為虛擬世界打開大門

新火種    2023-09-20

《科創板日報》5月10日訊(編輯 宋子喬) 當地時間5月9日,Meta宣布開源了一種可以將可以橫跨6種不同模態的全新AI模型ImageBind,包括視覺(圖像和視頻形式)、溫度(紅外圖像)、文本、音頻、深度信息、運動讀數(由慣性測量單元或IMU產生)。目前,相關源代碼已托管至GitHub。

何為橫跨6種模態?

即以視覺為核心,ImageBind可做到6個模態之間任意的理解和轉換。Meta展示了一些案例,如聽到狗叫畫出一只狗,同時給出對應的深度圖和文字描述;如輸入鳥的圖像+海浪的聲音,得到鳥在海邊的圖像。

而此前的多模態AI模型一般只支持一個或兩個模態,且不同模態之間難以進行互動和檢索。ImageBind無疑具有突破性意義,Meta稱,ImageBind是第一個能夠同時處理6種感官數據的AI模型,也是第一個在沒有明確監督的情況下學習一個單一嵌入空間的AI模型。

ImageBind能做到這些,核心方法是把所有模態的數據放入統一的聯合嵌入空間,無需使用每種不同模態組合對數據進行訓練

先利用最近的大型視覺語言模型它將最近的大規模視覺語言模型的零樣本能力擴展到新的模態,它們與圖像的自然配對,如視頻 - 音頻和圖像 - 深度數據,來學習一個聯合嵌入空間。

而以圖像/視頻為中心訓練好AI后,對于原始數據中沒有直接聯系的模態,比如語音和熱量,ImageBind表現出涌現能力,把他們自發聯系起來。

有行業觀察者已經迫不及待地將ImageBind于元宇宙聯系在一起。

正如Meta的研究團隊所說,ImageBind為設計和體驗身臨其境的虛擬世界打開了大門。該團隊還表示,未來還將加入觸覺、語音、嗅覺和大腦功能磁共振信號,進一步探索多模態大模型的可能性,“人類可使用多種感官學習、了解世界,借助ImageBin,機器離人類又近了一步”。

值得注意的是,Meta還表示,ImageBind可以利用DINOv2強大的視覺功能進一步提高其能力。DINOv2是Meta開源的計算機視覺領域的預訓練大模型,同樣與Meta的元宇宙愿景密不可分,Meta CEO扎克伯格此前強調,DINOv2可以極大地加持元宇宙的建設,讓用戶在元宇宙中的沉浸體驗更出色。

盡管ImageBind目前只是研究項目,沒有直接的消費者用戶或實際應用。但可以想象的是,隨著ImageBind模型逐步完善,AI應用場景將進一步拓展,元宇宙建設也將更進一步。

比如當ImageBind融入虛擬現實設備,使用者能獲得更沉浸式的體驗,玩家進入游戲后不僅能感受游戲場景的溫度,還能感知物理層面上運動。

國盛證券分析師劉高暢此前大膽預測,1-5年內,隨著多模態的發展帶來AI泛化能力提升,通用視覺、通用機械臂、通用物流搬運機器人、行業服務機器人、真正的智能家居會進入生活。未來5-10年內,結合復雜多模態方案的大模型有望具備完備的與世界交互的能力,在通用機器人、虛擬現實等領域得到應用。

相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章