「空間推理」成大廠競逐焦點,為什么讓大模型理解「內外遠近」更重要?
1. 「空間推理」成大廠競逐焦點,為什么讓大模型理解「內外遠近」更重要?
空間推理是什么?為什么各家大廠都在布局空間推理方向?實現空間推理需要具備哪些能力?有哪些難點?不同大廠、創企在空間推理方面的技術研究方向有什么異同?空間推理可能對哪些領域的實際應用產生重要影響?...
2. 模型越強,公司越慫?
為什么模型越強的公司戰略越保守?LLM 的問題如何從「蠢」轉移到「壞」?越先進的模型越會偽裝?現有對齊方法反而會起反效果?頭部 AI 廠商有哪些新的安全措施?...
3. LeCun 深度訪談:FAIR 追求的是「大概念模型」
LeCun 為什么說 AGI 只要 5-10 年?什么是「大概念模型」?LeCun 如何解讀 AI 的「情感」?LeCun 對開源的態度有什么變化?為什么 LeCun 認為擔憂 AI 未來的潛在風險為時過早?...
要事解讀①
「空間推理」成大廠競逐焦點,為什么讓大模型理解「內外遠近」更重要?
日期: 12 月 23 日
事件:來自紐約大學、耶魯大學、斯坦福大學的李飛飛、謝賽寧等研究者近期發布了一項新工作,探究了多模態大語言模型(MLLM)是否具備具備視覺空間智能(visual-spatial intelligence)。研究發現,MLLMs 在空間推理方面的能力與人類相比有顯著差距,而空間推理對人類智能至關重要。此外,谷歌、微軟等大廠、AI 創企也在推進關于空間推理的技術研究,探究從不同角度和方法來增強模型的空間推理能力。
各家大廠搶占布局「空間推理」,模型理解「內外遠近」空間概念為何如此重要?
1、在紐大、耶魯等機構的這項新工作中,研究者通過探究 MLLMs 在語言和視覺方面如何進行空間思考,發現空間推理能力是 MLLMs 性能提升的主要瓶頸。
2、空間推理是指理解和推理物體之間的空間關系、它們的運動和相互作用的能力,要求模型能夠識別物體間的關系,并通過距離和方向進行推理。
3、不同于 LLM 等僅關注處理結構化的數據和遵循預定義的規則,模型在現實的物理世界中的應用,如環境導航、地圖理解和物體操控等,需要具備更為復雜、細致的 3D 空間推理能力。 空間推理在增強現實、機器人等領域的重要性不言而喻。
4、空間推理是實現空間智能的核心關鍵部分。目前,模型在空間推理方面仍然面臨種種挑戰,要求模型需要具備對空間信息的真正理解,現有的模型仍難以區分簡單的空間概念,例如「內」和「外」以及「近」和「遠」以及更復雜的關系。
5、近期,業內關于空間智能、空間推理方面的探索、進展頗多。如李飛飛的創業公司「World Lab」發布了其首個項目「使用單圖生成 3D 世界」;谷歌計劃將其 Gemini 2.0 多模態模型所具備的空間推理能力應用于機器人領域,機器人公司 Apptronik 達成合作開發在復雜環境中工作的 AI 人形機器人等。
① 同時,谷歌、微軟等大廠、AI 創企也在推進關于空間推理的技術研究,探究從不同角度和方法來增強 VLMs 和 LLMs 的空間推理能力,包括直接的 3D 數據整合、從多視圖圖像中重建場景等,在技術路線上各有差異。
表:部分公司近期在空間推理領域的技術進展(不完全統計)
從 2D 到 3D 真實物理環境,模型完成空間推理需要具備哪些能力?難點在哪?
在紐大、耶魯等機構的新工作中,研究者將視覺空間智能所需能力分為視覺感知、語言智能、時間處理和空間推理四類,進一步將空間推理細分成關系推理、自我中心-環境中心轉換兩方面能力。
1、在紐大、耶魯等機構的新工作中,研究者通過構建名為「VSI-Bench」的視頻基礎視覺空間智能基準測試,來評估研究多模態大型語言模型(MLLMs)在理解和記憶空間信息方面的能力。
① 研究發現,盡管 MLLMs 在視覺空間智能方面展現出一定的競爭力,但與人類相比仍有顯著差距,特別是在空間推理方面;
② 研究發現,傳統的語言推理技術并不能提升 MLLMs 在空間任務上的表現,而生成認知地圖則有助于提高模型在空間距離問題上的回答能力。
2、在該工作中,研究者提出了視覺空間智能的能力框架,并詳細描述了空間推理所需的能力。
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。