首頁 > AI資訊 > 最新資訊 > 價值萬億的具身智能市場,大佬們如何從世界模型下刀?

價值萬億的具身智能市場,大佬們如何從世界模型下刀?

新火種    2024-11-16

具身智能,簡單來說,就是賦予 AI 一個「身體」,讓這顆聰明的大腦在物理世界中行動自如。

把這顆大腦升級成世界模型 —— 它擁有記憶、直覺和常識時,機器人可以不再機械地按訓練行事,而是能夠靈活變通,具體問題具體分析。

于是,在這兩個火熱的概念齊頭并進之時,這樣的展示層出不窮,機器人為你掃地、喂貓、鋪床、做飯,以后養老不用愁,放心交給機器人就好了。

但是為什么我們身邊還沒見到一個這樣的機器人呢?

帶著這個問題,我們圍觀了今年的智源論壇 2024 具身與世界模型專題峰會。當前學界前沿最聚焦具身智能的哪些問題?如何讓大模型飛升的 scaling law,在機器人領域也獲得回響?我們距離真正的世界模型,還有多遠?

圖片

從前沿技術成果,到最新實踐應用,來自學術界和產業界的代表們的精彩分享貫穿全天。

大佬們具體都聊了什么?重點都已經劃出來了!

圖片

歡迎查看直播回放:https://event.baai.ac.cn/activities/855

Scaling Law 的成功,機器人也想復刻

參數量越大,模型性能越高,這一原則在大模型領域已經得到了充分驗證。如何在機器人領域,活用「Scaling Law」的公式,這是產業面臨的共性問題。

作為人工智能的創新引領者,聯合產學研協同突破行業痛點,也是智源研究院一直以來的核心愿景。

一開場,智源研究院院長王仲遠詳細介紹了智源大模型「全家桶」。其中,最引人矚目的要數首個原生多模態大模型 Emu3。

圖片

它可以融會貫通文本、圖像、視頻三種模態,也首次證明了 Scaling Law 在多模態大模型的可行性。

圖片

如何讓 scaling law 跨越不同任務、本體、場景,構建泛化超強能力的大模型?這是智源具身多模態大模型研究中心負責人仉尚航近來關心的問題。在此次分享中,她展示了一系列基礎模型的新成果。

圖片

人類在思考問題時有快慢之分 —— 既有脫口而出的「快思維」,也有靜心推理的「慢思維」。

受此啟發,她帶領研究團隊提出了 RoboMamba、MR-MLLM 等一系列多模態大模型。詳情可以參考機器之心的報道:《北大推出全新機器人多模態大模型!面向通用和機器人場景的高效推理和操作》。

在打破模態的突破之上,仉尚航的下一步是把模態的原生能力升維到 4D—— 構建更好的 4D 世界模型與數據集。

圖片

4D 世界模型 EVA

論文鏈接:https://arxiv.org/pdf/2410.15461

「具身智能最大的問題就是沒有數據」,那么什么樣的數據對機器人最有用呢?

爆火全網的 Aloha、特斯拉的 Optimus 系列都在推崇遙感操作收集的真人數據,Depth Anything 這樣的單目視覺方法也在業界流行。

而北京大學助理教授、銀河通用創始人,智源學者王鶴認為,合成數據或許是更優解。

圖片

這一結論來自他們的研究成果 D3RoMa。紅外深度圖顯示,D3RoMa 渲染出的光斑與真實世界高度吻合,首次實現了亞厘米級的深度精度。

圖片

論文鏈接:https://arxiv.org/pdf/2409.14365

至于機器人數據的 next level,王鶴看好的是 4D 數據。

提到 scaling law 在機器人領域的里程碑,繞不開「機器人的 ImageNet 時刻」—— 谷歌 DeepMind 聯合其他機構推出了 Open X-Embodiment 數據集,訓練出了能力更強的 RT-X 模型。

智源研究院還特邀了谷歌 RT-1 和 RT-2 的作者 Ted Xiao 帶來分享。

圖片

Ted Xiao 回顧了 scaling law 如何在 RT-1 和 RT-2 的逐步生效。而最近與 o1 一起爆紅的思維鏈,或許也能帶給機器人領域新的啟發。

Ted Xiao 介紹了 RT-Hierarchy 策略。機器人執行任務之前,會先生成一個「語言運動查詢」,用于預測一些粗粒度的動作,比如「向前移動手臂」。隨后,系統會生成一個具體的「動作查詢」,將動作分解為更細致的步驟。

圖片

有時候,機器人并不知道自己在做什么

「有的時候,機器人并不知道自己在做什么。」這可能是這場峰會被反復 cue 到的一句話。

清華大學自動化系教授,加速進化聯合創始人趙明國展示了一場精彩的機器人足球賽。踢足球是一項天然的具身智能任務,機器人需要判斷球的位置,并協調下一步的動作。從上世紀 90 年代開始,日本本田開啟了提升機械腿自主行走能力的探索。

圖片

盡管機器人的運動策略經歷了一代又一代的技術革新,但在今年的 RoboCup 上,我們仍然看到了這樣的一幕:面對空無一人的球門,即使足球已經壓在門線上,出戰的機器人選手卻做不出判斷:要不要補上決定性的臨門一腳呢?

要使機器人在行為層面展現出真正的智能,趙明國認為關鍵在于根據不同身體部位的功能分工來設計和訓練機器人。如果一個機器人能夠掌握手部的典型任務,如抓取和放置物體,腿部的踢球,以及需全身協調的騎自行車等任務,逐步攻克,最終將這些能力擴展到實際應用中。

同樣提出這個問題的還有星塵智能的創始人兼 CEO 來杰。在開發機器人的過程中,他發現,雖然大語言模型為機器人提供了很多知識,但這些知識離世界的底層邏輯還很遠。

圖片

例如,機器人已經從無數次訓練中熟練地掌握了開瓶蓋技巧,但如果遞給它一瓶橫放的礦泉水,它不會像人類一樣下意識地先將瓶子豎直,而是直接打開,水都灑了出來。

世界模型可以補全機器人感知中缺少的這些細節和背景信息。在等待世界模型的開花結果的過程中,星塵智能把目標設定為 Design for AI,機器人平臺將作為中間態,為世界模型提供豐富的數據支持。而當世界模型最終成熟的時候,就要做最好的終端。

吉林大學唐敖慶講席教授、曼徹斯特大學終身教授任雷則帶來了一種不需要動腦,僅憑「肌肉記憶」,機器人就能自主行動的全新方案。

圖片

他帶領研究團隊結合神經解剖學和生理學,深入納米級別,解碼人類的觸覺感知與運動神經控制機理,提出了仿生拉壓體機器人機制。

圖片

即使在 X 光的透視下,仿生拉壓體機器人幾乎完全重現了人體自然行走的三維步態。相比波士頓動力采用的動力系統,機器人花費的能耗也降低了一個數量級。

中國科學院計算技術研究所研究員蔣樹強從涉身性、交互性和情境性等維度,結合哲學視角,對具身智能這一概念進行了深入分析和定位。

圖片

機器人進廠打工,走到哪一步了?

樂聚機器人創始人冷曉琨分享了人形機器人產業的一線視角,「雖然比不上造車,但工業場景對人形機器人的需求已經足夠支撐一個新的產業。」

圖片

樂聚機器人也正在科研平臺、商業服務 、工業流水線、家庭康養、城市巡邏等各種場景中發光發熱。其中,最多的訂單對標展廳導覽、導購的崗位。

無需長期培訓,也不會頻繁跳槽的人形機器人,可以節省高達 60% 的成本投入。

要讓機器人坐在流水線上打螺絲,達到熟練工人的裝配水平,觸覺感知至關重要。沒有觸覺感知,機器人很難掌握螺栓應該擰到什么程度。

大灣區大學 (籌) 講席教授,先進工程學院院長王煜認為,人形機器人產業化的關鍵在于讓觸覺信息轉化為運動信號,讓機器人能真正地得心應手。

圖片

當前,王煜團隊在高動態觸覺傳感器領域的一系列突破,正為這一目標按下「加速鍵」。

面對工廠中復雜的任務,一雙靈巧手亦不可或缺。中科院自動化所研究員王鵬及其團隊注意到,人類手部之所以能夠完成各種復雜的操作任務,很大程度上得益于其高度的靈活性和對環境的適應性。

圖片

于是,在設計通用靈巧操作具身智能體系 Casia Hand 系列時,他們特別注重強調柔順性與剛性的結合,確保機器人在執行任務時既能保持穩定,又能避免對目標物體造成損傷。

One more thing

相較于傳統 AI 三要素數據、算法、算力,具身智能在硬件這一新要素上了有了更多要求。以上四要素的協同進化,推動了具身智能的新范式變革。在圓桌討論中,智源研究院副院長林詠華也向嘉賓們提出了一個問題:「從硬件、數據、算法、芯片四個方面,哪個對搭載具身智能的機器人最重要?」圖片

盡管每個要素都面臨著無數等待探索的問題和挑戰,但數據顯得尤為迫切,智源研究院呼吁構建一個開放、標準化、低成本且便于復制的數據平臺。作為即將突破萬億規模的市場,具身智能的年復合增長率已達到 20.7%。在這火熱的浪潮中,學術界和工業界,都需要更多像智源峰會這樣的交流與討論,也需要更多冷靜的觀察與深思。

相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章