首頁 > AI資訊 > 最新資訊 > 獨家對話智元姚卯青:人形機器人走進家庭還需5年左右時間|鈦媒體AGI

獨家對話智元姚卯青:人形機器人走進家庭還需5年左右時間|鈦媒體AGI

新火種    2025-04-26

(圖片來源:智元機器人)

(圖片來源:智元機器人)

隨著2022年 AI 聊天機器人ChatGPT風靡全球,“具身智能”和人形機器人逐漸成為備受矚目的前沿技術領域。

與傳統 AI 相比,“具身智能”更注重通過與環境的實時交互來獲取信息,并基于這些信息進行思考、決策和行動。同時,“具身智能”還可通過經驗積累和持續學習,提升行動和操作技能。

實際上,“具身智能”和人形機器人領域近期關注度頗高,也有很高的市場前景。

公開數據顯示,2024年,中國人形機器人市場規模達到約27.6億元,并有望在2030年成長為1000億元市場,而預計到2035年,有望達到3000億元規模。截至目前,小米、小鵬、螞蟻等數十家車企和科技大廠都已入局“具身智能”和人形機器人賽道。

近期,智元機器人研究院執行院長、具身業務部總裁姚卯青對鈦媒體AGI表示,自動駕駛與“具身智能”非常不一樣,嚴格意義上來講,兩者在底層硬件、框架和軟件還是有復用的,但 AI 模型、容忍度等層面非常不一樣。

姚卯青畢業于清華大學電子工程系,曾在Waymo、蔚來汽車等公司擔任重要技術職位,如今,姚卯青擔任智元機器人Genie業務部總裁、具身研究院執行院長,承擔了AI技術開發及研發工作,確保智元在本體基礎上具備強大的軟件能力,能夠始終保持在人形機器人全球第一梯隊。

成立于2023年的智元機器人,是當前國內人形機器人賽道頭部企業之一,其創始人之一彭志輝是坐擁250多萬粉絲的B站UP主“稚暉君”。

公司成立不到1個月,智元就完成天使輪融資、年內更斬獲4次融資,成立僅6個月就發布首款人形機器人,2024年還發布五款商用人形機器人新品,并且去年底開源百萬真實機器人數據集,以及年初率先達成1000臺機器人量產等,引發行業關注。

如今,智元機器人共有三條主打產品線,分別是遠征、Genie和靈犀。預計2025下半年,智元機器人會發布一款面向機器人發燒友的產品X2。

鈦媒體AGI獨家獲悉,領先具身智能機器人公司“智元機器人”將于3月10日發布全新的智元具身基座大模型Genie Operator-1 (GO-1)。這將是全球第一個基于大規模、高質量自有數據,基于自有機器人本體訓練并部署的第一個機器人基座模型。

那么,車企為何要做人形機器人?未來“具身智能”行業如何發展?人形機器人如何形成生產力價值?圍繞上述話題,姚卯青近期與鈦媒體AGI展開深度對話。

在姚卯青看來,機器人和“具身智能”技術需要真機訓練場,并且必須要結合強化學習、大模型等技術能力,從而提升整個人形機器人軟硬件技術發展。

事實上,DeepSeek熱潮之前,智元團隊就已經開始做強化學習,也是全球可能唯一在真機強化學習上面做通的團隊。“真實世界價值是最高的?!?/p>

姚卯青對鈦媒體AGI表示,利用 AI 大模型,能夠助力機器人操作上手能力,從而加速進入工廠、零售、服務業等場景工作,長期還能進入家庭?!斑@才是機器人價值被充分發揮的時刻。”

談到最受關注的9.9萬元機器人話題,姚卯青指出,9萬9的機器人只具備基礎運動能力,在本體、硬件、算法都還沒有收斂的情況下,大家急著“卷”價格戰,沒有什么意義。因此,姚卯青呼吁人形機器人產業需要看產品競爭力,如果都達不到給用戶創造價值的時候打9.9萬元,只會把整個行業變成一個很不健康的狀態。

姚卯青強調,未來1-2年,人形機器人能夠在局部工業場景應用落地,機器人走進家庭還需要5年左右的時間。此外,機器人實現像人一樣有通用能力的物理世界AGI(通用人工智能)還需要5-10年時間。

智元機器人研究院執行院長、具身業務部總裁姚卯青

以下是姚卯青和鈦媒體AGI之間的獨家對話編輯:

自動駕駛和“具身智能”需不同模型

鈦媒體AGI:現在智元機器人主要有三條業務線遠征、Genie和靈犀,所以內部是怎么分配業務的?

姚卯青:我們現在有三個產品線,一是雙足機器人,一是輪式雙臂機器人,還有一個是新成立的小的機器人,只有1米3左右。面對商用場景的雙足人形機器人遠征A2系列;輪式雙臂Genie,主要是面向通用具身操作的輪式雙臂機器人G1,這些產品都在對外售賣。此外,還有一條用于拓展家用場景、科研及極客的小型人形機器人靈犀產品線,我們的商城也在售賣。

鈦媒體AGI:上次我和智元的交流是“機器人0元購”時期,當時稚暉君發布智元5款商用人形機器人,并且透露2024年人形機器人超過200臺左右。那么到了2025年,智元新的規劃是什么?

姚卯青:去年我們已經超額完成,1月6日已經下線1000臺。今年公司目標是10倍營收。因為是在2024年10月開始量產交付,而今年時間更長,另外本身有新的市場和新的產品擴展,所以今年我們目標更大。

鈦媒體AGI:近期,特斯拉、小鵬、小米等多家自動駕駛、新能源車公司都計劃或正在做“具身智能”以及人形機器人,您如何看待這個趨勢?

姚卯青:這主要是資本原因。目前新能源汽車競爭慘烈,已經過了高速增長期,而當下“具身智能”大模型又很火的話,會成為資本追逐的新一個風口。

實際上,馬斯克的特斯拉也很重視“機器人”,因為你看特斯拉的市盈率,是豐田、大眾的幾十倍,但特斯拉和豐田的毛利率相當。豐田一年賣1000萬輛車,特斯拉賣不到兩百萬輛車,而且已經停止增長了,那么他怎么辦?所以他(馬斯克)就說叫做“具身智能”。

當然,我覺得特斯拉確實是在做“具身智能”的,行業內自然會有“跟風”,特斯拉都轉型了,這些車企肯定也要轉型。但是,我覺得這也不是沒有道理,因為“具身智能”與車的很多底層工程能力、軟件、制造供應鏈等都是有很多互通的地方。所以,做車的人/企業來做“具身智能”是更合適的。

所以,我其實是比較敬畏這些從車企轉型做機器人的“玩家”。

鈦媒體AGI:無論是Waymo,還是其他自動駕駛公司,大家之前目標都是做L4,當前卻只能是L2+,這是否也是大家轉向“具身智能”的原因之一?

姚卯青:對,現在來講,L4、L5離商業化還是比較遠、比較難的。

包括Waymo在舊金山落地,雖然市場份額還不錯,能超過當地第二大的打車公司,但是仔細想,那也只是在舊金山,而舊金山太小了,只有上海的2%的面積和人口,路況也相對有規律。但Robotaxi在中國大面積商業化其實是很難的,因為它依賴高精地圖,你只能在很小的區域內,才有可能每天實時維護地圖上每一個微小的變化。

一旦自動駕駛沒有地域限制放開了,甚至是一個有限制的大城市,幾乎在中國這種大城市幾乎都是不可能的。

所以,(實現L5自動駕駛)主要問題就是,最終肯定是依賴單車智能,一方面,單車智能達不到這么高的一個程度;其次,即使當前單車智能能達到一個不錯的效果,但Robotaxi成本不可控,它必須依賴高精地圖、依賴激光雷達、依賴高算力等。當然,特斯拉稱只做純視覺,不依賴地圖與激光雷達,不過其自動駕駛還達不到完全類人水平,可能行駛幾公里到幾十公里就需人工接管一次。國內不少同類產品在城市中行駛幾公里便要接管,如此看來,使用體驗還不如用戶自己開車。

那就是說,(自動駕駛)商業上并未完全商業閉環,收費的話那就更差得遠了,市場需要成本低、體驗好、不用接管的自動駕駛技術,都做到還比較難。

鈦媒體AGI:現在您對哪款輔助駕駛系統比較滿意?

姚卯青:我開的是特斯拉的。我認為,特斯拉跟國內還是體驗上有不同的,就是從擬人性這個角度來講,它是對人的,所以感覺上它上限好像比較高,但是確實可能有一些所謂水土不服的原因,目前下限也比較低。比如,特斯拉輔助駕駛會像人也一樣“壓線”,它也如此,但是很多地方又做的不那么嚴謹的一個系統。大多國內輔助駕駛方案,我理解還是偏向上一代系統,“大模型端到端”還是偽概念,主要還都是后處理,也談不上billion參數大模型了,都屬于傳統CV、在訓練集分布上過擬合的小模型。

鈦媒體AGI:之前您說具身智能并非“新瓶裝舊酒”,其為傳統機器人注入了新的生命力,那么,在您看來,具身智能對于自動駕駛是“新瓶裝舊酒”嗎?

姚卯青:自動駕駛與“具身智能”應該還是非常不一樣的,兩個產品和技術都可能不是一個“瓶子”了。

大家會說,自動駕駛是“具身智能”的一種形態,但其實嚴格意義上來講,自動駕駛與“具身智能”在 AI 模型這一塊基本不一樣,底層硬件、框架和軟件還是有復用的,但模型角度來講,非常不一樣。

比如,車的硬件只有兩個自由度,而且在2D平面上運作,但機器人動輒幾十個自由度,存在于3D空間中;然后車是嚴禁接觸的,機器人是必須接觸的。

此外,安全性層面,高速動態場景下,車對錯誤的容忍度非常低,因為安全和生命是絕對不能妥協的,自動駕駛不可能上帶幻覺的 AI 大模型,必須是小模型過擬合再加一堆后處理,導致它用傳統 AI+規則實際落地。但機器人不太一樣,你還沒有在非常危險的一些場景大規模落地,更多可能在一些靜態的場景,甚至是無人工廠里,他可以去容忍錯誤,也可以容忍較為長的這種推理,但車的控制要達到50赫茲的這種物理頻率控制,導致這個模型不可能去推理一次幾秒鐘,機器人不一樣,它還是一個低速狀態,對于響應速度有時候沒有那么苛刻,因此它確實需要用大模型來達到一個更高的上限。

所以,車上的都是上一代 AI 1.0機器視覺和感知,幾百萬、幾千萬參數規模,而機器人是真正的大模型,數十億參數上去,經過互聯網數據預訓練的這種視覺語言大模型,它具備了整個基礎的通用推理認知,還有一些規劃和糾錯能力。

鈦媒體AGI:這一輪 AI 熱潮中,清華系占據一大部分。您怎么看待很多清華人在 AI 領域的表現?

姚卯青:清華是理工科最強的學校,而且又有像姚期智老師這樣的世界頂級學者坐鎮,有很好的土壤。至少從海外回來的一些頂尖的人才回國從事教職,我覺得清華肯定還是他們的首選之一。

中美人形機器人沒有差距

鈦媒體AGI:上一次我見到您還是在智元機器人和階躍星辰的合作上,能否簡單聊聊你們的合作細節?

姚卯青:那天是剛剛開始一個簡單的簽約合作儀式,雙方更多合作細節還在探討過程中。目前我們可以看到的是,階躍星辰確實有國內一線的這種文本模型以及多模態大模型的能力,比如他們現在的文本推理模型可以媲美DeepSeek-R1的效果。

不過,推理模型現在很多都是文本,對機器人來講其實是沒什么用的。因為機器人是需要多模態的,它需要有視覺的輸入,要在有視覺又有語言指令的情況下,再去理解空間,再去規劃任務,甚至規劃一些動作軌跡等,那個是跟文本還挺不一樣的,不是一個純邏輯思維。因此,我們比較期待他們即將發布的視覺推理模型,這應該是國內目前為數不多有多模態的這種視覺推理能力的,對于機器人復雜規劃的大腦是很重要的。

鈦媒體AGI:目前瞄向AGI主要有兩派,一是先做語言模型-視覺理解模型-再到AGI;另一種像李飛飛提出的“空間智能”,或者是所謂“世界模型”,再到AGI,您覺得哪條路比較可行?

姚卯青:李飛飛團隊的“空間智能”,其實跟“具身智能”還沒有特別直接的關聯。她們還是屬于3D重建類型,沒有很硬核地做機器人應用,有一些家裝、設計等純3D重建一類。真正的“空間智能”其實是要能夠去生成式預測未來,而不僅僅是預測視頻這類2D畫面,應該能夠預測機器人的動作軌跡、3D的動作軌跡且生成之后,根據周圍的環境和機器人交互所發生的自查,符合物理規律的變化,這個是非常難的。

我們在今年1月初發表了一篇EnerVerse的論文,就是機器人的世界模型。同時,NVIDIA Cosmos目前也在使用我們的數據集讓它變得更能理解機器人和物理規律。

我們這次發布的基座模型,其實跟世界模型還不太一樣,它更多是VLA(Vision Language Action),但它不是一個簡單的VLA,還是有很多感知、動作、視覺等新的技術和模型能力。

(注:今年1月,智元機器人團隊提出了EnerVerse架構,通過自回歸擴散模型(autoregressive diffusion),在生成未來具身空間的同時引導機器人完成復雜任務。不同于現有方法簡單應用視頻生成模型,EnerVerse 深度結合具身任務需求,創新性地引入稀疏記憶機制與自由錨定視角(FAV),在提升 4D 生成能力的同時,實現了動作規劃性能的顯著突破。實驗結果表明,EnerVerse不僅具備卓越的未來空間生成能力,更在機器人動作規劃任務中實現了當前最優(SOTA)表現。論文地址:https://arxiv.org/abs/2501.01895)

鈦媒體AGI:目前很多人形機器人其實只是在做擺手、翻跟頭、疊衣服等動作和展示,這種能力是不是有點局限,或者說人形機器人應該不是這樣這么簡單的,您怎么看?

姚卯青:我覺得,您的觀點是完全正確的。就機器人只會這些的話,其實更多還是娛樂,它沒有產生這種生產力價值,你就只會跑跳翻跟斗,他對你的生活有什么幫助?所以更核心的還是,一定是有AI大模型,能夠給機器人帶來這種操作上手能力,它可以進工廠作業,也可以在零售、服務業里面作業,長期來說,它可能還會進入家庭作業,只有真正能夠去做事情,我覺得才是機器人價值被充分發揮的時刻。

鈦媒體AGI:今年春晚上的“人形機器人”,其實是沒有靈巧手的,本身只是一個電機和結構件的旋轉,那么您認為,“靈巧手”還有很高的價值嗎?

姚卯青:我認為,毋庸置疑(靈巧手)是非常重要的。人很多的勞動能力,區別于一些動物的勞動能力價值,其實大部分都在我們的雙臂、雙手上。而機器人“靈巧”操作,需要一個高自由度的五指靈巧手,而且這個靈巧手要帶很多力覺反饋、觸覺反饋以及力矩控制,因為手比較精細,你要很精細地能夠去控制它的一些力矩等,它不會把東西捏破。

市面上的靈巧手現在依舊還算早期,離我們想象中的靈巧手還有很大的距離。人的手有二十多個自由度,但現在市面上已經量產的靈巧手還沒有達到人類的水平,每個手指只能有一個關節是主動彎曲的,往手掌心這樣彎曲,它沒有側邊的側擺,也沒有旋轉這種。所以,手部功能的局限性會制約未來人形機器人性能的發揮。

鈦媒體AGI:有些客戶反饋,某些場景下,人形機器人的效率還不如人直接拿和放的效率,您怎么看?

姚卯青:有些機器人確實是這樣,它終究還是在做抓、放這一個動作,這也是為什么可以在仿真里面玩。因為抓一些剛性的物體,它動力學比較直觀,可以被仿真,但它到現在還是在做抓放,而且做的都是現在一些常見的VLA的模仿學習。

但當機器人最終要進入工廠應用時,會面臨諸多現實問題。在工廠環境中,機器人的操作成功率和工作節拍必須與人類相當,說實話,僅靠 “模仿學習” 根本無法達到這樣的效果。因此,機器人必須結合強化學習技術,然而目前這仍是一道較高的技術門檻,并非所有團隊都有能力開展。所以,我們計劃將模仿學習與強化學習相結合。

在DeepSeek熱潮之前,我們便已著手強化學習方面的研究,并且組建了一支在真機強化學習領域極為專業的專家團隊 。

鈦媒體AGI:正如您所講,最近行業里比較熱的話題是真機“訓練場”。相比其他公司,智元在臨港等地有專門的訓練場,但很多企業偏向于模擬仿真,那么您認為,“訓練場”是否真的很重要?

姚卯青:我覺得,真機訓練永遠是最重要的,這也是為什么美國的機器人公司很強調真機數據。同時,包括自動駕駛公司也主要用實車數據開發。

道理很簡單,從仿真器到真實世界,這之間還是有很多gap。仿真能模擬很多物理現象,但也很難精確模擬的一些方面,柔性物體接觸、摩擦力等,這個是很難精確建模的。你像疊衣服這么一件簡單的事,就很難模擬,所以肯定是真實世界價值是最高的,但真實數據的成本也確實更高。

鈦媒體AGI:您認為現階段中國的人形機器人跟國外先進的人形機器人,如特斯拉的擎天柱相比,是否有差距?

姚卯青:從硬件和算法兩個角度來講,我認為沒什么差距。因為特斯拉的人形機器人供應鏈也離不開中國企業的支持。

如果要實現馬斯克所說的一個人形機器人2萬美元,約合人民幣15萬元的成本,就必須依靠中國的供應鏈體系,這是毋庸置疑的。而且特斯拉新能源汽車量產成功也已經證明了中國供應鏈的實力。特斯拉的高速發展離不開中國完備的新能源汽車供應鏈和現代化生產制造體系。

從具身算法的模型設計以及最終呈現的效果來看,目前海外的機器人以及我們自主研發的機器人和相關模型,在這方面并沒有顯著的差異。

“卷”9.9萬元價格戰沒意義

,人形機器人進入家庭還需5年

鈦媒體AGI:波士頓動力創始人Marc Raibert去年表示,大部分人形機器人都是“炫耀”而非生產力,尤其是商業化盈利階段,您怎么看這個說法?

姚卯青:確實還沒有,但是今年我們希望落地的幾個場景,希望第一個能夠真正做到這樣的(實現生產力的智能機器人)公司,尤其我們在工業場景、部分商用場景其實都有一些布局。

鈦媒體AGI:近期高盛發布研報指出,全球人形機器人的放量步伐將慢于市場預期,您認為這個預測有道理嗎?

姚卯青:看這個市場預期怎么定義,馬斯克說明年幾十萬臺規模,確實是稍微激進了一些,單一企業年出貨量超過萬臺是一個有機會達到的狀態。我們1月的1000臺下線是一個里程碑,在市場能力、制造能力都有比較大挑戰下做到,并沒有那么容易,因為這個行業還比較新,要達到一個月100臺的產能其實不容易。

鈦媒體AGI:去年一整年行業最關心的是“9萬9”機器人,事實上,人形機器人有高昂的研發成本和生產成本,那么您認為,這種低價戰略對于市場是一件好事,還是壞事?

姚卯青:這是一個非常好的問題。我覺得,9萬9的機器人更多是比較吸引眼球。實際上,可開發版本的費用大約20多萬到50萬左右,并不便宜。

其次,我覺得這個階段大家何必一上來連蛋糕都還沒有做出來,就開始急著“卷”價格戰,大家連本體、硬件、算法等都還沒有收斂的情況下就開始價格戰,這個其實沒什么意義。

所以,更主要的還是要看產品的競爭力,你的智能化程度,你的硬件的成熟度,但如果說都達不到給用戶創造價值的時候,你就光去打9萬9,只會把這個市場變成一個很不健康的狀態。

鈦媒體AGI:現在人形機器人還是在工業環境,您覺得需要多長時間能夠進入家庭過程當中?

姚卯青:我們的目標是,今年能真正在1、2個工業場景去落地,所謂落地,是說客戶可以真正放心的把它像用工人一樣去用,成本上是可以接受,并且能夠提升產能。未來一兩年,我覺得能有一些局部應用落地,走入家庭,我個人覺得還需要5年左右時間,因為家庭環境比較復雜,家庭操作一些物體也不太一樣,任務比較開放式一些。

鈦媒體AGI:在您看來,AGI(通用人工智能)到底是什么?行業如何正確走向AGI?

姚卯青:如今數字世界的大模型,現在已經可以算是AGI了,它可以回答你所有的問題,可以幫你去總結,甚至規劃,以及回答最難的奧數題,它能夠部分超越人類水平,比如o3拿下了IOI 2024金牌。

但是,物理智能世界的AGI,就是能夠在物理實踐里面像人一樣有通用能力的AGI,還需要5-10年比較長的時間。

一方面,數字智能能夠遷移到物理智能去理解我們的世界,然后去規劃動作,而且要成功、閉環、準確;另一方面,整個大模型和硬件需要更安全、更輕量、更靈巧,需要更成熟的機器人本體、靈巧手,也許還有5-10年時間。我相信,物理世界的AGI也是可以存在的。

(作者|林志佳)

相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章