逛完世界機器人大會,投資人說再也不想投人形機器人了
過去一周,我們仿佛能在世界機器人大會上看到全世界的機器人,600余件相關展品幾乎覆蓋了機器人的各條產業鏈。
機器人類型也多得令人眼花繚亂,比如“上躥下跳”的機器狗、整齊劃一“搖曳”的機械臂,還有可以做到不把酒撒出來的“送餐小能手”等。
不論是機器人數量還是參展熱度,人形機器人都堪稱“C位”。據官方表示,這是人形機器人數量最多的一屆大會,而現場幾乎一半的觀眾都集中在人形機器人公司的展臺。
這些人形機器人高矮胖瘦各不相同:從僅有110cm的加速進化“小巧”型Booster T1,到足有185cm的“壯漢”型青龍機器人一應俱全。每一家機器人的機械臂形態、電池位置,臉部造型,乃至移動方式都風格各異,但他們都在賣力地表演著“絕技”。
論武,它們能打詠春、拳擊、跳“海草舞”,甚至能在有鋼管的地上跑步飄逸;論文,它們會寫毛筆字,還能做菜、洗衣、疊衣。在多個展臺上,機器人們顯得一派絕活學盡,就等著進廠打工或是去客戶家服務的高昂姿態。
但一位長期關注人形機器人賽道的投資人逛完展會后,卻對騰訊科技表示:“我一個也不想投了”。
他們目前既不夠有用,又拉不開差距。
比如,工業場景人形機器人,主要任務是做揀選和小范圍的搬運、挪動,但現有的傳統自動化機器人已經有很成熟的方案,再做人形機器人意義不大。而聚焦家用場景的人形機器人主要任務就是烹飪、疊衣服、炒菜,雖然各家機器人在這類場景的完成度有差異,但投資人表示,“你能做到的對手也能做到,并不存在不可逾越的差距,只是時間問題而已”。
經騰訊科技不完全統計,此次大會一共有28家人形機器人公司參展,各家公司產品的服務場景除了科研之外,多數都集中在工業或家用場景。
從騰訊科技的統計可以看到,這些機器人的機械性能差異不小,比如自由度、峰值扭矩等指標,最多能有5倍差距;單拿移動速度來看,最快的一級能達到7km/h以上,慢的卻只能做到2.5km/h。但在軟件基礎——大模型層面上,各家卻很難拉開大的差距。
而這本應是今年人形機器人的最大亮點。
因為比起特定應用的工業機器人,“人形”這類型的機器人設計其實并不高效。它最大的優勢就在于更能實現在人類社會中的“通用”,即人類不需要為了方便機器人的運轉而特意改造環境,人類的雙手能夠著、雙腿能抵達的地方,人形機器人也可以。
而實現“通用”的關鍵就在于有足夠強的通用模型。
對這位投資人來說,展會內軟件突破有限的人形機器人已讓他感到審美疲勞。“現在能讓我眼前一亮的,大概是真正擁有泛化能力的機器人”,比如一個會拖地的家庭服務機器人,可以不用主人發號指令,就能自己想到主動去房間鋪個床,干個活。騰訊科技溝通了多位關注機器人賽道的投資人,他們普遍認為,做人形機器人,硬件本體并不存在真正意義上的壁壘,軟件才是難題,因為它決定著人形機器人的泛化能力,只有擁有強大的泛化能力,人形機器人才能在多種任務場景中工作,才能更接近“通用性”。
但通往AGI是一個美好的理想,除了要奔向遠方,也要結合當下的技術條件循序漸進。
雖然今年的人形機器人賽道讓VC們略感失望,但和往年相比,我們發現這個賽道其實也有一些值得關注的新變化。
人形機器人的“表情包”執念?如果未來人形機器人想要實現真正意義上的情感陪伴,它的“臉”和“表情”會變得極為重要。
日本機器人學者、ATR石黑浩特別研究室室長石黑浩認為,“隨著我們接觸到越來越多的機器人,我們可能會逐漸接受栩栩如生的機器人,并在未來依靠它們來滿足我們的護理和其他需求。”
海銀資本創始人王煜全也有類似觀點,他曾對騰訊科技表示,機器人沒有必要像人一樣擁有雙足,但它們可以像人一樣擁有一張能做表情的“臉”,具備這項能力,機器人可以更好地勝任迎賓接待、陪伴這類需要與人類交流的工作。
關于人形機器人做不做“表情”,有兩個派別:“抽象派”和“仿生派”,前者主張用抽象的符號傳遞表情,以表達情感交流,后者主張將臉做得無限逼近真人,希望能和人類一樣,可以通過調動“肌肉”的力量驅動面部表情。
在WRC 2024上,我們觀察到,除了主流的“抽象派”,更多的“仿生派”開始入場,并且這類機器人可以做各種“表情包”。
典型的代表是國內仿生機器人公司EX集團,EX集團去年將“李白”、“杜甫”帶到世界機器人大會,今年又做出來“蘇軾”。
此外,和去年相比,今年又多出一家做表情的機器人公司“數字華夏”,它的人形機器人“夏瀾”在現場和觀眾做起了互動:
除此之外,也有很多產品并不講究把“表情”做得多么細致,有的壓根連“臉”都沒有,還有部分做了“臉”的公司則選擇了籠統的“頭盔”樣式。
仔細留意會發現,不論是國外波士頓動力電動Atlas、馬斯克的Optimus Gen2、Figure 01,還是國內智元新上的“遠征A2”、宇樹公布的新品“G1”、優必選會進廠打工的“Walker S”等,它們都頂著一張相似的“鋼鐵”面龐。
這些人形機器人面部材質幾乎都使用黑色的玻璃面罩,用LED鑲邊,宇數創始人王興興在WRC 2024之前的交流會上表示,“我對G1的頭部設計很滿意,短時間內不會改變”。
或許其中一個原因是,這類面部本身就是一個屏幕,上面可以出現任何抽象符號,方便組成表情,向人類傳遞情感。比如,Figure01或Figure02在說話的時候,面部會呈現OpenAI的標志性符號,雖然算不上真正的表情,但也讓和它交流的人類感受到“你正在認真聽我講話”。
其實,回溯人形機器人“鼻祖”——第一版波士頓動力機器人“液壓”Atlas的外貌,你會發現,它連基本的“臉”都不存在,更談不上有表情,它的面部看上去有點“糊弄”,只用了幾根略粗的鋼管和帶有兩個孔的器件,簡陋地搭建了一張Atlas的臉。
這可能源于波士頓動力創始人Marc Raiber的一段信念,他曾在接受訪談的時候表示,“能力、靈巧、感知和智力才是機器人的關鍵功能,其它的都不重要。”
直到2021年,一則液壓Atlas舞蹈視頻“Do You Love Me”爆紅,Marc Raiber才開始認可“仿生”對于人形機器人與人類情感交流的重要性,或許正是這一段淵源,2024年的電動Atlas才擁有了一張“頭盔式”面龐。
這類頭盔式臉龐在審美和功能性上都有一定的作用,比如它們的主色都是“高級黑”,代表著十足的科技感,并且頭盔式的設計可以減少外部環境對傳感器和攝像頭的損害,如灰塵、碰撞或其他物理損害。更重要的是,它們可以規避“恐怖谷效應”給人帶來的不適感。
“頭盔式”的抽象派十分受歡迎,但仿生派也一直在研究如何將機器人的表情做得更像人,這一領域主要有兩種技術路線:自主式和遠程操控式。自主式機器人通過機器學習和算法驅動來生成面部表情,而遠程操控式機器人則依賴操作員的指令來模仿其面部表情。
例如,哥倫比亞大學工程學院的創新機器實驗室開發了一款名為Emo的機器人。該機器人采用自我監督學習框架,能夠預測人類的面部表情,甚至可以在一個人微笑前的840毫秒內做出預測,與人類同步微笑。而更早的時候,有學者為了更好地練習機器人模仿人類表情,開發出開源機器人Eva,并發表論文解釋了機器人表情驅動的原理。
Eva的頭部由面罩驅動機構、下頜、眼睛和頸部四個部分組成,論文中描述,“其中面罩驅動機構采用了12個MG90S伺服電機、兩個用于容納伺服電機的3D打印伺服組、一個定制的硅膠面罩、一個用于支撐面罩的3D打印頭骨以及穿過特氟龍鮑登管的鋼絲。”
這些鋼絲穿過管子,連接到頭骨內的各種伺服電機上,“為了產生面部表情,需要啟動12個伺服電機中的特定子集,從而拉動鋼絲并使面罩變形,以模擬面部肌肉在做表情時如何使皮膚變形。”簡單來說,鋼絲可以通過工作人員發出的指令,組合式地驅動多個伺服電機,將力傳導到面罩上,從而形成機器人的“表情”。
在WRC 2024上,EX機器人CEO李博陽對騰訊科技說道,“EX機器人的面部集成了幾十組自由度,并且通過EX自研的一套系統完成對表情的驅動。同時,開發一套情緒模型,便于機器人進行情感分析,并將其映射到表情上。”
把人形機器人做得無限逼近人類,似乎是一種執念,WRC 2024上的活躍的“仿生派”,正是這一執念的顯化。
量產、進廠的機器人,不為打工為數據在今年的機器人大會上,人形機器人不光數量大幅提升,這些甚至只是第一代的產品還直接紛紛宣布量產,能夠進廠打工了。他們一路小跑,跟上了前輩特斯拉Optimus的腳步。
稚暉君創立的智元機器人,預計2024年發貨量300 臺,其雙足人形機器人10月起量產,年出貨量預計200臺。UniX AI的輪式人形機器人Wanda也計劃在9小規模量產,年內預計生產100臺左右。在現場,優必選甚至直接搭建了一個工廠場景,去展示他們最新的人形機器人進廠操作的全流程,包括篩查車輛狀況,分類揀取產品以及搬運工作。據他們的工作人員介紹,優必選已經和汽車企業合作,真正開始在廠里運作了。
但講到機器人的性能時,相關工作人員承認,目前只能達到人類效率的20%-30%,而且電池續航僅有兩個小時。續航短也是業內人形機器人的普遍問題。
這樣水平的機器人量產、進廠,真的是為了工業化落地嗎?并不是。
這就需要再次聊起,上文投資人曾提到的機器人的“泛化”能力,這是需要大量數據的。
那需要多少數據呢?
比如在UniX-AI的站臺上,他們裝載了大模型的Wanda機器人一口氣展示了包括洗衣服、疊衣服、制作漢堡、3D清潔等多項任務。這一過程中最令人印象深刻的就是Wanda洗衣服的場景,它首先接受到人類對它的命令,之后自動尋路去尋找臟衣服,并把它投放進洗衣機中。這看起來已經頗具獨立完成全流程任務的能力了。
但這種泛化很有限。
UniX-AI創始人楊豐瑜對騰訊科技表示,像洗衣服這樣任務級的泛化,這是目前的數據和訓練能夠達成的。但能主動識別,完成一個模型處理多種任務的泛化功能,目前還需要一定時間。
在整場機器人大會中,我們能看到各種能進行拆分任務的機器人。像優必選會分揀物品的WalkerS,星塵智能能寫出一手漂亮毛筆字的S1。但真正能實現多任務間泛化展示的機器人基本上沒有。
他們在固定的展位上做著各種大差不差、非常有限的工作,甚至流程看起來都很程式化。這一時間讓人恍惚,好像回到了大模型到來之前的編程機器人時代。
在機器人大會期間的采訪中,作為RT-X項目的參與者的Wolfram Burgard教授就認為當下的基礎模型訓練方式有著能效上的巨大問題——它需要太多的算力和數據才能達到泛化的門檻。
他舉了個例子——在RT-X數據集項目中,雖然他們收集了超過100萬個片段,覆蓋了機器人的500多項技能和在16萬項具體任務上的表現,但當桌子高度稍有不同,RT-2就可能完全無法正確進行任務了。
這就意味著,我們離真正泛化的具身智能ChatGPT時刻,可能還差著至少半個互聯網那么大的數據量。
因此,在這場達成“泛化”的比賽里,能夠先批量獲得數據的企業才能占據先機。因此獲得有效數據,是很多機器人公司在臺下最火熱的戰場。
智元機器人發布會上,稚輝君就宣布了智元的數據采集計劃。他們預計9月底建成有100臺左右機器人的采樣廠,對應150個工人,接下來進入數據量產階段,目標是一個工人1000條數據/天,當前是600條/天。這就已經占據了他們預期“量產”機器人數量的1/3。當然,投入自有回報,按他們給出的數據,這個數據工廠10天就可以收集到和RT-X數據集一樣大的量級。
而UniX-AI和星塵智能這些劍指具身智能實現的后起之秀,也強調自己在數據采集方面的投入。UniX-AI創始人楊豐瑜提到,他們在對機器人的訓練中已經用到了在虛擬環境的模擬訓練,以及視頻采集分析這些“新采集方法”得到的數據。
但據智元透露,目前這些真機采集數據非常貴。即使采用大規模的生產,成本也需要0.4元/條。即使在模擬環境下獲取的仿真數據,也需要真人數據60%-70%的成本。
那怎么才能更好地、更便宜地收集數據呢?進廠打工也許就是個對雙方都有利的選擇。機器人能獲得一個收集實踐工作相關數據的真實場景,而相關的人力成本可能都能節省下來;相關企業則能獲得智造探索的行業經驗,又可以多一個宣發口徑。
消化了“量產”人形機器人中相當一部分的現實企業,不過是現階段人型機器人的另一個數據工廠罷了。
人形機器人也走“親民”路線,哪里不對“拆”哪里“量產”一直是人形機器人的產業難題,主要原因在于各家關鍵零部件規格不統一、參數要求參差不齊,很難形成標準化。宇樹創始人王興興在WRC 2024前也對騰訊科技說道,“每一家做具身智能的思路都不一樣,比如機器人的傳感數據應該怎么采集,要不要觸覺傳感器,末端執行器應該有幾根手指,都不統一”。
盡管行業的路線還在探索,但其實很多公司都在用“模塊化”思維做人形機器人,即,人形機器人就像一個“大玩具”,胳膊、機械手、底盤都可以被拆卸和安裝,而在今年的WRC 2024上,模塊化設計機器人的路徑被直接呈現了出來,“人形機器人賽道軟硬件標準化程度低,將零部件模塊化,其實也是一些公司在初步嘗試做標準化”,一位參加WRC 2024的業內人士對騰訊科技說道。
機器人公司嘗試模塊化的主要零部件,聚焦在上臂、靈巧手、雙足,比如星動紀元Star1機器人可拆卸替換底盤,Star1的底部既可以換成雙足也可以做成輪式,“如果有需要,也可以不用底盤,只保留上半身”,星動紀元工作人員說道。
而智元機器人的“靈犀X1”機器人主打開源,電機、夾爪等核心零部件可以實現拆裝。
但末端執行器的替換,涉及到本體對不同類型夾爪的控制能力,比如,能輕松運作指夾爪、三指夾具的本體,未必能夠駕馭好五指靈巧手,“它們所牽涉到的控制能力不是一個級別的”。
結 語雖然WRC 2024過后,不少人對人形機器人的應用表示懷疑和失望,在實際場景中連傳統機械臂都比不上,甚至覺得“人不如狗”,但技術的進步是循序漸進的,機器人的泛化和智能也并非一蹴而就,在這中間可能會涌現很多“中間態”的產品類型。
這些“中間態”產品在發展過程中,可能會出現一些脫離正常生長軌跡的狀況,比如讓還不成熟的人形機器人進廠“打工”,就像要求一個剛剛蹣跚學步的孩童去百米沖刺一樣,顯得有點“揠苗助長”,甚至可能丑態百出。
但人形機器人需要被“拉出去溜溜”,它只有走進人類、感知世界,才有可能真正服務于人類。
本文作者:周小燕 郝博陽,來源:騰訊科技,原文標題:逛完世界機器人大會,投資人說再也不想投人形機器人了
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。