首頁 > AI資訊 > 最新資訊 > 稚暉君推具身基座模型!智元新人形機器人即將發布

稚暉君推具身基座模型!智元新人形機器人即將發布

新火種    2025-04-28

作者 | 許麗思

編輯 | 漠影

機器人前瞻3月10日報道,今天,智元機器人發布首個通用具身基座模型——智元啟元大模型Genie Operator-1(GO-1)。該模型提出了Vision-Language-Latent-Action(ViLLA)框架,該框架由VLM(多模態大模型)+MoE(混合專家)組成,具有采訓推一體,小樣本快速泛化、“一腦多形”的跨本體應用、持續進化、人類視頻學習等突出優勢。

另外,智元還預告了,未來幾個月會推出基于強化學習的仿真模型,新的人形機器人也即將亮相。

一、小樣本快速泛化,快速適配不同本體

ViLLA框架包含了VLM(多模態大模型)+MoE(混合專家)。

具體來說,VLM作為通用具身基座大模型的主干網絡,繼承開源多模態大模型5-2B的權重,利用互聯網大規模純文本和圖文數據,讓智元機器人的Genie Operator-1(GO-1)具備了通用的場景感知和理解能力。

MoE中的隱動作專家模型是整個大模型中隱式的規劃器,作為第一個專家模型,它利用到了互聯網上的大規模人類操作和跨本體操作視頻,讓模型具備動作的理解能力。

MoE中作為動作預測器的動作專家模型,利用高質量的仿真數據、真機數據,讓模型具備了動作的精細執行能力。

2年出貨1.5億臺!深圳發布智能終端產業新政,AI手機、PC、眼鏡等成重點品類

Genie Operator-1有五大方面特點:

采訓推一體:搭配智元軟硬件一體化框架,可以實現數據采集、模型訓練、模型推理的無縫銜接。

小樣本快速泛化:具有強大的泛化能力,使得后訓練成本非常低,能夠在極少數據甚至零樣本下泛化到新場景、新任務。

一腦多形:是一個通用機器人策略模型,能夠在不同機器人形態之間遷移,快速適配到不同本體。

持續進化:搭配智元一整套數據回流系統,可以從實際執行遇到的問題數據中持續進化學習。

人類視頻學習:可以結合互聯網視頻和真實人類示范進行學習,增強模型對人類行為的理解。

二、吸納海量知識數據,一句語言指令讓機器人直接執行任務

智元機器人的Genie Operator-1(GO-1),基于具身領域的數字金字塔所構建:

底層是互聯網的大規模純文本與圖文數據,可以幫助機器人理解通用知識和場景。

在這之上是互聯網的大規模人類操作/跨本體視頻,可以幫助機器人學習人類或者其他本體的動作操作模式。

更上一層則是仿真數據,用于增強泛化性,讓機器人適應不同場景、物體等。金字塔的頂層,則是高質量的真機示教數據,用于訓練精準動作執行。

在此基礎上,機器人就可以成全面的“基礎教育”和“能力培訓”,天然能適應新的場景,可以輕松面對多種多樣的環境和物體,快速學習新的操作。

2年出貨1.5億臺!深圳發布智能終端產業新政,AI手機、PC、眼鏡等成重點品類

GO-1所采用的由VLM+MoE組成的ViLLA框架,可以將輸入的多相機的視覺信號和人類語言指令,直接輸出機器人的動作執行。和與Vision-Language-Action(VLA)模型相比,ViLLA通過預測Latent Action Tokens(隱式動作標記),彌合了圖像-文本輸入與機器人執行動作之間的鴻溝。

比如,用戶用平常講話的方式告訴機器人要做的事情,比如“掛衣服”,模型就可以拆解成一些幾個步驟來處理:

首先,模型可以根據看到的畫面,以及所學習過互聯網的大規模純文本和圖文數據,能理解“掛衣服”在此情此景下的含義和要求;

其次,模型學習過互聯網的人類操作視頻和其他機器人的各種操作視頻,所以能知道掛衣服這件事通常包括哪些環節;

然后,模型學習過仿真的不同衣服、不同衣柜、不同房間,模擬過掛衣服的操作,所以能理解環節中對應的物體和環境并打通整個任務過程;

最后,因為學習過真機的示教視頻,機器人就能精準完成整個任務的操作。

2年出貨1.5億臺!深圳發布智能終端產業新政,AI手機、PC、眼鏡等成重點品類

GO-1可以讓機器人應用到更多的場景中。早上剛起床,機器人會幫忙倒上一杯水、烤下吐司,還可以去一些活動現場,負責檢票、發放物料的活。

2年出貨1.5億臺!深圳發布智能終端產業新政,AI手機、PC、眼鏡等成重點品類

2年出貨1.5億臺!深圳發布智能終端產業新政,AI手機、PC、眼鏡等成重點品類

在商務會議中,面對人類發出的“幫我拿一瓶飲料”“幫我拿一個蘋果”的語音指令,GO-1可以讓機器人快速相應。

2年出貨1.5億臺!深圳發布智能終端產業新政,AI手機、PC、眼鏡等成重點品類

2年出貨1.5億臺!深圳發布智能終端產業新政,AI手機、PC、眼鏡等成重點品類

值得一提的是,GO-1還可以通過數據回流,持續進化:比如,機器人做咖啡的時候不小心把杯子放歪了,后續就可以從遇到這個問題數據中持續進化學習,直到成功完成任務。

2年出貨1.5億臺!深圳發布智能終端產業新政,AI手機、PC、眼鏡等成重點品類

結語:具身智能加速邁向通用化、開放化與智能化

一直以來,具身智能面臨著場景和物體泛化能力不足、缺乏語言理解能力做不到指令的泛化、無法快速學習新技能、實現跨本體的部署等問題。

GO-1的出現,為機器人代替人類完成工作生活中的各種事情,提供了強大的腦力支持。從準備餐食、收拾桌面這樣的家庭場景任務,到接待訪客、發放物品這類辦公和商業場景的常見工作,再到工業等更多場景的其他操作任務,通用具身基座大模型都可以快速實現。這也意味著具身智能從單一任務到多種任務、從封閉環境到開放世界、從預設程序到指令泛化加速邁進,讓機器人走向更多不同場景、適應多變的真實世界。

相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章