首頁 > AI資訊 > 最新資訊 > 稚暉君預(yù)告揭曉!智元機器人發(fā)布首個通用具身基座模型GO-1

稚暉君預(yù)告揭曉!智元機器人發(fā)布首個通用具身基座模型GO-1

新火種    2025-03-11

剛填完坑就又埋下“驚喜預(yù)告”??

預(yù)告多日之后,稚暉君正式官宣首個通用具身基座模型——智元啟元大模型(Genie Operator-1,以下簡稱GO-1),將具身智能邁向通用全能的門檻進一步降低了。

而且劇透明天還有驚喜。

稚暉君預(yù)告揭曉!智元機器人發(fā)布首個通用具身基座模型GO-1稚暉君預(yù)告揭曉!智元機器人發(fā)布首個通用具身基座模型GO-1

概括而言,此次發(fā)布的GO-1大模型主要有以下幾個特點:

人類視頻學習:可以結(jié)合互聯(lián)網(wǎng)視頻和真實人類示范進行學習,增強模型對人類行為的理解;小樣本快速泛化:能夠在極少數(shù)據(jù)甚至零樣本下泛化到新場景、新任務(wù),使得后訓練成本非常低;一腦多形:能夠在不同機器人形態(tài)之間遷移,快速適配到不同本體;持續(xù)進化:搭配智元一整套數(shù)據(jù)回流系統(tǒng),可以從實際執(zhí)行遇到的問題數(shù)據(jù)中持續(xù)進化學習。

網(wǎng)友們也紛紛表示,通用機器人指日可待了!

稚暉君預(yù)告揭曉!智元機器人發(fā)布首個通用具身基座模型GO-1稚暉君預(yù)告揭曉!智元機器人發(fā)布首個通用具身基座模型GO-1首個通用具身基座模型GO-1

具體來看,GO-1大模型由智元機器人聯(lián)合上海AI Lab共同發(fā)布。

通過大規(guī)模、多樣化的數(shù)據(jù)訓練,GO-1展現(xiàn)出強大的通用性和智能化能力,突破了大量以往具身智能面臨的瓶頸。

按照官方說法,GO-1除了拓展機器人的運動能力,更重要的是加強了其AI能力,從而大大增加了機器人的實用價值。

首先,通過學習人類操作視頻,機器人能快速學習新技能了。

比如下面這個倒水的動作:

稚暉君預(yù)告揭曉!智元機器人發(fā)布首個通用具身基座模型GO-1

而且機器人還具備了一定的物體跟蹤能力,即使隨意移動水杯位置,它也能精準倒水。

稚暉君預(yù)告揭曉!智元機器人發(fā)布首個通用具身基座模型GO-1

與此同時,機器人不止掌握已經(jīng)學過的操作,還能識別并操作未見過的物品(僅通過百條級數(shù)據(jù)就能實現(xiàn)快速泛化)。

比如倒完水之后,再烤烤面包并抹上果醬:

稚暉君預(yù)告揭曉!智元機器人發(fā)布首個通用具身基座模型GO-1

另外,當前的具身模型通常針對單一機器人本體(Hardware Embodiment)進行設(shè)計,這導致兩個問題:

數(shù)據(jù)利用率低:不同機器人收集的數(shù)據(jù)難以共享,無法充分利用跨本體數(shù)據(jù)進行訓練;部署受限:訓練好的模型難以遷移到不同類型的機器人,每個本體往往需要獨立訓練一個模型,增加適配成本。

而用上GO-1大模型之后,這些問題都被解決了。

稚暉君預(yù)告揭曉!智元機器人發(fā)布首個通用具身基座模型GO-1

可以看到,多個相同/不同本體的機器人能夠共同協(xié)作完成復(fù)雜任務(wù)。

稚暉君預(yù)告揭曉!智元機器人發(fā)布首個通用具身基座模型GO-1

此外,GO-1大模型還支持數(shù)據(jù)飛輪持續(xù)提升。即在實際操作過程中不斷回流數(shù)據(jù)尤其是執(zhí)行出現(xiàn)問題的數(shù)據(jù),持續(xù)驅(qū)動優(yōu)化模型性能。

比如下面這個例子中,機器人放咖啡杯時出現(xiàn)失誤,就可以通過數(shù)據(jù)回流(加上人工審核)針對性優(yōu)化。

稚暉君預(yù)告揭曉!智元機器人發(fā)布首個通用具身基座模型GO-1

對了,GO-1大模型也為機器人增加了新的語音交互方式,這極大便利了用戶在現(xiàn)實場景中自由表達需求。

稚暉君預(yù)告揭曉!智元機器人發(fā)布首個通用具身基座模型GO-1基于全新ViLLA架構(gòu)

事實上,GO-1大模型的構(gòu)建核心圍繞對數(shù)據(jù)的充分利用展開。

基于具身領(lǐng)域的數(shù)字金字塔,GO-1大模型吸納了人類世界多種維度和類型的數(shù)據(jù):

底層:互聯(lián)網(wǎng)的大規(guī)模純文本與圖文數(shù)據(jù),可以幫助機器人理解通用知識和場景;第2層:大規(guī)模人類操作/跨本體視頻,可以幫助機器人學習人類或者其他本體的動作操作模式;第3層:仿真數(shù)據(jù),用于增強泛化性,讓機器人適應(yīng)不同場景、物體等;頂層:高質(zhì)量的真機示教數(shù)據(jù),用于訓練精準動作執(zhí)行。稚暉君預(yù)告揭曉!智元機器人發(fā)布首個通用具身基座模型GO-1

有了這些數(shù)據(jù),可以讓機器人在一開始就擁有通用的場景感知和語言能力,通用的動作理解能力,以及精細的動作執(zhí)行力。

當然,過程中也少不了一個合適的數(shù)據(jù)處理架構(gòu)。

由于現(xiàn)有的VLA(Vision-Language-Action)架構(gòu)沒有利用到數(shù)字金字塔中大規(guī)模人類/跨本體操作視頻數(shù)據(jù),缺少了一個重要的數(shù)據(jù)來源,導致迭代的成本更高,進化的速度更慢。

因此,智元團隊創(chuàng)新性地提出了ViLLA(Vision-Language-Latent-Action)架構(gòu)。

與VLA架構(gòu)相比,ViLLA通過預(yù)測Latent Action Tokens(隱式動作標記),彌合圖像-文本輸入與機器人執(zhí)行動作之間的鴻溝。它能有效利用高質(zhì)量的AgiBot World數(shù)據(jù)集以及互聯(lián)網(wǎng)大規(guī)模異構(gòu)視頻數(shù)據(jù),增強策略的泛化能力。

展開來說,ViLLA架構(gòu)是由VLM(多模態(tài)大模型)+MoE(混合專家)組成。

其中VLM借助海量互聯(lián)網(wǎng)圖文數(shù)據(jù)獲得通用場景感知和語言理解能力,MoE中的Latent Planner(隱式規(guī)劃器)借助大量跨本體和人類操作數(shù)據(jù)獲得通用的動作理解能力,MoE中的Action Expert(動作專家)借助百萬真機數(shù)據(jù)獲得精細的動作執(zhí)行能力。

推理時,VLM、Latent Planner和Action Expert三者協(xié)同工作:

VLM采用InternVL-2B,接收多視角視覺圖片、力覺信號、語言輸入等多模態(tài)信息,進行通用的場景感知和指令理解;Latent Planner是MoE中的一組專家,基于VLM的中間層輸出預(yù)測Latent Action Tokens作為CoP(Chain of Planning,規(guī)劃鏈),進行通用的動作理解和規(guī)劃;Action Expert是MoE中的另外一組專家,基于VLM的中間層輸出以及Latent Action Tokens,生成最終的精細動作序列。

舉個例子,假如用戶給出機器人指令“掛衣服”,模型就可以根據(jù)看到的畫面,理解這句話對應(yīng)的任務(wù)要求。然后模型根據(jù)之前訓練時看過的掛衣服數(shù)據(jù),設(shè)想這個過程應(yīng)該包括哪些操作步驟,最后執(zhí)行這一連串的步驟,完成整個任務(wù)的操作。

稚暉君預(yù)告揭曉!智元機器人發(fā)布首個通用具身基座模型GO-1

與此同時,通過ViLLA架構(gòu),智元團隊在五種不同復(fù)雜度任務(wù)上測試GO-1。

結(jié)果顯示,相比已有的最優(yōu)模型,GO-1成功率大幅領(lǐng)先,平均成功率提高了32%(46%->78%)。其中 “Pour Water”(倒水)、“Table Bussing”(清理桌面) 和 “Restock Beverage”(補充飲料) 任務(wù)表現(xiàn)尤為突出。

此外團隊還單獨驗證了ViLLA 架構(gòu)中Latent Planner的作用,可以看到增加Latent Planner可以提升12%的成功率(66%->78%)。

稚暉君預(yù)告揭曉!智元機器人發(fā)布首個通用具身基座模型GO-1還有一個彩蛋

GO-1發(fā)布視頻的最后,相信大家也看到了一個彩蛋:

稚暉君預(yù)告揭曉!智元機器人發(fā)布首個通用具身基座模型GO-1

不知道內(nèi)容是否和稚暉君的最新預(yù)告有關(guān),明天我們繼續(xù)蹲蹲~

論文:https://agibot-world.com/blog/agibot_go1.pdf

相關(guān)推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內(nèi)容相關(guān)的任何行動之前,請務(wù)必進行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產(chǎn)生的任何金錢損失負任何責任。

熱門文章