首頁 > AI資訊 > 最新資訊 > RoboMIND:國家地方共建具身智能機器人創(chuàng)新中心與北京大學(xué)計算機學(xué)院聯(lián)合創(chuàng)建的具身智能數(shù)據(jù)集和Benchmark

RoboMIND:國家地方共建具身智能機器人創(chuàng)新中心與北京大學(xué)計算機學(xué)院聯(lián)合創(chuàng)建的具身智能數(shù)據(jù)集和Benchmark

新火種    2024-12-28

獲取論文全部內(nèi)容:

文章鏈接 :

官方網(wǎng)站 :

伴隨著全球人工智能技術(shù)飛速進(jìn)步,具身智能產(chǎn)業(yè)迅猛發(fā)展,賦予機器人類人化的泛化能力是具身智能機器人技術(shù)的核心目標(biāo)之一,實現(xiàn)這一目標(biāo)的關(guān)鍵在于如何使各類機器人本體在面對多樣化的環(huán)境和任務(wù)時,能夠展現(xiàn)出卓越的性能。

正如ChatGPT需要海量文本數(shù)據(jù)來訓(xùn)練一樣,想要培養(yǎng)出一個能力全面的機器人,也需要大量優(yōu)質(zhì)的訓(xùn)練數(shù)據(jù),數(shù)據(jù)集是具身智能技術(shù)發(fā)展的重要基石。與視覺或語言數(shù)據(jù)的獲取相比,收集機器人訓(xùn)練數(shù)據(jù)遠(yuǎn)比收集文本或圖像數(shù)據(jù)困難得多,需要在專門的環(huán)境中記錄機器人的每個關(guān)節(jié)動作和末端執(zhí)行器的信息,這個過程不僅需要昂貴的硬件設(shè)備,還需投入大量人力來確保數(shù)據(jù)質(zhì)量,因而業(yè)內(nèi)目前最具通用性的機器人操作策略主要依賴于在有限多樣性條件下收集的數(shù)據(jù),大規(guī)模多構(gòu)型具身智能數(shù)據(jù)集和Benchmark是極為稀缺的資源。

為了解決這個難題,國家地方共建具身智能機器人創(chuàng)新中心與北京大學(xué)計算機學(xué)院聯(lián)合推出了一個大規(guī)模多構(gòu)型智能機器人數(shù)據(jù)集和Benchmark——RoboMIND,捕捉機器人面對復(fù)雜環(huán)境、長程任務(wù)時的各種交互和經(jīng)驗,從而促進(jìn)能夠掌握不同操作策略的通用模型的訓(xùn)練。RoboMIND包含5萬5千條機器人軌跡數(shù)據(jù),涉及279項不同的任務(wù),涵蓋了高達(dá)61種不同的物體,覆蓋了家居、廚房、工廠、辦公、零售等大部分生活服務(wù)場景。此外,該數(shù)據(jù)集包含根據(jù)真實場景搭建的數(shù)字孿生場景,進(jìn)一步豐富和擴充了此數(shù)據(jù)集的多樣性,同時提升數(shù)據(jù)采集效率。機器人構(gòu)型包含單臂機器人、雙臂機器人、人形機器人,手臂末端使用夾爪或者靈巧手。為了評估RoboMind數(shù)據(jù)集的質(zhì)量,研究團(tuán)隊在主流單任務(wù)模仿學(xué)習(xí)模型上(如ACT)和具身多模態(tài)大模型上(如OpenVLA、RDT-1B)進(jìn)行了廣泛的評測,發(fā)現(xiàn)RoboMIND數(shù)據(jù)集可以有效提升模仿學(xué)習(xí)模型在現(xiàn)實場景下任務(wù)的成功率。該評測得到了北京智源人工智能研究院的大力支持。

一、RoboMIND數(shù)據(jù)集特征分析:

1)多樣化構(gòu)型:RoboMIND的數(shù)據(jù)來源包括31,005條Franka Emika Panda單臂機器人軌跡、9,686條“天工”人形機器人軌跡、8,030條AgileX Cobot Magic V2.0雙臂機器人軌跡以及6,911條UR-5e單臂機器人軌跡。研究團(tuán)隊使用自研的“天工”人形機器人,收集了17.4%的數(shù)據(jù),其中包含了大量的雙臂操作任務(wù),需要較高的雙臂協(xié)調(diào)能力。

2)多樣化軌跡長度:研究團(tuán)隊計算了每種機器人模型在任務(wù)執(zhí)行過程中的平均任務(wù)時長(即每條軌跡中的時間步數(shù))。如圖所示,F(xiàn)ranka和UR的任務(wù)通常具有較短的軌跡(少于200個時間步),適合用于訓(xùn)練基礎(chǔ)技能。相比之下,“天工”和AgileX的任務(wù)軌跡較長(超過500個時間步),更適合用于長時間跨度的任務(wù)訓(xùn)練以及技能組合。

下圖展示了四種機器人平臺在任務(wù)中所涉及的技能數(shù)量分布的直方圖。從圖中可以看出,AgileX的任務(wù)通常涉及兩到三種組合技能,這使得任務(wù)的時長較長。而“天工”的任務(wù)則長度不一,其中一些任務(wù)涉及多達(dá)五種技能。為了進(jìn)一步說明這一點,研究團(tuán)隊選取了一項包含三種技能的AgileX任務(wù),并在圖中展示了其雙臂操作的軌跡:首先,兩只手臂依次執(zhí)行抓取技能,隨后左臂將胡蘿卜放置,右臂將其移交給黑色盤子,整個過程需要高水平的協(xié)調(diào)操作能力。

3)任務(wù)多樣性強:研究團(tuán)隊根據(jù)自然語言描述,根據(jù)物品大小、使用場景、操作技能等因素,將整個數(shù)據(jù)集中的任務(wù)分為了五大類,分別是:基礎(chǔ)技能、精準(zhǔn)操作、場景理解、柜體操作、協(xié)作任務(wù)。任務(wù)的具體分布如下所示:

可以看出,除了基礎(chǔ)的操作任務(wù),RoboMIND數(shù)據(jù)集還包含了大量的復(fù)雜任務(wù),為通用機器人策略的訓(xùn)練提供了豐富的數(shù)據(jù)保障。

4)物品類別豐富:RoboMIND數(shù)據(jù)集包含了61種不同的物品類別,具體如下所示。可以看出,在廚房場景中,數(shù)據(jù)集不僅包含了常見的食物,如草莓、雞蛋、香蕉和梨子等,也包括了復(fù)雜的可調(diào)節(jié)物體,如烤箱和面包機。在家庭場景中,數(shù)據(jù)集既包括了剛性物體,如網(wǎng)球,也包括了可變形物體,如玩具。辦公和工業(yè)場景則包含了需要精確控制的小物體,如電池和齒輪。多樣化的物體種類不僅增加了數(shù)據(jù)集的復(fù)雜性,也有助于訓(xùn)練能夠在各種環(huán)境下執(zhí)行操作的通用操控策略。

5)語言描述精確:以AI(Gemini)和人工審核相結(jié)合的方式,研究團(tuán)隊為10000條成功軌跡提供詳細(xì)的語言注釋,包括關(guān)鍵物體、重要操作和操作細(xì)節(jié)等。

二、RoboMIND數(shù)據(jù)收集策略:

1)遙操作真機數(shù)據(jù)采集

與通常通過腳本化收集、或者依靠VR設(shè)備的機械運動數(shù)據(jù)不同,RoboMIND的數(shù)據(jù)通過自研的遙操作系統(tǒng)進(jìn)行收集,更自然、連貫和平滑,能夠更好地模擬人類的行為和認(rèn)知過程。對于Franka、UR-5e機器人和模擬機器人,研究團(tuán)隊按照Gello方法的設(shè)置,創(chuàng)建了相應(yīng)的同類遙操作設(shè)備和控制系統(tǒng)。對于AgileX機器人,研究團(tuán)隊采用了內(nèi)建的雙臂遙操作系統(tǒng)。而對于人形機器人“天工”,研究團(tuán)隊結(jié)合使用了Xsens動作捕捉服和Gello風(fēng)格的遙操作設(shè)備。所有數(shù)據(jù)收集工作都在指定的內(nèi)部區(qū)域進(jìn)行,且操作人員的輪換最小化,保持統(tǒng)一的收集節(jié)奏,遵循內(nèi)部標(biāo)準(zhǔn),從而提高數(shù)據(jù)集的質(zhì)量。

2)智能數(shù)據(jù)平臺管理

隨著收集數(shù)據(jù)量的增長,數(shù)據(jù)的高效記錄、傳輸、管理和分析成為了一個重大挑戰(zhàn)。為了支持具身智能系統(tǒng)的設(shè)計和開發(fā),研究團(tuán)隊開發(fā)了一個智能數(shù)據(jù)平臺,該平臺采用云原生架構(gòu)和分布式計算,可進(jìn)行大規(guī)模數(shù)據(jù)處理,提供以下四大功能模塊:

1.數(shù)據(jù)收集:包括實時數(shù)據(jù)傳輸、收集設(shè)備管理等功能2.數(shù)據(jù)存儲:支持PB級存儲,能處理結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)3.數(shù)據(jù)管理:包括數(shù)據(jù)清洗、質(zhì)量評估和版本控制4.數(shù)據(jù)處理與分析:對收集的數(shù)據(jù)進(jìn)行分析與處理

3)數(shù)據(jù)質(zhì)檢

由于所有數(shù)據(jù)都來源于操作員實時控制系統(tǒng),可能會因為操作員的身體限制(如疲勞、習(xí)慣、注意力分散或外部干擾)而導(dǎo)致錯誤。為了減輕這些問題,研究團(tuán)隊通過輪換系統(tǒng)和提供舒適環(huán)境的方式,幫助操作員保持專注。此外,研究團(tuán)隊還對收集到的所有數(shù)據(jù)進(jìn)行質(zhì)量檢查,以確保其可靠性。研究團(tuán)隊還定義了質(zhì)量保證標(biāo)準(zhǔn),避免不必要的接觸和重復(fù)抓取等問題。質(zhì)量保證過程分為以下三個步驟:

1.初步檢查:快速瀏覽視頻,確保沒有明顯的技術(shù)問題,例如丟幀或凍結(jié)現(xiàn)象;

2.詳細(xì)檢查:逐幀或慢動作分析,確保符合質(zhì)量標(biāo)準(zhǔn);

3.數(shù)據(jù)過濾和問題記錄:記錄不符合標(biāo)準(zhǔn)的數(shù)據(jù)的具體時間戳和描述,并分類處理,便于進(jìn)一步改進(jìn)或處理。

這一系列嚴(yán)格的數(shù)據(jù)收集和質(zhì)量管理流程,確保了數(shù)據(jù)的高質(zhì)量和可靠性,有助于為訓(xùn)練更加精準(zhǔn)和可靠的機器人模型奠定堅實的基礎(chǔ)。

三、RoboMIND數(shù)據(jù)集實驗驗證:

研究團(tuán)隊使用RoboMIND數(shù)據(jù)集,測試了4種目前主流的機器人學(xué)習(xí)模型,分別為ACT、BAKU、RDT-1B和OpenVLA。以下是RoboMIND數(shù)據(jù)集包含的部分任務(wù)樣例:

在單任務(wù)實驗中,研究團(tuán)隊根據(jù)任務(wù)類型、物品類型等,均勻選取了45個代表性任務(wù)進(jìn)行訓(xùn)練和測試,實驗結(jié)果如下:

如上圖所示,研究團(tuán)隊發(fā)現(xiàn)ACT算法在AgileX機器人上對15個任務(wù)的平均成功率為55.3%,其他構(gòu)型上Franka(30.7%)、UR-5e(38.0%)和“天工”(34.0%)。實驗結(jié)果表明,ACT算法在大多數(shù)任務(wù)中至少能夠完成一次成功的任務(wù),這不僅證明了該方法的有效性,還驗證了RoboMIND提供的視覺感知和機器人關(guān)節(jié)信息的準(zhǔn)確性。

此外,ACT算法在一些更為復(fù)雜的“天工”任務(wù)上也取得了不錯的結(jié)果,例如在TK-CloseDrawerLowerCabinet任務(wù)上取得了60%的成功率。這些結(jié)果表明ACT在復(fù)雜的靈巧手操作任務(wù)中表現(xiàn)穩(wěn)健,突顯了RoboMIND數(shù)據(jù)的高質(zhì)量。因此,研究團(tuán)隊認(rèn)為,RoboMIND中包含的單臂、雙臂和靈巧手的數(shù)據(jù)集,能夠作為高質(zhì)量的訓(xùn)練集,提升單任務(wù)模仿學(xué)習(xí)的表現(xiàn),從而推動整個視覺-語言-動作(VLA)模仿學(xué)習(xí)領(lǐng)域的發(fā)展。

在多任務(wù)實驗中,研究團(tuán)隊使用多類不同任務(wù)和技能組合成的多任務(wù)數(shù)據(jù)集,分別測試了RDT-1B和OpenVLA的效果,結(jié)果如下:

?RDT-1B模型:

在多項任務(wù)中表現(xiàn)優(yōu)異,例如在將蘋果放入藍(lán)色盤子中高達(dá)80%成功率。

?OpenVLA模型:展示了良好的任務(wù)適應(yīng)能力,經(jīng)過數(shù)據(jù)集微調(diào)后平均成功率提升10%~30%。

可以看出,RDT-1B和OpenVLA均展現(xiàn)出了一定的多任務(wù)操作能力,經(jīng)過在多種模仿學(xué)習(xí)模型上的測試驗證,通過RoboMIND數(shù)據(jù)集進(jìn)行模型訓(xùn)練,可有效改進(jìn)機器人的操作策略,實現(xiàn)更高的操作成功率,且展現(xiàn)出強大的泛化能力。

結(jié)語:

RoboMIND為機器人操作模型的訓(xùn)練提供了一個高質(zhì)量、廣泛多樣的數(shù)據(jù)基礎(chǔ),旨在提升機器人在復(fù)雜環(huán)境中的操作能力和適應(yīng)性。通過大規(guī)模、多樣化的數(shù)據(jù)集,機器人模型能夠更好地適應(yīng)各種任務(wù)和環(huán)境變化,從而推動通用機器人技術(shù)的發(fā)展。

點擊“下文鏈接”,獲取論文全部內(nèi)容

相關(guān)推薦
免責(zé)聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認(rèn)可。 交易和投資涉及高風(fēng)險,讀者在采取與本文內(nèi)容相關(guān)的任何行動之前,請務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。

熱門文章