人類淪為工具人!斯坦福機(jī)器人“吸星大法”:從演示中轉(zhuǎn)移技能,400美元打破訓(xùn)練數(shù)據(jù)悖論
斯坦福最新“技能轉(zhuǎn)移”大法,讓人類淪為給機(jī)器人提供訓(xùn)練數(shù)據(jù)的工具人。
小哥拿上機(jī)械手做示范,機(jī)器人就能從收集到的數(shù)據(jù)中學(xué)會(huì)刷碗,并且能隨機(jī)應(yīng)變。
打開水龍頭、抓取盤子、用百潔布清洗一氣呵成,外界干擾使壞也不怕。
整套系統(tǒng)從硬件到代碼完全開源,成本只需400美元,就可以在沒有機(jī)器人的情況下收集訓(xùn)練機(jī)器人所需數(shù)據(jù)。
更詳細(xì)的3D打印、組裝教程視頻也即將發(fā)布。
要知道,在這項(xiàng)工作之前要想大規(guī)模訓(xùn)練機(jī)器人be like:
對此,李飛飛團(tuán)隊(duì)具身智能成果VoxPoser一作黃文龍表示:驚人的工作,破解了機(jī)器人數(shù)據(jù)收集中的先有雞先有蛋難題。
有網(wǎng)友覺得,這項(xiàng)工作和之前爆火的斯坦福家務(wù)機(jī)器人ALOHA等工作同樣令人印象深刻。
實(shí)際上,都是來自斯坦福大學(xué)的兩個(gè)團(tuán)隊(duì),已經(jīng)在實(shí)驗(yàn)室里帶著各自的機(jī)器人對練碰拳、握手了。
破解數(shù)據(jù)的先有雞先有蛋難題
新方法收集數(shù)據(jù)的秘密,就藏在這對手持夾持器里。
左右手各一個(gè)300美元的Go Pro攝像頭,搭配一面鏡子就能得到隱式立體信息,大大節(jié)省成本和重量。
再加上內(nèi)置的慣性傳感器,聯(lián)合優(yōu)化視覺跟蹤和慣性姿態(tài)。
錄好的第一視角演示影像就像這樣:
機(jī)器人學(xué)會(huì)之后,即使照明環(huán)境發(fā)生劇烈變化也絲毫不受影響。
再疊加上人為干擾,機(jī)器人最后也不忘把水龍頭關(guān)好。
除刷碗之外,還展示了疊衣服、擺放餐具和拋物投籃,都是學(xué)習(xí)了人類演示后,機(jī)器人全自主行動(dòng)無遙控,1倍速播放。
通用操作接口
斯坦福的這項(xiàng)研究名為通用操作接口(UMI),是一種數(shù)據(jù)收集和策略學(xué)習(xí)框架,允許將技能從人類演示直接轉(zhuǎn)移到可部署的機(jī)器人策略。
其中硬件,設(shè)計(jì)了一個(gè)手持夾持器,長這樣?jì)饍海?/p>
上面搭載的GoPro運(yùn)動(dòng)相機(jī),是唯一的傳感器和記錄設(shè)備,這種設(shè)計(jì)可以最小化人機(jī)觀測空間上的差異,保證策略部署時(shí)的魯棒性,同時(shí)也簡化了硬件搭建。
相機(jī)配有155°寬視角魚眼鏡頭,可以收集足夠的視覺上下文和關(guān)鍵深度信息。相機(jī)的兩邊還配有兩塊物理側(cè)鏡,用于提供隱式的立體視角,輔助深度估計(jì)。
下圖中綠色框圈出的部分就是側(cè)鏡在相機(jī)鏡頭上的顯示:
結(jié)合內(nèi)置的IMU傳感器,UMI能夠在快速運(yùn)動(dòng)下穩(wěn)健跟蹤,即使在運(yùn)動(dòng)模糊或視覺特征缺失時(shí)也能在短時(shí)間內(nèi)保持跟蹤。
并且,可以通過視覺標(biāo)記實(shí)時(shí)檢測夾持器張開寬度,進(jìn)行精細(xì)和連續(xù)的抓取控制,同時(shí)可隱式檢測抓取力度。
總的來說,UMI夾持器的重量為780克,其中3D打印的夾持器材料成本為73美元,GoPro相機(jī)及配件的總成本為298美元。
可謂集便攜、低成本、信息豐富的數(shù)據(jù)收集于一身,在任何家庭或餐廳,2分鐘內(nèi)就可以開始進(jìn)行數(shù)據(jù)收集。
再來看策略接口設(shè)計(jì)。
UMI在觀測和推理時(shí)間上可能會(huì)有延遲,為此研究人員進(jìn)行了延遲匹配。
具體來說,測量不同數(shù)據(jù)流的延遲將其對齊到最大延遲,通過圖像時(shí)間戳進(jìn)行線性插值,獲得同步觀測序列;測量機(jī)械臂和手持夾持器延遲,提前對應(yīng)時(shí)間發(fā)送控制指令。
此外,作為策略輸入的端效器(機(jī)械臂)位姿狀態(tài)采用的是相對位姿序列的表示方法,所以與機(jī)器人基座的位置無關(guān),可跨多個(gè)機(jī)器人平臺(tái)部署,不需要重新訓(xùn)練或校準(zhǔn)。
憑借多樣化操作數(shù)據(jù)集,UMI能訓(xùn)練出一個(gè)擴(kuò)散策略(Diffusion Policy),實(shí)現(xiàn)零樣本泛化到新環(huán)境和對象,使得機(jī)器人在新環(huán)境下執(zhí)行任務(wù),也能展示出高度的適應(yīng)性和靈活性。
擴(kuò)散策略基于團(tuán)隊(duì)之前的研究成果,把擴(kuò)散模型用于機(jī)器人視覺運(yùn)動(dòng)策略學(xué)習(xí),可優(yōu)雅地處理多模態(tài)動(dòng)作分布、適用于高維動(dòng)作空間以及表現(xiàn)出令人印象深刻的訓(xùn)練穩(wěn)定性。
做到即使是水上作業(yè)也游刃有余:
斯隆獎(jiǎng)得主領(lǐng)銜
UMI來自斯坦福大學(xué) 、哥倫比亞大學(xué) 、豐田研究院聯(lián)合團(tuán)隊(duì)。
通訊作者為斯隆獎(jiǎng)得主、斯坦福助理教授、哥倫比亞大學(xué)兼職副教授宋舒然,兩位共同一作都是宋舒然的博士生。
論文公布后,她還補(bǔ)充總結(jié)了在這個(gè)項(xiàng)目中學(xué)到的三件事:
通過正確的硬件設(shè)計(jì),腕戴式相機(jī)足以應(yīng)對具有挑戰(zhàn)性的操作任務(wù)。通過合適的策略接口,可以實(shí)現(xiàn)跨實(shí)體(cross-embodiment)的策略。如果數(shù)據(jù)合適,行為克隆(BC)可以實(shí)現(xiàn)泛化。
共同一作Cheng Chi(遲宬),哥倫比亞大學(xué)博士生及斯坦福Student of New Faculty。
共同一作上交大校友Zhenjia Xu,哥倫比亞大學(xué)博士生及斯坦福大學(xué)機(jī)器人與具身智能實(shí)驗(yàn)室 (REAL)成員。
Cheng Chi認(rèn)為,新方法在大多數(shù)任務(wù)上實(shí)現(xiàn)了70-90%的成功率,但仍然沒有達(dá)到商業(yè)部署的標(biāo)準(zhǔn)。
最后還自曝了一波UMI系統(tǒng)的翻車集錦。
可以看出,機(jī)器人在真實(shí)場景中還會(huì)碰到很多意想不到的問題,但這回新方法啟動(dòng)了數(shù)據(jù)飛輪,解決也只是時(shí)間問題。
- 免責(zé)聲明
- 本文所包含的觀點(diǎn)僅代表作者個(gè)人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險(xiǎn),讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前,請務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。