上海發(fā)布首個(gè)機(jī)器人通用“大腦”:能聽(tīng)懂人話自主思考,掛衣服分這幾步完成
上海人形機(jī)器人再迎重要進(jìn)展。3月10日,智元機(jī)器人發(fā)布智元啟元大模型GO-1(Genie Operator-1),這是全國(guó)首個(gè)通用具身基座大模型,并成功部署到多款機(jī)器人本體。據(jù)悉,GO-1可以利用人類視頻學(xué)習(xí),還能夠在極少數(shù)據(jù)甚至零樣本下,使機(jī)器人適應(yīng)不同場(chǎng)景和任務(wù),降低具身模型的使用門(mén)檻。
基于百萬(wàn)級(jí)真機(jī)數(shù)據(jù)構(gòu)建
“GO-1大模型基于具身領(lǐng)域的數(shù)字金字塔所構(gòu)建,吸納了人類世界多種維度和類型的數(shù)據(jù)。”智元合伙人、具身業(yè)務(wù)部總裁姚卯青向記者展示了一個(gè)數(shù)字金字塔。
智元展示的數(shù)字金字塔。
底層是互聯(lián)網(wǎng)的大規(guī)模純文本與圖文數(shù)據(jù),可以幫助機(jī)器人理解通用知識(shí)和場(chǎng)景,第二層是大規(guī)模人類操作及跨本體視頻,可以幫助機(jī)器人學(xué)習(xí)人類或者其他本體的動(dòng)作操作模式。第三層是仿真數(shù)據(jù),用于增強(qiáng)泛化性,讓機(jī)器人適應(yīng)不同場(chǎng)景、物體等。金字塔的頂層,則是高質(zhì)量的真機(jī)示教數(shù)據(jù),用于訓(xùn)練精準(zhǔn)動(dòng)作執(zhí)行。
但是常規(guī)的VLA(視覺(jué)語(yǔ)言動(dòng)作)架構(gòu),無(wú)法利用大規(guī)模人類及跨本體操作視頻數(shù)據(jù),缺少了一個(gè)重要的數(shù)據(jù)來(lái)源,導(dǎo)致迭代的成本更高,進(jìn)化的速度更慢。
簡(jiǎn)單來(lái)說(shuō),以往的機(jī)器人都是通過(guò)網(wǎng)絡(luò)的圖文數(shù)據(jù)以及仿真數(shù)據(jù)來(lái)“模仿”人的行為,但沒(méi)有真人“手把手”教機(jī)器人遇到各種情況應(yīng)該怎么做。
為解決具身智能的數(shù)據(jù)難題,智元在去年底推出了AgiBot World真機(jī)數(shù)據(jù)集,包含超過(guò)100萬(wàn)條軌跡、涵蓋217個(gè)任務(wù)、涉及五大場(chǎng)景。以此作為基礎(chǔ),智元在今天發(fā)布通用具身基座大模型GO-1。
智元推出首個(gè)具身通用大模型GO-1。
在AgiBot World誕生之前,谷歌也構(gòu)建了一組不同機(jī)器人訓(xùn)練的開(kāi)源數(shù)據(jù)集Open X-Embodiment,但由于大部分?jǐn)?shù)據(jù)缺乏統(tǒng)一標(biāo)準(zhǔn)化的采集流程,質(zhì)量格式參差不齊。
相比之下,智元AgiBot World數(shù)據(jù)集從抓取、放置、推、拉等基礎(chǔ)操作,到攪拌、折疊、熨燙等精細(xì)長(zhǎng)程、雙臂協(xié)同復(fù)雜交互,幾乎涵蓋了日常生活所需的絕大多數(shù)動(dòng)作需求。其長(zhǎng)程數(shù)據(jù)規(guī)模高出10倍,場(chǎng)景范圍覆蓋面擴(kuò)大100倍,數(shù)據(jù)質(zhì)量從實(shí)驗(yàn)室級(jí)上升到工業(yè)級(jí)標(biāo)準(zhǔn)。
“這些機(jī)器人的動(dòng)作數(shù)據(jù)集看似非常基礎(chǔ),沒(méi)有什么炫酷的展示,但數(shù)據(jù)精度和涵蓋面算是全球頂級(jí)的。”上海智元機(jī)器人渠道銷售總監(jiān)劉強(qiáng)表示。
平均成功率提高32%
有了高質(zhì)量的數(shù)據(jù)保障,更可靠的技術(shù)架構(gòu)也要跟上。
為了更好利用這些數(shù)據(jù),智元提出了全新的ViLLA(視覺(jué)語(yǔ)言隱式動(dòng)作)架構(gòu),與VLA架構(gòu)相比,能通過(guò)預(yù)測(cè)Latent Action Tokens(隱式動(dòng)作標(biāo)記),彌合圖像—文本輸入與機(jī)器人執(zhí)行動(dòng)作之間的鴻溝,增強(qiáng)機(jī)器人的泛化能力。
通過(guò)ViLLA架構(gòu),智元機(jī)器人在五種不同復(fù)雜度任務(wù)上測(cè)試GO-1,相比已有的最優(yōu)模型,GO-1成功率大幅領(lǐng)先,平均成功率提高了32%。其中,倒水、清理桌面、補(bǔ)充飲料三項(xiàng)任務(wù)表現(xiàn)尤為突出。這也意味著,GO-1在真實(shí)世界的靈巧操作和長(zhǎng)時(shí)任務(wù)方面表現(xiàn)卓越,遠(yuǎn)遠(yuǎn)超過(guò)最先進(jìn)的開(kāi)源具身基座模型。
測(cè)試結(jié)果顯示,GO-1性能全球領(lǐng)先。
姚卯青表示,GO-1大模型可以幫機(jī)器人完成全面的“基礎(chǔ)教育”和“職業(yè)教育”,天然能適應(yīng)新的場(chǎng)景,可以輕松面對(duì)多種多樣的環(huán)境和物體,快速學(xué)習(xí)新的操作。
他以“掛衣服”為例,模型可以根據(jù)看到的畫(huà)面,理解這句話對(duì)應(yīng)的任務(wù)要求,然后根據(jù)之前訓(xùn)練時(shí)看過(guò)的掛衣服數(shù)據(jù),設(shè)想這個(gè)過(guò)程包括哪些操作步驟,最后執(zhí)行這一連串的步驟,完成整個(gè)任務(wù)的操作。
如果分解來(lái)看,機(jī)器人掛衣服需要分四步走:
第一步:機(jī)器人通過(guò)“互聯(lián)網(wǎng)的大規(guī)模純文本和圖文數(shù)據(jù)”學(xué)習(xí),理解了“掛衣服”這句話在此情此景下的含義和要求;
第二步:機(jī)器人學(xué)習(xí)過(guò)人類操作視頻和其他機(jī)器人的各種操作視頻,知道“掛衣服”這件事包含的所有步驟和環(huán)節(jié);
第三步:由于仿真數(shù)據(jù)中包含不同衣服、不同衣柜、不同房間等場(chǎng)景,機(jī)器人在“仿真世界”中模擬出“掛衣服”所有操作,因此能理解每一個(gè)操作環(huán)節(jié)中對(duì)應(yīng)的物體和環(huán)境。
第四步:通過(guò)預(yù)先學(xué)習(xí)的真人示教數(shù)據(jù),機(jī)器人能精準(zhǔn)完成“掛衣服”整個(gè)任務(wù)的操作。
機(jī)器人“大腦”日漸成熟
GO-1作為通用具身基座大模型,也就是說(shuō),這一大模型不再被機(jī)器人的具體型號(hào)、適用場(chǎng)景束縛,而是具備泛化能力,可以支持不同機(jī)器人快速適應(yīng)新任務(wù)和學(xué)習(xí)新技能。
姚卯青介紹,GO-1大模型可以結(jié)合互聯(lián)網(wǎng)視頻和真實(shí)人類示范進(jìn)行學(xué)習(xí),增強(qiáng)模型對(duì)人類行為的理解。通過(guò)強(qiáng)大的泛化能力,GO-1能夠在極少數(shù)據(jù)甚至零樣本下泛化到新場(chǎng)景、新任務(wù),降低了具身模型的使用門(mén)檻,使得后訓(xùn)練成本非常低。
值得一提的是,GO-1大模型還搭配了智元一整套數(shù)據(jù)回流系統(tǒng),可以從實(shí)際執(zhí)行遇到的問(wèn)題數(shù)據(jù)中持續(xù)進(jìn)化學(xué)習(xí),越用越聰明。
通用大模型與具身智能的結(jié)合,是機(jī)器人邁向AGI(通用人工智能)的必經(jīng)之路,而具身基座大模型也標(biāo)志著機(jī)器人的“大腦”正日漸成熟。
事實(shí)上,十幾年前,機(jī)器人就可以“擦桌子”“拉小提琴”,這似乎不是什么新鮮事。但過(guò)去這些機(jī)器人,只是在完成預(yù)設(shè)程序,并不代表機(jī)器人具備自主完成任務(wù)的能力,或者說(shuō)并不真正具備智能。如今,隨著具身智能的不斷演化,聰明的機(jī)器人已完成“從單一任務(wù)到多種任務(wù)”“從封閉環(huán)境到開(kāi)放世界”“從預(yù)設(shè)程序到指令泛化”的三層進(jìn)化。
“目前,機(jī)器人能夠在不同場(chǎng)景中執(zhí)行多種任務(wù),而不需要針對(duì)每個(gè)新任務(wù)重新訓(xùn)練,也不再局限于預(yù)設(shè)程序,能夠理解自然語(yǔ)言指令,并具備一定推理能力。”姚卯青表示,機(jī)器人一旦“聽(tīng)懂人話”,就能在商業(yè)、工業(yè)、家庭等多領(lǐng)域發(fā)揮更大的作用。
(文章來(lái)源:上觀新聞)
- 免責(zé)聲明
- 本文所包含的觀點(diǎn)僅代表作者個(gè)人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對(duì)本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險(xiǎn),讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前,請(qǐng)務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對(duì)因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢(qián)損失負(fù)任何責(zé)任。