天工開萬物:大模型時代的具身智能新紀(jì)元
唐劍|國家地方共建具身智能機(jī)器人創(chuàng)新中心CTO
在硅星人首屆AI創(chuàng)造者大會上,國家地方共建具身智能機(jī)器人創(chuàng)新中心CTO唐劍帶來了具身智能發(fā)展的全新探索與實踐。此次分享以“天工”系列機(jī)器人為例,深入展現(xiàn)了如何在多任務(wù)、多場景中實現(xiàn)機(jī)器人的智慧與靈活操作。中心團(tuán)隊更提出了大模型與具身智能融合的獨特視角,旨在推動智能機(jī)器人真正走入尋常人家,成為日常生活中的得力助手,賦能未來生活的無限可能。
以下為演講實錄:
感謝主持人,也非常感謝組委會的邀請。今天非常榮幸代表我們具身智能機(jī)器人創(chuàng)新中心與大家分享我們最近的一些工作進(jìn)展,以及我們對未來的展望。
這是我分享的提綱。首先,我想解釋一下“天工”這個名字的由來。眾所周知,我們發(fā)布了人形機(jī)器人的名字“天工”,這個名字引用自明代著名學(xué)者宋應(yīng)星的著作《天工開物》,同時,“具身智能體”的一個平臺也叫做“開物”。我首先想解釋一下,如何讓“天工”練成絕世武功,開啟萬物。具身智能分為兩部分:一部分是具身,即人工智能機(jī)器人的典型代表;另一部分是智能。接下來,我將介紹我們在“開物”方面的進(jìn)展和目標(biāo)。
大家可能都看過周星馳在2004年的著名影片《功夫》,里面有一個流行的說法,即要想練成絕世武功,必須打通任督二脈。借助這個比喻,我們?nèi)绾巫寵C(jī)器人練成絕世武功,即操作物理世界的萬物,主要涉及兩個方面:任督二脈,即人機(jī)交互和協(xié)作。雖然不能說完全打通,但隨著像ChatGPT這樣的大模型的出現(xiàn),我們看到了希望,認(rèn)為在未來有很大的進(jìn)展。所謂的督脈,即機(jī)器人與物理世界的交互,是這個論壇的主題,目前這個方向非?;馃?,被稱為具身智能。如何打通督脈?目前沒有一家公司或科研機(jī)構(gòu)有非常好的解決方案,這也是我們具身智能創(chuàng)新中心研究的重點。
1
具身智能與機(jī)器人技術(shù)的進(jìn)步
上世紀(jì)80年代,美國學(xué)者莫拉維克提出了莫拉維克悖論。通俗來講,機(jī)器人覺得容易的事情,人類覺得很難;人類覺得難的事情,機(jī)器人覺得比較容易。這就是為什么現(xiàn)在我們看到機(jī)器人能下棋勝過圍棋冠軍,而對于洗衣做飯等簡單的事情,我們目前還沒有大規(guī)模落地的應(yīng)用。這就是為什么以前網(wǎng)上有一個帖子非?;?,質(zhì)疑AI的方向是否搞錯了。我們本來希望AI能洗衣做飯,讓人去寫詩作畫,但現(xiàn)在AI卻在寫詩作畫。我認(rèn)為方向并沒有錯,對于機(jī)器人來說,在千家萬戶洗衣做飯是非常有挑戰(zhàn)性的。因為在非結(jié)構(gòu)化的物理世界里,我們很多操作和工作與工廠結(jié)構(gòu)化程度很強的環(huán)境不一樣,場景非常不確定。例如,每家的廚房,無論是中式還是西式,甚至各家的中式廚房也都不太一樣。
此外,我們在物理世界中的這些工作和任務(wù)流程并不固定。我想沒有人會給做飯寫一個標(biāo)準(zhǔn)操作程序(SOP),規(guī)定第一步一定要做什么,第二步一定要做什么,也沒有人嚴(yán)格按照SOP來工作。還有多種物品,在開放的物理世界中,哪怕一個杯子都有上千萬種,沒有人能說得清楚有多少種杯子。還有整個操作過程中可能出現(xiàn)的各種失誤情況,這也是為什么自動駕駛大家都很清楚,從2004年開始研究,到現(xiàn)在近20年了,還沒有完全實現(xiàn)。因為開車這件事情,在路上會遇到各種各樣突發(fā)的情況,都必須能解決才行,這是極具挑戰(zhàn)性的。
1
從數(shù)據(jù)智能到具身智能
我們也注意到AI發(fā)展的一個大趨勢,即如何將AI應(yīng)用于物理世界,解決物理世界的問題。整個趨勢也是從原先聚焦數(shù)據(jù)智能,到現(xiàn)在很多人關(guān)注具身智能,包括李飛飛提出的空間智能概念,也有異曲同工之妙。這是我們創(chuàng)新中心目前關(guān)注的重點。
我們將“具身”和“智能”拆分成兩部分,著力研發(fā)的主要產(chǎn)品是天工機(jī)器人。今年4月底,我們發(fā)布了天工1.0版,并在118天內(nèi)快速迭代,迎來了行業(yè)競爭激烈的市場環(huán)境。8月底,我們發(fā)布了天工1.2版的MAX,具體參數(shù)如下:身高約1.73米,與大多數(shù)人相似;體重約60公斤,全身擁有42個自由度。不僅可以行走,還具備奔跑能力,速度可達(dá)每小時7.2公里。此外,手部配備了靈巧手和傳感器,實現(xiàn)了更高的操作精度和感知能力。
稍后我們會正式宣布我們的百臺天工計劃,即以成本價格向高校、科研院所及科研單位出售我們的天工機(jī)器人,并配套開放各類運控、具身智能的接口,同時贈送自研的數(shù)據(jù)采集設(shè)備,可以遠(yuǎn)程操作機(jī)器人采集數(shù)據(jù),完成各種工作。
另外,我們還有一個服務(wù)機(jī)器人,輪臂機(jī)器人叫做天軼。后續(xù)這個天軼將加上雙臂和靈巧手,完成物理操作。
下面我重點介紹一下我們具身智能另一個非常重要的部分,即智能部分。在大模型時代,如何用AIGC技術(shù)賦能機(jī)器人,也就是我們的開物平臺。稍微講一下歷史,因為我之前在高校做科研,以前有不同的名字,現(xiàn)在比較統(tǒng)一叫做具身智能。在大模型出現(xiàn)之前,做具身智能有兩個方法,主流的路徑:一個叫模仿學(xué)習(xí),這是一種監(jiān)督學(xué)習(xí)方法,需要大量的數(shù)據(jù)來訓(xùn)練模型,指導(dǎo)機(jī)器人在物理世界完成各種操作。另一個是強化學(xué)習(xí),模仿學(xué)習(xí)非常像跟著教科書、跟著老師學(xué)習(xí),強化學(xué)習(xí)非常像實戰(zhàn)派,可能你是一個小白,把你扔在實際環(huán)境中學(xué)習(xí)經(jīng)驗,在物理世界就能做好工作。這是在2021年發(fā)布的頂級期刊文章,在非常簡單的操作桿上面帶著攝像頭,人工的視覺校正,物理世界開門、拉門、關(guān)抽屜,訓(xùn)練機(jī)器人,機(jī)器人可以模仿人類做各種操作。
這是在2018年,也是AI頂級會議上發(fā)表的文章,用8臺KUKA機(jī)械臂,100多種物體,強化學(xué)習(xí)的模型,在這些任務(wù)上達(dá)到比較好的成功率。大家知道在整個監(jiān)督學(xué)習(xí)、強化學(xué)習(xí)中,各自有各自的優(yōu)劣勢。在大模型出現(xiàn)之前,大家做了很多嘗試,因為模型數(shù)據(jù)、算力等各方面的限制,其實都沒有看到非常大規(guī)模的機(jī)器人在物理世界的應(yīng)用,除了在工廠環(huán)境下的工業(yè)機(jī)器人,那些都是流程極其固定,甚至軌跡都非常固定的。除了這個之外,在非結(jié)構(gòu)化、半結(jié)構(gòu)化的物理世界里,沒有大規(guī)模的機(jī)器人應(yīng)用大規(guī)模落地。
1
大腦加小腦的范式思考
在2022年底,隨著ChatGPT的出現(xiàn),也掀起了AIGC浪潮。我們整個做機(jī)器人、做具身智能的肯定要思考,這個大模型和機(jī)器人結(jié)合,會產(chǎn)生怎樣的化學(xué)反應(yīng)。我們像ChatGPT這類模型,最強的是它的泛化能力非常強。比如說我基于GPT來做一個問答機(jī)器人,之前我們問答機(jī)器人都是在某個領(lǐng)域,比如說訂票、金融領(lǐng)域的,現(xiàn)在我用GPT這種技術(shù),能做到非常泛化,你基本上聊不死它,可以一直跟它聊天,有時候答案不準(zhǔn)確,但是把你的知識庫搞好,答案也可以非常準(zhǔn)確。我們想如何用大模型來提高機(jī)器人的泛化能力。所以現(xiàn)在大模型和具身智能相結(jié)合,大家可以看到,比較主流的一種路徑,覺得這條路走通了,所謂大腦加小腦的范式。我在云端部署一個大模型,相當(dāng)于機(jī)器人的大腦,它主要做場景的理解和任務(wù)的拆解,它要理解這個場景都有什么東西,物品之間的關(guān)系、位置如何,以及它們和機(jī)器人相對的位置和關(guān)系如何。另外一個,就是做任務(wù)的拆解,來了一個任務(wù),要把它拆成更小的、非常細(xì)力度的子任務(wù),才能對應(yīng)具體任務(wù)的執(zhí)行。小腦可以是一個運行在機(jī)器人身上的智能體,它主要是根據(jù)大腦做的任務(wù)拆解,去做一些具體技能的執(zhí)行,并且做一些錯誤處理。如果發(fā)生失誤了,比如說我抓這個杯子沒有抓起來,我要及時感知到失敗,另外重新去做這個操作。
這邊舉一個具體的例子,用戶的指令是“幫我拷一片面包”。我們大腦拆解子任務(wù):拿起面包、放入面包機(jī)中、按下面包按鈕、等待、放入盤中。具體的智能體,拆解出來的子任務(wù),具身智能體在機(jī)器人本體上有一個技能庫,具體的執(zhí)行各種操作。
1
年底即將發(fā)布的開物平臺
我們在年底會正式發(fā)布我們這個平臺,今年先預(yù)熱一下。其他場合我們CEO也提到,這是一個開物平臺,它是具身智能體,但是它是一個分布式多具身智能體。整個扮演這樣一個角色,有點像操作系統(tǒng),其實我們對底下層要適配各類硬件,這就是一腦多機(jī),要支持各種硬件,不只限于天工或者是天軼的平臺。所謂用戶、方案集成商、應(yīng)用方案開發(fā)商,要非常熟悉物流場景或者是醫(yī)療場景,他們在這個基礎(chǔ)上,甚至用簡單的自然語言編程,甚至做一些簡單的低代碼的生成,生成這樣的應(yīng)用,控制機(jī)器人,完成各種操作,這就是所謂的一腦多能。
前面解釋了,我們這個開物是具身智能體,但是它是分布式多具身智能體這樣一個系統(tǒng)。在云有一個Brain Agent完成理解、拆解任務(wù),把它對應(yīng)到各個原技能上。什么是原技能?原技能是一個動詞,不帶賓語的動詞,比如說打開、拿起、放下等等。但是我覺得這個原技能要分場景做不同的原技能,比如說一個OPEN,不一定在家居場景、或者是工業(yè)場景、或者是物流場景,放之各種場景皆準(zhǔn),這個非常難。
所以具身智能體扮演的角色跟大模型非常類似,大模型支持人和機(jī)器的交互,它讓我們做人機(jī)交互、人機(jī)協(xié)作的應(yīng)用,問答機(jī)器人非常簡單,投入幾個人,幾天時間就能干出來。我們開物平臺是解決人與物理世界的交互,我們最終目標(biāo)也是希望你投入很小的團(tuán)隊,不一定幾天干出來,這個涉及到更多的維度,比如說在一周或者兩周時間就能做出一個機(jī)器人下地干活,這個也是主要的目標(biāo)。
整個這邊總結(jié)一個特點,我們會用百萬級的軌跡數(shù)據(jù)來訓(xùn)練我們機(jī)器人,讓它有非常強大的泛化能力,所謂讓它能開萬物,能操作各種各樣不同的在物理世界的物體。另外我們是一個雙臂,完成各類操作。同時用原技能向穿珍珠搭積木的方式,適配各種場景,我們希望用這種方式能夠很快適配各種場景,而不需要針對某一個場景下的某一個特定任務(wù),專門開發(fā)一套程序,這就是整個我們想實現(xiàn)的目的。
另外也是實現(xiàn)在精準(zhǔn)的任務(wù)拆解,包括復(fù)雜任務(wù),幾十步的任務(wù)都能拆解??傮w開物的目標(biāo)是降低90%的開發(fā)時間,就像我們現(xiàn)在用GPT,類似的大模型來做一個人機(jī)交互、人機(jī)問答的應(yīng)用,這樣一個APP,我可能用很短的時間,很少的投入就可以做成,這也是我們開物,希望我們作為一個機(jī)器人的應(yīng)用,也能在很短時間內(nèi)完成。
最后也是大家比較感興趣的,現(xiàn)在在跟行業(yè)眾多的機(jī)器人公司一起合作,也是在政府資金支持下,做一個多本體,有各種各樣的機(jī)器人,包括各種各樣的機(jī)械臂,多場景,多任務(wù)的數(shù)據(jù)集。大家知道具身智能非常重要,在網(wǎng)上也看到,前OpenAI首席科學(xué)家蘇茨克維說,他本來想做人工智能,結(jié)果沒有大數(shù)據(jù),就把這個事情干成了,互聯(lián)網(wǎng)的數(shù)據(jù)不是特別有價值,不是特別有幫助,對于機(jī)器人訓(xùn)練,它需要的是軌跡數(shù)據(jù)。我們現(xiàn)在也在做這個,在年底計劃要發(fā)布30萬條有稠密信息的,包括末端執(zhí)行,以及各個關(guān)節(jié),七關(guān)節(jié)或者六關(guān)節(jié),在每個時刻的落地位姿,以及各個傳感器,在每個時刻的讀數(shù)和視覺信息,根據(jù)你自己的需要決定如何訓(xùn)練機(jī)器人。明年年底打算發(fā)布200萬條。
后面是一些關(guān)鍵技術(shù)和國際頂級會議上發(fā)布的學(xué)術(shù)論文,時間關(guān)系簡單過一下。這個是做大腦方面相關(guān)的叫具身指令增強,我們發(fā)現(xiàn)人類指令來了,可能會非常簡單,比如說抓起這個玩具熊,如果做一個簡單的擴(kuò)展,指出相應(yīng)的物品絕對位置,以及它跟機(jī)器人相對的位置,把指令擴(kuò)展以后,我們發(fā)現(xiàn)能極大的提升抓取各類操作的成功率。
第二個工作,也是大家都知道,我們把它擴(kuò)展到多任務(wù),一個VLA的模型,能執(zhí)行多種任務(wù)。
這個是跟單臂做實驗,現(xiàn)在很多VLA模型,這個是視頻展示多臂實現(xiàn)雙臂真正的協(xié)同操作,而不是左臂干左臂的事,右臂干右臂的事,這個完全可以實現(xiàn)的,我們不會用很多VLA模型,我們一個VLA模型可以覆蓋多種技能。
最后這個工作,我們發(fā)現(xiàn)用RGB-D攝像頭,也是在人形機(jī)器人用的比較廣泛的。我們看到第二行,有些黑色的洞,我們提出一個模型能自動補全這些缺失,從而提升各種任務(wù)的成功率。
最后想分享的是,上世紀(jì)80年代,隨著麥金塔圖形界面的電腦出現(xiàn),進(jìn)入個人電腦時代,2005、2006年,隨著iPhone智能手機(jī)把人類帶入移動互聯(lián)網(wǎng)時代,每人擁有一臺手機(jī),我們堅信未來一定是具身智能機(jī)器人時代,千家萬戶,每家有一臺具身智能機(jī)器人。我們也希望和在座的各位伙伴,我們各個同行一起共同努力,推動人類進(jìn)入具身智能機(jī)器人時代。謝謝大家!
- 免責(zé)聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認(rèn)可。 交易和投資涉及高風(fēng)險,讀者在采取與本文內(nèi)容相關(guān)的任何行動之前,請務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。