国产在线国偷精品产拍免费yy ,91麻豆精品国产91久久久更新时间 ,中文字幕一区二区三区中文字幕

首頁 > AI資訊 > 最新資訊 > 天工開萬物：大模型時代的具身智能新紀(jì)元

天工開萬物：大模型時代的具身智能新紀(jì)元

新火種 2024-11-15

唐劍｜國家地方共建具身智能機(jī)器人創(chuàng)新中心CTO

在硅星人首屆AI創(chuàng)造者大會上，國家地方共建具身智能機(jī)器人創(chuàng)新中心CTO唐劍帶來了具身智能發(fā)展的全新探索與實踐。此次分享以“天工”系列機(jī)器人為例，深入展現(xiàn)了如何在多任務(wù)、多場景中實現(xiàn)機(jī)器人的智慧與靈活操作。中心團(tuán)隊更提出了大模型與具身智能融合的獨特視角，旨在推動智能機(jī)器人真正走入尋常人家，成為日常生活中的得力助手，賦能未來生活的無限可能。

以下為演講實錄：

感謝主持人，也非常感謝組委會的邀請。今天非常榮幸代表我們具身智能機(jī)器人創(chuàng)新中心與大家分享我們最近的一些工作進(jìn)展，以及我們對未來的展望。

這是我分享的提綱。首先，我想解釋一下“天工”這個名字的由來。眾所周知，我們發(fā)布了人形機(jī)器人的名字“天工”，這個名字引用自明代著名學(xué)者宋應(yīng)星的著作《天工開物》，同時，“具身智能體”的一個平臺也叫做“開物”。我首先想解釋一下，如何讓“天工”練成絕世武功，開啟萬物。具身智能分為兩部分：一部分是具身，即人工智能機(jī)器人的典型代表；另一部分是智能。接下來，我將介紹我們在“開物”方面的進(jìn)展和目標(biāo)。

大家可能都看過周星馳在2004年的著名影片《功夫》，里面有一個流行的說法，即要想練成絕世武功，必須打通任督二脈。借助這個比喻，我們?nèi)绾巫寵C(jī)器人練成絕世武功，即操作物理世界的萬物，主要涉及兩個方面：任督二脈，即人機(jī)交互和協(xié)作。雖然不能說完全打通，但隨著像ChatGPT這樣的大模型的出現(xiàn)，我們看到了希望，認(rèn)為在未來有很大的進(jìn)展。所謂的督脈，即機(jī)器人與物理世界的交互，是這個論壇的主題，目前這個方向非?；馃?，被稱為具身智能。如何打通督脈？目前沒有一家公司或科研機(jī)構(gòu)有非常好的解決方案，這也是我們具身智能創(chuàng)新中心研究的重點。

具身智能與機(jī)器人技術(shù)的進(jìn)步

上世紀(jì)80年代，美國學(xué)者莫拉維克提出了莫拉維克悖論。通俗來講，機(jī)器人覺得容易的事情，人類覺得很難；人類覺得難的事情，機(jī)器人覺得比較容易。這就是為什么現(xiàn)在我們看到機(jī)器人能下棋勝過圍棋冠軍，而對于洗衣做飯等簡單的事情，我們目前還沒有大規(guī)模落地的應(yīng)用。這就是為什么以前網(wǎng)上有一個帖子非?；?，質(zhì)疑AI的方向是否搞錯了。我們本來希望AI能洗衣做飯，讓人去寫詩作畫，但現(xiàn)在AI卻在寫詩作畫。我認(rèn)為方向并沒有錯，對于機(jī)器人來說，在千家萬戶洗衣做飯是非常有挑戰(zhàn)性的。因為在非結(jié)構(gòu)化的物理世界里，我們很多操作和工作與工廠結(jié)構(gòu)化程度很強的環(huán)境不一樣，場景非常不確定。例如，每家的廚房，無論是中式還是西式，甚至各家的中式廚房也都不太一樣。

此外，我們在物理世界中的這些工作和任務(wù)流程并不固定。我想沒有人會給做飯寫一個標(biāo)準(zhǔn)操作程序（SOP），規(guī)定第一步一定要做什么，第二步一定要做什么，也沒有人嚴(yán)格按照SOP來工作。還有多種物品，在開放的物理世界中，哪怕一個杯子都有上千萬種，沒有人能說得清楚有多少種杯子。還有整個操作過程中可能出現(xiàn)的各種失誤情況，這也是為什么自動駕駛大家都很清楚，從2004年開始研究，到現(xiàn)在近20年了，還沒有完全實現(xiàn)。因為開車這件事情，在路上會遇到各種各樣突發(fā)的情況，都必須能解決才行，這是極具挑戰(zhàn)性的。

從數(shù)據(jù)智能到具身智能

我們也注意到AI發(fā)展的一個大趨勢，即如何將AI應(yīng)用于物理世界，解決物理世界的問題。整個趨勢也是從原先聚焦數(shù)據(jù)智能，到現(xiàn)在很多人關(guān)注具身智能，包括李飛飛提出的空間智能概念，也有異曲同工之妙。這是我們創(chuàng)新中心目前關(guān)注的重點。

我們將“具身”和“智能”拆分成兩部分，著力研發(fā)的主要產(chǎn)品是天工機(jī)器人。今年4月底，我們發(fā)布了天工1.0版，并在118天內(nèi)快速迭代，迎來了行業(yè)競爭激烈的市場環(huán)境。8月底，我們發(fā)布了天工1.2版的MAX，具體參數(shù)如下：身高約1.73米，與大多數(shù)人相似；體重約60公斤，全身擁有42個自由度。不僅可以行走，還具備奔跑能力，速度可達(dá)每小時7.2公里。此外，手部配備了靈巧手和傳感器，實現(xiàn)了更高的操作精度和感知能力。

稍后我們會正式宣布我們的百臺天工計劃，即以成本價格向高校、科研院所及科研單位出售我們的天工機(jī)器人，并配套開放各類運控、具身智能的接口，同時贈送自研的數(shù)據(jù)采集設(shè)備，可以遠(yuǎn)程操作機(jī)器人采集數(shù)據(jù)，完成各種工作。

另外，我們還有一個服務(wù)機(jī)器人，輪臂機(jī)器人叫做天軼。后續(xù)這個天軼將加上雙臂和靈巧手，完成物理操作。

下面我重點介紹一下我們具身智能另一個非常重要的部分，即智能部分。在大模型時代，如何用AIGC技術(shù)賦能機(jī)器人，也就是我們的開物平臺。稍微講一下歷史，因為我之前在高校做科研，以前有不同的名字，現(xiàn)在比較統(tǒng)一叫做具身智能。在大模型出現(xiàn)之前，做具身智能有兩個方法，主流的路徑：一個叫模仿學(xué)習(xí)，這是一種監(jiān)督學(xué)習(xí)方法，需要大量的數(shù)據(jù)來訓(xùn)練模型，指導(dǎo)機(jī)器人在物理世界完成各種操作。另一個是強化學(xué)習(xí)，模仿學(xué)習(xí)非常像跟著教科書、跟著老師學(xué)習(xí)，強化學(xué)習(xí)非常像實戰(zhàn)派，可能你是一個小白，把你扔在實際環(huán)境中學(xué)習(xí)經(jīng)驗，在物理世界就能做好工作。這是在2021年發(fā)布的頂級期刊文章，在非常簡單的操作桿上面帶著攝像頭，人工的視覺校正，物理世界開門、拉門、關(guān)抽屜，訓(xùn)練機(jī)器人，機(jī)器人可以模仿人類做各種操作。

這是在2018年，也是AI頂級會議上發(fā)表的文章，用8臺KUKA機(jī)械臂，100多種物體，強化學(xué)習(xí)的模型，在這些任務(wù)上達(dá)到比較好的成功率。大家知道在整個監(jiān)督學(xué)習(xí)、強化學(xué)習(xí)中，各自有各自的優(yōu)劣勢。在大模型出現(xiàn)之前，大家做了很多嘗試，因為模型數(shù)據(jù)、算力等各方面的限制，其實都沒有看到非常大規(guī)模的機(jī)器人在物理世界的應(yīng)用，除了在工廠環(huán)境下的工業(yè)機(jī)器人，那些都是流程極其固定，甚至軌跡都非常固定的。除了這個之外，在非結(jié)構(gòu)化、半結(jié)構(gòu)化的物理世界里，沒有大規(guī)模的機(jī)器人應(yīng)用大規(guī)模落地。

大腦加小腦的范式思考

在2022年底，隨著ChatGPT的出現(xiàn)，也掀起了AIGC浪潮。我們整個做機(jī)器人、做具身智能的肯定要思考，這個大模型和機(jī)器人結(jié)合，會產(chǎn)生怎樣的化學(xué)反應(yīng)。我們像ChatGPT這類模型，最強的是它的泛化能力非常強。比如說我基于GPT來做一個問答機(jī)器人，之前我們問答機(jī)器人都是在某個領(lǐng)域，比如說訂票、金融領(lǐng)域的，現(xiàn)在我用GPT這種技術(shù)，能做到非常泛化，你基本上聊不死它，可以一直跟它聊天，有時候答案不準(zhǔn)確，但是把你的知識庫搞好，答案也可以非常準(zhǔn)確。我們想如何用大模型來提高機(jī)器人的泛化能力。所以現(xiàn)在大模型和具身智能相結(jié)合，大家可以看到，比較主流的一種路徑，覺得這條路走通了，所謂大腦加小腦的范式。我在云端部署一個大模型，相當(dāng)于機(jī)器人的大腦，它主要做場景的理解和任務(wù)的拆解，它要理解這個場景都有什么東西，物品之間的關(guān)系、位置如何，以及它們和機(jī)器人相對的位置和關(guān)系如何。另外一個，就是做任務(wù)的拆解，來了一個任務(wù)，要把它拆成更小的、非常細(xì)力度的子任務(wù)，才能對應(yīng)具體任務(wù)的執(zhí)行。小腦可以是一個運行在機(jī)器人身上的智能體，它主要是根據(jù)大腦做的任務(wù)拆解，去做一些具體技能的執(zhí)行，并且做一些錯誤處理。如果發(fā)生失誤了，比如說我抓這個杯子沒有抓起來，我要及時感知到失敗，另外重新去做這個操作。

這邊舉一個具體的例子，用戶的指令是“幫我拷一片面包”。我們大腦拆解子任務(wù)：拿起面包、放入面包機(jī)中、按下面包按鈕、等待、放入盤中。具體的智能體，拆解出來的子任務(wù)，具身智能體在機(jī)器人本體上有一個技能庫，具體的執(zhí)行各種操作。

年底即將發(fā)布的開物平臺

我們在年底會正式發(fā)布我們這個平臺，今年先預(yù)熱一下。其他場合我們CEO也提到，這是一個開物平臺，它是具身智能體，但是它是一個分布式多具身智能體。整個扮演這樣一個角色，有點像操作系統(tǒng)，其實我們對底下層要適配各類硬件，這就是一腦多機(jī)，要支持各種硬件，不只限于天工或者是天軼的平臺。所謂用戶、方案集成商、應(yīng)用方案開發(fā)商，要非常熟悉物流場景或者是醫(yī)療場景，他們在這個基礎(chǔ)上，甚至用簡單的自然語言編程，甚至做一些簡單的低代碼的生成，生成這樣的應(yīng)用，控制機(jī)器人，完成各種操作，這就是所謂的一腦多能。

前面解釋了，我們這個開物是具身智能體，但是它是分布式多具身智能體這樣一個系統(tǒng)。在云有一個Brain Agent完成理解、拆解任務(wù)，把它對應(yīng)到各個原技能上。什么是原技能？原技能是一個動詞，不帶賓語的動詞，比如說打開、拿起、放下等等。但是我覺得這個原技能要分場景做不同的原技能，比如說一個OPEN，不一定在家居場景、或者是工業(yè)場景、或者是物流場景，放之各種場景皆準(zhǔn)，這個非常難。

所以具身智能體扮演的角色跟大模型非常類似，大模型支持人和機(jī)器的交互，它讓我們做人機(jī)交互、人機(jī)協(xié)作的應(yīng)用，問答機(jī)器人非常簡單，投入幾個人，幾天時間就能干出來。我們開物平臺是解決人與物理世界的交互，我們最終目標(biāo)也是希望你投入很小的團(tuán)隊，不一定幾天干出來，這個涉及到更多的維度，比如說在一周或者兩周時間就能做出一個機(jī)器人下地干活，這個也是主要的目標(biāo)。

整個這邊總結(jié)一個特點，我們會用百萬級的軌跡數(shù)據(jù)來訓(xùn)練我們機(jī)器人，讓它有非常強大的泛化能力，所謂讓它能開萬物，能操作各種各樣不同的在物理世界的物體。另外我們是一個雙臂，完成各類操作。同時用原技能向穿珍珠搭積木的方式，適配各種場景，我們希望用這種方式能夠很快適配各種場景，而不需要針對某一個場景下的某一個特定任務(wù)，專門開發(fā)一套程序，這就是整個我們想實現(xiàn)的目的。

另外也是實現(xiàn)在精準(zhǔn)的任務(wù)拆解，包括復(fù)雜任務(wù)，幾十步的任務(wù)都能拆解?？傮w開物的目標(biāo)是降低90%的開發(fā)時間，就像我們現(xiàn)在用GPT，類似的大模型來做一個人機(jī)交互、人機(jī)問答的應(yīng)用，這樣一個APP，我可能用很短的時間，很少的投入就可以做成，這也是我們開物，希望我們作為一個機(jī)器人的應(yīng)用，也能在很短時間內(nèi)完成。

最后也是大家比較感興趣的，現(xiàn)在在跟行業(yè)眾多的機(jī)器人公司一起合作，也是在政府資金支持下，做一個多本體，有各種各樣的機(jī)器人，包括各種各樣的機(jī)械臂，多場景，多任務(wù)的數(shù)據(jù)集。大家知道具身智能非常重要，在網(wǎng)上也看到，前OpenAI首席科學(xué)家蘇茨克維說，他本來想做人工智能，結(jié)果沒有大數(shù)據(jù)，就把這個事情干成了，互聯(lián)網(wǎng)的數(shù)據(jù)不是特別有價值，不是特別有幫助，對于機(jī)器人訓(xùn)練，它需要的是軌跡數(shù)據(jù)。我們現(xiàn)在也在做這個，在年底計劃要發(fā)布30萬條有稠密信息的，包括末端執(zhí)行，以及各個關(guān)節(jié)，七關(guān)節(jié)或者六關(guān)節(jié)，在每個時刻的落地位姿，以及各個傳感器，在每個時刻的讀數(shù)和視覺信息，根據(jù)你自己的需要決定如何訓(xùn)練機(jī)器人。明年年底打算發(fā)布200萬條。

后面是一些關(guān)鍵技術(shù)和國際頂級會議上發(fā)布的學(xué)術(shù)論文，時間關(guān)系簡單過一下。這個是做大腦方面相關(guān)的叫具身指令增強，我們發(fā)現(xiàn)人類指令來了，可能會非常簡單，比如說抓起這個玩具熊，如果做一個簡單的擴(kuò)展，指出相應(yīng)的物品絕對位置，以及它跟機(jī)器人相對的位置，把指令擴(kuò)展以后，我們發(fā)現(xiàn)能極大的提升抓取各類操作的成功率。

第二個工作，也是大家都知道，我們把它擴(kuò)展到多任務(wù)，一個VLA的模型，能執(zhí)行多種任務(wù)。

這個是跟單臂做實驗，現(xiàn)在很多VLA模型，這個是視頻展示多臂實現(xiàn)雙臂真正的協(xié)同操作，而不是左臂干左臂的事，右臂干右臂的事，這個完全可以實現(xiàn)的，我們不會用很多VLA模型，我們一個VLA模型可以覆蓋多種技能。

最后這個工作，我們發(fā)現(xiàn)用RGB-D攝像頭，也是在人形機(jī)器人用的比較廣泛的。我們看到第二行，有些黑色的洞，我們提出一個模型能自動補全這些缺失，從而提升各種任務(wù)的成功率。

最后想分享的是，上世紀(jì)80年代，隨著麥金塔圖形界面的電腦出現(xiàn)，進(jìn)入個人電腦時代，2005、2006年，隨著iPhone智能手機(jī)把人類帶入移動互聯(lián)網(wǎng)時代，每人擁有一臺手機(jī)，我們堅信未來一定是具身智能機(jī)器人時代，千家萬戶，每家有一臺具身智能機(jī)器人。我們也希望和在座的各位伙伴，我們各個同行一起共同努力，推動人類進(jìn)入具身智能機(jī)器人時代。謝謝大家！

Tags:

大模型新紀(jì)元萬物

相關(guān)推薦

免責(zé)聲明: 本文所包含的觀點僅代表作者個人看法，不代表新火種的觀點。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認(rèn)可。交易和投資涉及高風(fēng)險，讀者在采取與本文內(nèi)容相關(guān)的任何行動之前，請務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。

天工開萬物：大模型時代的具身智能新紀(jì)元

不讓視覺語言模型「盲猜」，性能竟直接提升一倍？

真·打字P圖！字節(jié)發(fā)布新模型SeedEdit，一句話爆改世界名畫，可免費體驗

自動駕駛界秋名山車神！CoRL杰出論文讓自駕車學(xué)會漂移，機(jī)器人整出新活

AI解鎖500多年的圣殿，米開朗基羅杰作，你我觸手可及

【明日主題前瞻】行業(yè)巨頭發(fā)布AI機(jī)器人，已進(jìn)入工廠進(jìn)行生產(chǎn)實訓(xùn)

熱門文章

天工開萬物：大模型時代的具身智能新紀(jì)元

不讓視覺語言模型「盲猜」，性能竟直接提升一倍？

真·打字P圖！字節(jié)發(fā)布新模型SeedEdit，一句話爆改世界名畫，可免費體驗

自動駕駛界秋名山車神！CoRL杰出論文讓自駕車學(xué)會漂移，機(jī)器人整出新活

AI解鎖500多年的圣殿，米開朗基羅杰作，你我觸手可及

【明日主題前瞻】行業(yè)巨頭發(fā)布AI機(jī)器人，已進(jìn)入工廠進(jìn)行生產(chǎn)實訓(xùn)

熱門文章

不讓視覺語言模型「盲猜」，性能竟直接提升一倍？

真·打字P圖！字節(jié)發(fā)布新模型SeedEdit，一句話爆改世界名畫，可免費體驗

AI解鎖500多年的圣殿，米開朗基羅杰作，你我觸手可及

【明日主題前瞻】行業(yè)巨頭發(fā)布AI機(jī)器人，已進(jìn)入工廠進(jìn)行生產(chǎn)實訓(xùn)