清華趙明國(guó):智能人形機(jī)器人≠智能+人形|智者訪談
來(lái)源:機(jī)器之心Pro
人工智能的卓越發(fā)展
源于對(duì)技術(shù)與產(chǎn)業(yè)本質(zhì)的洞察
機(jī)器之心視頻欄目「智者訪談」
邀請(qǐng)領(lǐng)域?qū)<遥聪ず诵内厔?shì)
深化行業(yè)認(rèn)知,激發(fā)創(chuàng)新思考
與智者同行,共創(chuàng) AI 未來(lái)

2024 年,人形機(jī)器人領(lǐng)域迎來(lái)爆發(fā)式增長(zhǎng)。特斯拉 Optimus 的持續(xù)迭代、OpenAI 對(duì) 1X 的戰(zhàn)略投資,眾多初創(chuàng)公司異軍突起,以及包括 Mobile ALOHA 在內(nèi)學(xué)術(shù)界的不斷創(chuàng)新,共同描繪出一幅激動(dòng)人心的未來(lái)圖景。
技術(shù)進(jìn)步的浪潮固然令人振奮,但保持清醒和冷靜,在開放探索的基礎(chǔ)上,審慎選擇最符合時(shí)代需求和技術(shù)發(fā)展規(guī)律的路徑,才是引領(lǐng)人形機(jī)器人走向成熟的關(guān)鍵。
本期機(jī)器之心《智者訪談》邀請(qǐng)到清華大學(xué)自動(dòng)化系研究員、機(jī)器人控制實(shí)驗(yàn)室主任趙明國(guó)教授,從運(yùn)動(dòng)控制的視角看人形機(jī)器人發(fā)展。趙明國(guó)教授在機(jī)器人控制領(lǐng)域有二十多年的研究與實(shí)踐,他認(rèn)為當(dāng)前人形機(jī)器人領(lǐng)域呈現(xiàn)出如春秋戰(zhàn)國(guó)般多元化的發(fā)展態(tài)勢(shì),這既是蓬勃發(fā)展的象征,也潛藏著方向迷失的風(fēng)險(xiǎn)。
趙明國(guó)教授強(qiáng)調(diào),「智能人形機(jī)器人」不能只是「智能」和「人形機(jī)器人」的簡(jiǎn)單疊加,而應(yīng)當(dāng)是一個(gè)全新的研究主題和技術(shù)范疇,需要機(jī)器人學(xué)和人工智能兩個(gè)領(lǐng)域更深層次的融合,制造能夠在復(fù)雜環(huán)境中自主適應(yīng)和學(xué)習(xí)的智能體。
對(duì)大模型技術(shù)在機(jī)器人控制領(lǐng)域的應(yīng)用,趙教授認(rèn)為單純依賴「大腦」解決運(yùn)動(dòng)控制問(wèn)題并不合理。人類的運(yùn)動(dòng)控制是一個(gè)復(fù)雜的多層次系統(tǒng),涉及本體反射、中樞控制和大腦控制等多個(gè)層面。我們需要更深入地研究生物系統(tǒng)的運(yùn)動(dòng)控制機(jī)理,重新思考機(jī)器人控制系統(tǒng)的架構(gòu),并探索更有效的學(xué)習(xí)和優(yōu)化方法。
趙教授主張技術(shù)的先進(jìn)性并不等同于實(shí)用性,只有與時(shí)代需求和經(jīng)濟(jì)發(fā)展相匹配的技術(shù),才能真正落地生根,開花結(jié)果。例如,維納控制論中的很多思想因?yàn)檫^(guò)于超前而未能對(duì)早期的計(jì)算機(jī)和人工智能起到重大的推動(dòng)作用。
那么,究竟什么樣的技術(shù)路線才能最終勝出?人形機(jī)器人的未來(lái)又將如何演變?點(diǎn)擊觀看視頻,讓我們一同探索。
訪談視頻:
訪談文字整理
機(jī)器之心:趙明國(guó)教授好,非常高興您做客機(jī)器之心的《智者訪談》。近年來(lái),隨著具身智能和大語(yǔ)言模型的迅速發(fā)展,公眾對(duì)于如何實(shí)現(xiàn)智能機(jī)器人的討論熱度空前。今天我們很高興能與您從運(yùn)動(dòng)控制的視角探討人形機(jī)器人的發(fā)展前景。
談及人形機(jī)器人,人們往往會(huì)聯(lián)想到幾家著名企業(yè),比如專注于機(jī)器人運(yùn)動(dòng)控制和硬件設(shè)計(jì)的波士頓動(dòng)力,以及憑借在人工智能和大數(shù)據(jù)方面的優(yōu)勢(shì)進(jìn)軍人形機(jī)器人領(lǐng)域的特斯拉。
趙明國(guó):事實(shí)上,在波士頓動(dòng)力之前,日本本田公司就已經(jīng)在人形機(jī)器人領(lǐng)域做出了開創(chuàng)性的貢獻(xiàn)。波士頓動(dòng)力主要專注于提升機(jī)器人的運(yùn)動(dòng)控制能力,而特斯拉則依托其在自動(dòng)駕駛技術(shù)和先進(jìn)器件方面的優(yōu)勢(shì),更多從制造業(yè)和供應(yīng)鏈的角度切入,為人形機(jī)器人的發(fā)展帶來(lái)了全新的思路。這種方法讓許多人認(rèn)為,如果未來(lái)機(jī)器人要實(shí)現(xiàn)大規(guī)模應(yīng)用,特斯拉的路線可能更符合當(dāng)前技術(shù)發(fā)展的趨勢(shì),因此也有不少企業(yè)選擇追隨特斯拉的發(fā)展路徑。
然而,這并不意味著波士頓動(dòng)力或本田的技術(shù)路線就失去了重要性。我認(rèn)為這些不同路線都有其價(jià)值,因?yàn)榧夹g(shù)的進(jìn)步是一個(gè)漸進(jìn)的過(guò)程,需要一代又一代的積累和發(fā)展。除了企業(yè)的努力,學(xué)術(shù)界也在不斷提出新的理論和方法。目前,許多公司,包括一些創(chuàng)業(yè)團(tuán)隊(duì),正在嘗試將學(xué)術(shù)界的研究成果與本田、波士頓動(dòng)力和特斯拉等公司的技術(shù)應(yīng)用相結(jié)合,探索新的發(fā)展方向。
當(dāng)前人形機(jī)器人領(lǐng)域的發(fā)展?fàn)顩r,可以比作春秋戰(zhàn)國(guó)時(shí)期,雖然存在幾個(gè)主流的技術(shù)路線,但更多呈現(xiàn)出百花齊放的局面。
01、白馬非馬:智能人形機(jī)器人不只是
智能與人形機(jī)器人的簡(jiǎn)單疊加
機(jī)器之心:眾所周知,運(yùn)動(dòng)控制是建立在明確的運(yùn)動(dòng)學(xué)和力學(xué)原理基礎(chǔ)之上,在數(shù)學(xué)和工程方面具有嚴(yán)謹(jǐn)性。相比之下,人工智能具備自適應(yīng)和自學(xué)習(xí)能力,尤其在處理復(fù)雜問(wèn)題時(shí),AI 常能發(fā)現(xiàn)人類難以想到的解決方案。然而,這種特性也帶來(lái)了可解釋性的挑戰(zhàn)。
波士頓動(dòng)力的機(jī)器人在運(yùn)動(dòng)控制方面表現(xiàn)卓越,同時(shí)也展現(xiàn)了高度的智能。例如,配備機(jī)械臂的 Spot 機(jī)器人在物體識(shí)別和抓取方面表現(xiàn)出色。另一方面,以 AI 技術(shù)見長(zhǎng)的特斯拉在硬件領(lǐng)域也投入了大量資源。您一直強(qiáng)調(diào)將運(yùn)動(dòng)控制與人工智能相結(jié)合的重要性,在發(fā)展人形機(jī)器人方面,我們可以從這些公司的實(shí)踐中獲得哪些啟示?
趙明國(guó):人形機(jī)器人與人工智能的結(jié)合可以采取多種方式。其中一種是兩個(gè)領(lǐng)域各自發(fā)展,然后將各自的優(yōu)勢(shì)整合。但除此之外,還存在其他途徑。以波士頓動(dòng)力為例,他們?cè)鴱?qiáng)調(diào)專注于運(yùn)動(dòng)控制而不涉足人工智能,但實(shí)際上他們也運(yùn)用了一些智能的方法。不過(guò),他們的核心在于解決運(yùn)動(dòng)控制問(wèn)題,如行走、奔跑和跳躍等,只不過(guò)在解決這些問(wèn)題時(shí),他們采用的方法可以是傳統(tǒng)的運(yùn)動(dòng)控制技術(shù),也可以是智能的方法。
同樣,專注于人工智能的公司在解決智能問(wèn)題時(shí),也會(huì)使用機(jī)器人作為載體。例如,進(jìn)行對(duì)話交互時(shí),可以選擇人形機(jī)器人,也可以選擇智能音箱,這對(duì)智能本身的影響并不顯著,核心問(wèn)題在于能否實(shí)現(xiàn)順暢的人機(jī)交互。
然而,要將人工智能與人形機(jī)器人真正深度融合,就像「白馬非馬」這個(gè)哲學(xué)命題一樣,需要?jiǎng)?chuàng)造出一個(gè)全新的事物。智能人形機(jī)器人必然不同于傳統(tǒng)意義上的智能系統(tǒng),也不同于常規(guī)的人形機(jī)器人,而是一個(gè)更深層次融合后的獨(dú)立存在。
我認(rèn)為「具身智能」這個(gè)概念較為貼合這種場(chǎng)景。在這種情況下,我們期望機(jī)器人能展現(xiàn)出行為層面的智能,不僅能夠在各種復(fù)雜地形上行走,還能在面對(duì)干擾時(shí)完成任務(wù),表現(xiàn)出智能化的行為。例如,機(jī)器人應(yīng)該能夠避開障礙物,在動(dòng)態(tài)環(huán)境中規(guī)劃路徑,比如開門這個(gè)典型案例,包括應(yīng)對(duì)不同形狀、不同類型的門,同時(shí)能制定策略繞過(guò)中間的障礙物,或者在有其他人同時(shí)開門時(shí)做出規(guī)避或讓步等行為。在手部操作方面,這樣的例子更為豐富,因?yàn)槿祟惔蟛糠植僮鞫际峭ㄟ^(guò)手來(lái)完成的。
這是一個(gè)全新的研究主題——如何讓機(jī)器人展現(xiàn)智能。這需要機(jī)器人學(xué)和人工智能兩個(gè)領(lǐng)域進(jìn)行更深層次的融合,而不僅僅是一個(gè)領(lǐng)域借用另一個(gè)領(lǐng)域的技術(shù)來(lái)提升自身。我們需要將兩者有機(jī)結(jié)合,創(chuàng)造出一個(gè)全新的技術(shù)范疇。
機(jī)器之心:您的觀點(diǎn)非常具有啟發(fā)性,但似乎目前很少有人從這個(gè)角度來(lái)探討這個(gè)問(wèn)題。
趙明國(guó):這實(shí)際上取決于不同的視角,我只是試圖將問(wèn)題闡述得更加清晰。無(wú)論采用何種方法,要開發(fā)出這種新型機(jī)器人,我們需要考慮幾個(gè)關(guān)鍵。
首先是腿部的智能;其次是手部的智能,包括手指和手臂的智能,手臂負(fù)責(zé)運(yùn)動(dòng),手指負(fù)責(zé)實(shí)際的抓取和操作。在進(jìn)行手部操作時(shí),腿部通常也在運(yùn)動(dòng),這需要手足協(xié)調(diào)。除此之外,還有一些全身性的智能,如騎自行車、攀巖,以及前面提到的開門,這些活動(dòng)強(qiáng)調(diào)全身的協(xié)調(diào)。從運(yùn)動(dòng)能力的角度來(lái)看,有些智能機(jī)器人可能更側(cè)重于腿部功能,有些更注重手部功能,還有一些可能側(cè)重全身運(yùn)動(dòng),也可能是這三個(gè)領(lǐng)域的不同組合。
在早期階段,我認(rèn)為可以為這三個(gè)領(lǐng)域分別選取一些典型案例作為代表,用它們來(lái)推動(dòng)技術(shù)發(fā)展,并作為標(biāo)準(zhǔn)測(cè)試平臺(tái)。如果一個(gè)機(jī)器人能夠完成特定任務(wù),就意味著相關(guān)技術(shù)已經(jīng)取得突破,能夠?qū)崿F(xiàn)某些功能了。我們可以從一個(gè)領(lǐng)域開始,逐步擴(kuò)展到兩個(gè),最終實(shí)現(xiàn)三個(gè)領(lǐng)域的突破,然后再考慮實(shí)際應(yīng)用。
當(dāng)然,也有團(tuán)隊(duì)選擇直接從應(yīng)用需求出發(fā),通過(guò)反向推導(dǎo)來(lái)進(jìn)行開發(fā)。目前業(yè)界還沒(méi)有形成共識(shí),各種方法都有人在嘗試。但從最基本的邏輯看,無(wú)非就是這三個(gè)領(lǐng)域的不同組合。
02、雙足運(yùn)動(dòng)控制難點(diǎn):
學(xué)習(xí)與優(yōu)化的結(jié)合
機(jī)器之心:您在仿人機(jī)器人雙足步態(tài)控制領(lǐng)域擁有 20 余年的研究實(shí)踐和經(jīng)驗(yàn),見證了技術(shù)的幾代變遷。雙足控制一直是機(jī)器人研究中的一個(gè)難點(diǎn),您認(rèn)為目前該領(lǐng)域面臨的主要技術(shù)瓶頸是什么?
趙明國(guó):這個(gè)領(lǐng)域確實(shí)經(jīng)歷了一個(gè)漫長(zhǎng)的發(fā)展過(guò)程。傳統(tǒng)上,研究者傾向于從仿生角度來(lái)解決這個(gè)問(wèn)題,但由于仿生機(jī)理尚未完全掌握,最初出現(xiàn)的是一些簡(jiǎn)化模型。這些模型雖與人體某些運(yùn)動(dòng)相關(guān),但并不完全相同,它們借鑒了人體生理學(xué)的某些特征,如倒立擺模型。這些簡(jiǎn)化模型雖然維度較低,但在當(dāng)時(shí)的計(jì)算機(jī)水平下能夠?qū)崟r(shí)完成計(jì)算,因此在那個(gè)時(shí)期是較為有效的選擇。
我們現(xiàn)在使用的許多方法,如模型預(yù)測(cè)控制(Model-Predictive Control,MPC)和全身控制(Whole-Body Control,WBC),都源自上世紀(jì)。我認(rèn)為真正的突破在于 MPC,它引入了對(duì)未來(lái)進(jìn)行預(yù)測(cè)這一非常重要的概念。這一點(diǎn)在人工智能領(lǐng)域也很重要,即基于某些知識(shí)對(duì)未來(lái)進(jìn)行預(yù)測(cè),兩個(gè)領(lǐng)域在這一點(diǎn)上是共通的。
近期,由于強(qiáng)化學(xué)習(xí)的突破,我們能夠在仿真環(huán)境中進(jìn)行強(qiáng)化學(xué)習(xí),然后將獲得的策略遷移到實(shí)體機(jī)器人上。這一路徑已被證明是可行的,我認(rèn)為這是一個(gè)相當(dāng)重要的貢獻(xiàn)。現(xiàn)在通過(guò)強(qiáng)化學(xué)習(xí)方法,大多數(shù)初創(chuàng)團(tuán)隊(duì)能在幾個(gè)月內(nèi)讓機(jī)器人完成多種復(fù)雜任務(wù),比如運(yùn)動(dòng)恢復(fù)和粗糙地面行走,這些任務(wù)在過(guò)去需要大量時(shí)間和資源才能攻克。
目前的仿真技術(shù)能夠支持大部分運(yùn)動(dòng)學(xué)和動(dòng)力學(xué)的仿真。然而,對(duì)于視覺(jué)和其他多種傳感器的仿真,還無(wú)法達(dá)到與人類感知相媲美的真實(shí)程度。對(duì)環(huán)境的仿真,尤其是彈性物體的仿真,仍有待改進(jìn)。如果這些方面能夠得到顯著提升,這些工具將大大加速整個(gè)研發(fā)過(guò)程。
就人形機(jī)器人而言,如果僅關(guān)注運(yùn)動(dòng)能力,數(shù)據(jù)獲取可能不是特別困難,或者說(shuō)運(yùn)動(dòng)類數(shù)據(jù)具有其特殊性。我個(gè)人認(rèn)為,小規(guī)模數(shù)據(jù)集可能已經(jīng)足夠。但現(xiàn)在面臨的挑戰(zhàn)是,究竟需要什么樣的小規(guī)模數(shù)據(jù)集?這個(gè)問(wèn)題每個(gè)研究者的看法都不盡相同,我認(rèn)為這在很大程度上取決于具體的任務(wù)需求。
2024 年初引發(fā)廣泛關(guān)注的 Mobile ALOHA 項(xiàng)目,沒(méi)有使用仿真,而是通過(guò)遙操作來(lái)獲取真實(shí)場(chǎng)景數(shù)據(jù),直接解決了對(duì)齊和許多中間環(huán)節(jié)的技術(shù)問(wèn)題。在這個(gè)方向上,研究者會(huì)開發(fā)出多種方法來(lái)快速有效地獲取數(shù)據(jù),這是一個(gè)非常明確的發(fā)展趨勢(shì)。
另一種可能的方向是利用積累的大量視頻資源。如果能直接從視頻中獲得機(jī)器人運(yùn)動(dòng)控制所需的數(shù)據(jù),將會(huì)是非常有價(jià)值的。舉例來(lái)說(shuō),中學(xué)生學(xué)習(xí)打籃球時(shí),很多人會(huì)模仿喬丹或科比,他們通過(guò)觀看視頻來(lái)學(xué)習(xí),盡管喬丹和科比并未親自指導(dǎo)他們,他們也沒(méi)有這些球星的任何詳細(xì)數(shù)據(jù)。然而,由于機(jī)器的能力水平還無(wú)法像人類那樣從視頻中學(xué)習(xí),我們不得不通過(guò)仿真或遙操作來(lái)獲取數(shù)據(jù)。不過(guò),對(duì)于完成人形機(jī)器人的某些復(fù)雜運(yùn)動(dòng)來(lái)說(shuō),遙操作方法可能與完成簡(jiǎn)單任務(wù)(如刷盤子)還有所不同,需要綜合考慮視覺(jué)等多個(gè)方面。
機(jī)器之心:您提到機(jī)器的能力還無(wú)法像人類那樣從視頻中學(xué)習(xí),具體是指哪些能力呢?
趙明國(guó):我主要指的是處理數(shù)據(jù)的能力。目前,機(jī)器的視覺(jué)分析能力還不足以從單目相機(jī)拍攝的普通視頻中直接分析出人的準(zhǔn)確三維坐標(biāo),或者將其轉(zhuǎn)換為所需的數(shù)據(jù)格式。
在人形機(jī)器人領(lǐng)域,目前的重點(diǎn)依然是從仿真中獲取數(shù)據(jù)。在仿真的潛力沒(méi)有被完全挖掘或達(dá)到瓶頸之前,研究者肯定會(huì)集中精力在仿真方面深入探索。但是,當(dāng)任務(wù)發(fā)生變化時(shí),仿真的局限性就會(huì)顯現(xiàn)出來(lái),而目前又無(wú)法直接從視頻中獲取所需的數(shù)據(jù)。在這種情況下,像 Mobile ALOHA 使用的方法就非常巧妙,因?yàn)樗鉀Q了數(shù)據(jù)獲取的難題。然而,如果要讓機(jī)器人完成諸如踢足球、打籃球或攀巖等復(fù)雜運(yùn)動(dòng),遙操作的方法可能就不太適用了。隨著研究的不斷深入,我相信還會(huì)出現(xiàn)許多新的技術(shù)手段,最終很可能會(huì)發(fā)展到能夠直接利用視頻數(shù)據(jù)。
體育院校積累了大量運(yùn)動(dòng)數(shù)據(jù),如何有效利用這些數(shù)據(jù)也是一個(gè)值得探討的問(wèn)題。我認(rèn)為這在很大程度上受到數(shù)據(jù)采集和分析手段以及算法的影響。但最終的核心問(wèn)題仍然是如何獲得高質(zhì)量的數(shù)據(jù),以及如何有效利用這些數(shù)據(jù)。這兩個(gè)問(wèn)題都在不斷發(fā)展,但核心邏輯仍然是進(jìn)行學(xué)習(xí)和訓(xùn)練,獲取數(shù)據(jù),然后利用數(shù)據(jù)進(jìn)行訓(xùn)練,這兩個(gè)基本步驟沒(méi)有改變,但在具體實(shí)施細(xì)節(jié)上會(huì)發(fā)生許多技術(shù)上的變革。目前,技術(shù)發(fā)展速度非常快,甚至在一周之內(nèi)就可能產(chǎn)生一些新的突破性結(jié)果。
機(jī)器之心:您曾提到過(guò)工程師在面對(duì)數(shù)據(jù)問(wèn)題時(shí)的思維方式——數(shù)據(jù)不足就增加傳感器,成本受限就減少傳感器,這與傳統(tǒng) AI 研究人員的思考方式有很大不同。
趙明國(guó):傳統(tǒng)上,運(yùn)動(dòng)控制主要依賴于確定性的控制方法,與人工智能的關(guān)聯(lián)并不緊密。然而,當(dāng)機(jī)器人被置于動(dòng)態(tài)環(huán)境中時(shí),單純的控制方法往往難以應(yīng)對(duì)復(fù)雜情況。例如,在線的傳統(tǒng)控制方法可能不符合生物系統(tǒng)的某些特性。在這種情況下,一個(gè)可能的解決方案是引入人工智能,或?qū)⑷斯ぶ悄芘c控制方法相結(jié)合。盡管如此,具體的融合方式仍有待探索。
傳統(tǒng)上,我們習(xí)慣將系統(tǒng)劃分為規(guī)劃、感知和控制等幾個(gè)模塊。近來(lái),端到端網(wǎng)絡(luò)逐漸流行,這種方法可能實(shí)現(xiàn)我們所需的效果。然而,端到端方法下,系統(tǒng)的內(nèi)部結(jié)構(gòu)可能與我們常規(guī)認(rèn)知中的模塊劃分不同。盡管它可能依舊包含類似規(guī)劃、感知、控制的功能,但其劃分方式可能與傳統(tǒng)方法大相徑庭。我認(rèn)為不應(yīng)強(qiáng)求 AI 系統(tǒng)的內(nèi)部結(jié)構(gòu)必須符合傳統(tǒng)認(rèn)知或經(jīng)驗(yàn),關(guān)鍵在于它能否有效地解決問(wèn)題。
我們正處于一個(gè)關(guān)鍵的技術(shù)變革時(shí)期,眾多新的技術(shù)和方法正在誕生。這些新事物的最終形態(tài)以及哪些會(huì)得到廣泛認(rèn)可和普及,目前尚難定論。但可以肯定,一些新的關(guān)于機(jī)器人控制系統(tǒng)的結(jié)構(gòu)必將出現(xiàn)。這可能需要一個(gè)交互式的學(xué)習(xí)過(guò)程:一方面,機(jī)器在不斷學(xué)習(xí)和進(jìn)化;另一方面,人類也在觀察和學(xué)習(xí)機(jī)器如何解決問(wèn)題。我們需要學(xué)習(xí)總結(jié)機(jī)器的這些方法,并將其提升到方法論的層面,這很可能是一個(gè)反復(fù)迭代的過(guò)程。
然而,有一點(diǎn)是比較明確的:如果要在傳統(tǒng)方法的基礎(chǔ)上實(shí)現(xiàn)突破,你會(huì)發(fā)現(xiàn)傳統(tǒng)方法已經(jīng)充分利用了可獲得的信息。許多現(xiàn)有的解決方案已被證明是最優(yōu)的,如果不引入更多的傳感器,本質(zhì)上很難超越原有方法的效果,因?yàn)檫@些方法已經(jīng)達(dá)到了極致,并無(wú)明顯缺陷。除非你改變了問(wèn)題的定義,在這種情況下,你并非是將原問(wèn)題解決得更好,而是改變了問(wèn)題本身。
機(jī)器之心:這意味著評(píng)判標(biāo)準(zhǔn)都發(fā)生了變化。
趙明國(guó):確實(shí)如此。許多頂級(jí)期刊也在討論優(yōu)化控制與學(xué)習(xí)方法產(chǎn)生的效果之間的差異。結(jié)論表明,在某一個(gè)確定的問(wèn)題上,學(xué)習(xí)的方法并不會(huì)比優(yōu)化方法更好,因?yàn)閮?yōu)化是針對(duì)一個(gè)它可以解決的目標(biāo),它一定是做得最好或者最好的之一,但是學(xué)習(xí)可以構(gòu)建一個(gè)比它更好的優(yōu)化問(wèn)題。
對(duì)于優(yōu)化方法而言,你必須明確定義成本函數(shù)和約束條件,而且這些條件必須滿足特定要求才能求解,因此優(yōu)化方法的適用范圍相對(duì)有限。相比之下,學(xué)習(xí)方法所能學(xué)到的策略范圍更為廣泛。
我認(rèn)為硬件本身應(yīng)該引入更多的傳感器。我常舉的一個(gè)典型例子是按開關(guān)。在整個(gè)過(guò)程的前期階段,這個(gè)動(dòng)作主要依賴視覺(jué),視覺(jué)在相當(dāng)長(zhǎng)的一段時(shí)間內(nèi)占據(jù)重要地位。但當(dāng)接近開關(guān)時(shí),即使視覺(jué)精確到 0.1 毫米也無(wú)濟(jì)于事,此時(shí)主要依賴的是觸覺(jué)。當(dāng)觸覺(jué)將開關(guān)按到一定程度后,觸覺(jué)的重要性也隨之降低。最終判斷開關(guān)是否啟動(dòng),可能需要依靠聽覺(jué)(聽到開關(guān)的聲響),同時(shí)還需要視覺(jué)確認(rèn)燈光的變化。需要指出,這里所需的視覺(jué)能力是對(duì)光線瞬間變化的感知,與之前在軌跡規(guī)劃過(guò)程中使用的視覺(jué)能力有所不同。
因此,對(duì)于按開關(guān)這樣一個(gè)看似簡(jiǎn)單的任務(wù),在整個(gè)過(guò)程中,涉及各種不同的感官信號(hào),而且其權(quán)重是動(dòng)態(tài)變化的。開始階段主要依賴運(yùn)動(dòng)和視覺(jué),中間階段更多依賴觸覺(jué),最后階段則可能綜合運(yùn)用聽覺(jué)和另一種形式的視覺(jué)感知。這種動(dòng)態(tài)權(quán)重分配的機(jī)制與人工智能領(lǐng)域的注意力機(jī)制有一定相似之處。
目前的控制方法難以處理如此復(fù)雜的邏輯。雖然 Transformer 等模型在某種程度上實(shí)現(xiàn)了類似的機(jī)制,但它們能否在機(jī)器人控制領(lǐng)域同樣發(fā)揮這種作用仍存疑問(wèn),這是因?yàn)槿祟惖膶?shí)際操作與機(jī)器人的操作之間存在本質(zhì)差異。
目前大多數(shù)機(jī)器人系統(tǒng)實(shí)現(xiàn)的動(dòng)作都只是對(duì)人類一些基本動(dòng)作的模擬,而且模擬的范圍還比較有限。像 ALOHA 這樣的系統(tǒng)很可能是在視覺(jué)層面模仿了人類動(dòng)作的前半部分,在最后階段還難以做到精確控制。這也是為什么某些看似簡(jiǎn)單的任務(wù),比如疊衣服,實(shí)際上非常具有挑戰(zhàn)性,因?yàn)樗粌H需要視覺(jué)信息,還需要觸覺(jué)和其他感官輸入。此外,還需要對(duì)「什么狀態(tài)下衣服算是疊好了」有準(zhǔn)確的認(rèn)知。僅僅依靠手上的攝像頭是無(wú)法獲取所有這些必要信息的。
當(dāng)前的技術(shù)發(fā)展主要聚焦于初級(jí)階段,因?yàn)槿杂?90% 的廣闊領(lǐng)域和眾多新興領(lǐng)域尚待開發(fā)。但隨著研究深入和產(chǎn)業(yè)發(fā)展,最后那 5% 的難點(diǎn)會(huì)變得至關(guān)重要。我相信這些硬骨頭問(wèn)題終將浮出水面,而研究人員將逐一解決。不過(guò),諸如刺繡等精細(xì)操作,或者將金屬加工到極致精密的程度,需要投入更多的精力和成本,但在實(shí)際應(yīng)用中不會(huì)立即產(chǎn)生顯著回報(bào)。因此,短期內(nèi)這些問(wèn)題不會(huì)特別受關(guān)注。然而,一旦主流技術(shù)領(lǐng)域發(fā)展遇到瓶頸,這些精細(xì)化的問(wèn)題可能迅速成為研究熱點(diǎn),并有可能引發(fā)新一輪的技術(shù)突破。
03、用「大腦」解決運(yùn)動(dòng)控制并不合理
機(jī)器之心:大模型的出現(xiàn)引發(fā)了人工智能界的極大熱情,特別是使用 Transformer 架構(gòu)統(tǒng)一表示文本、音頻和圖像等不同模態(tài)的數(shù)據(jù)。這種統(tǒng)一框架的思路是否也適用于人形機(jī)器人?例如,是否有可能將疊衣服、洗碗、切菜、炒菜等日常任務(wù),以及跑步、踢足球、跨欄、跑酷等運(yùn)動(dòng)技能,都整合到一個(gè)統(tǒng)一的框架中進(jìn)行訓(xùn)練?
趙明國(guó):人工智能,尤其是大語(yǔ)言模型和視覺(jué)模型,更多是在解決類似于大腦中的思考問(wèn)題,在邏輯分析和認(rèn)知規(guī)劃方面表現(xiàn)出色。雖然將這種邏輯應(yīng)用于運(yùn)動(dòng)控制確實(shí)可以解決一些問(wèn)題,但根據(jù)我們對(duì)生物學(xué)和控制理論的理解,這種方法并不完全適用,也無(wú)法全面覆蓋。
舉例來(lái)說(shuō),大語(yǔ)言模型基于預(yù)先規(guī)劃所有步驟然后執(zhí)行的邏輯,這實(shí)際上是控制領(lǐng)域上一代的思路。早期的仿生學(xué)將仿生系統(tǒng)劃分為感知、反饋、規(guī)劃和決策幾個(gè)部分。然而,現(xiàn)代生理學(xué)研究表明,生物的神經(jīng)系統(tǒng)在運(yùn)動(dòng)控制上具有復(fù)雜的層次結(jié)構(gòu),而目前的大語(yǔ)言模型并未充分反映這一點(diǎn)。
我認(rèn)為,運(yùn)動(dòng)控制可能需要一套獨(dú)有的結(jié)構(gòu):從硬件層面看,控制頻率極高,需要信號(hào)處理和控制領(lǐng)域的專業(yè)知識(shí)支持;中間層次,如小腦,其頻率處于中等水平;而大腦的多模態(tài)認(rèn)知部分頻率相對(duì)較慢。如何有效地結(jié)合這三個(gè)層次是一個(gè)復(fù)雜的問(wèn)題。簡(jiǎn)單地將它們拼接在一起是不恰當(dāng)?shù)摹S腥颂岢鍪褂靡粋€(gè)大模型模擬大腦,再用另一個(gè)大模型模擬小腦,我認(rèn)為這種方法過(guò)于簡(jiǎn)單化。
人類的神經(jīng)系統(tǒng)及其他靈長(zhǎng)類動(dòng)物的神經(jīng)系統(tǒng)都不是這樣構(gòu)建的。如果只通過(guò)大腦來(lái)控制,效率必然低下。人類的運(yùn)動(dòng)控制包括本體反射、中樞控制和大腦控制,而且大部分運(yùn)動(dòng)更多依賴于本體和中樞。盡管我們對(duì)這方面的認(rèn)知仍然有限,但基于現(xiàn)有知識(shí),很難認(rèn)為僅靠大腦模型就能很好地完成所有任務(wù)。因此,在神經(jīng)系統(tǒng)的仿生領(lǐng)域或控制系統(tǒng)架構(gòu)方面,未來(lái)可能會(huì)出現(xiàn)更先進(jìn)的理論或模型,這是非常值得期待的。
作為一名機(jī)器人研究者,我特別不希望看到機(jī)器人技術(shù)被完全否定,而將所有工作都轉(zhuǎn)移到人工智能領(lǐng)域。這樣做不僅無(wú)法促進(jìn)機(jī)器人技術(shù)本身的發(fā)展,最終結(jié)果也不會(huì)令人滿意。如果人工智能技術(shù)僅僅是滲透到機(jī)器人領(lǐng)域,推動(dòng)機(jī)器人產(chǎn)業(yè)發(fā)展,但機(jī)器人行業(yè)本身的模式不發(fā)生變化,這對(duì)機(jī)器人領(lǐng)域來(lái)說(shuō)并非好消息。從產(chǎn)業(yè)角度來(lái)看,這實(shí)際上是一種降級(jí)。
要實(shí)現(xiàn)真正的升級(jí),機(jī)器人領(lǐng)域應(yīng)該結(jié)合人工智能的發(fā)展,將其作為一種新的模式,同時(shí)提高自身的技術(shù)水平,進(jìn)行升級(jí)換代,使其與人工智能的發(fā)展相匹配。只有這樣,才能產(chǎn)生理想的效果,機(jī)器人領(lǐng)域的專家才能為人形機(jī)器人的發(fā)展做出真正的貢獻(xiàn)。
04、智能機(jī)器人控制系統(tǒng)發(fā)展方向
機(jī)器之心:在構(gòu)建智能機(jī)器人時(shí),我們需要同時(shí)考慮底層的運(yùn)動(dòng)控制和上層的規(guī)劃與決策。您認(rèn)為應(yīng)如何權(quán)衡這兩者?
趙明國(guó):現(xiàn)有的技術(shù)往往機(jī)械地將運(yùn)動(dòng)控制和認(rèn)知決策劃分為底層和上層兩部分。從機(jī)器人研究的角度來(lái)看,我們知道人體的神經(jīng)系統(tǒng)分為大腦、小腦和脊髓三個(gè)主要部分,這三部分具有截然不同的功能,并且有明確的功能分區(qū)。
大腦不僅包含運(yùn)動(dòng)神經(jīng)系統(tǒng),還有負(fù)責(zé)整個(gè)神經(jīng)系統(tǒng)訓(xùn)練的學(xué)習(xí)功能區(qū)。例如,像走路這樣的日常動(dòng)作,實(shí)際上并不需要大腦的直接參與。人體在脊髓中有一個(gè)稱為中樞神經(jīng)的部分,構(gòu)成了中樞神經(jīng)系統(tǒng)。這個(gè)系統(tǒng)通過(guò)各個(gè)關(guān)節(jié)之間的震蕩和相互激勵(lì),完成走路等節(jié)律性運(yùn)動(dòng)。
這些節(jié)律性運(yùn)動(dòng)甚至不需要小腦的大量參與,在脊髓層面就可以完成,而且控制效果相當(dāng)出色。然而,當(dāng)遇到路面障礙物時(shí),視覺(jué)系統(tǒng)就需要介入。視覺(jué)信號(hào)會(huì)激發(fā)控制系統(tǒng),引導(dǎo)身體繞開障礙物。生物體能夠很好地解決這種既能產(chǎn)生節(jié)律性運(yùn)動(dòng),又能產(chǎn)生非節(jié)律性受控運(yùn)動(dòng)的復(fù)雜任務(wù),而現(xiàn)有的機(jī)器人系統(tǒng)尚未具備這種能力。我們要么是針對(duì)節(jié)律性運(yùn)動(dòng)進(jìn)行訓(xùn)練,要么針對(duì)非節(jié)律性運(yùn)動(dòng)進(jìn)行訓(xùn)練,而且通常以大腦的參與為主,對(duì)真實(shí)生物系統(tǒng)中的整合過(guò)程是完全缺失的。
例如本體反射,當(dāng)你被火燙到時(shí),感覺(jué)系統(tǒng)會(huì)立即感知到高溫,這種感覺(jué)通過(guò)脊髓迅速傳遞給相應(yīng)的肌肉,導(dǎo)致肌肉立即收縮。肌肉收縮的信號(hào)又刺激到相應(yīng)的關(guān)節(jié),使手臂迅速縮回。這種反射不需要經(jīng)過(guò)大腦,動(dòng)作非常迅速且協(xié)調(diào)。換言之,在大腦意識(shí)到之前,你的手就已經(jīng)本能地做出了反應(yīng)。當(dāng)然,最初的反應(yīng)可能是朝火源靠近,但經(jīng)過(guò)生物進(jìn)化,最終形成了遠(yuǎn)離危險(xiǎn)源的反應(yīng)。隨后,這個(gè)信號(hào)會(huì)繼續(xù)傳遞到小腦和大腦。大腦意識(shí)到燙傷后,如果附近有水源,會(huì)指揮手部進(jìn)行有目的的運(yùn)動(dòng),比如將手浸入水中。這種動(dòng)作既不屬于本體反射,也不是節(jié)律性運(yùn)動(dòng),而是大腦發(fā)出的有意識(shí)決策。
人體經(jīng)過(guò)漫長(zhǎng)的進(jìn)化,形成了自己獨(dú)特的機(jī)制。目前我們對(duì)人體生物系統(tǒng)的模擬還很片面,往往是分別模擬各個(gè)部分的功能,然后試圖將它們整合在一起,這就導(dǎo)致了整體效果顯得生硬且難以協(xié)調(diào)。我認(rèn)為,如果能更多地向仿生方向靠攏,依據(jù)生理學(xué)原理來(lái)設(shè)計(jì)控制系統(tǒng),可能會(huì)有所突破。然而,這需要生理學(xué)專家能夠更清晰地闡釋這些機(jī)制,然后我們按照這些原理去實(shí)現(xiàn),這本身就是一個(gè)極具挑戰(zhàn)性的任務(wù)。即便機(jī)制被完全闡明,實(shí)現(xiàn)起來(lái)也并非易事。
機(jī)器之心:包括機(jī)器人的傳感器設(shè)計(jì)也是一個(gè)重大挑戰(zhàn)。
趙明國(guó):確實(shí)如此,傳感器的設(shè)計(jì)也不一定能完全按照人體的方式來(lái)實(shí)現(xiàn)。我個(gè)人傾向于認(rèn)為,工程師應(yīng)該把握最基本的機(jī)理。首先,有一條上行的信號(hào)通道,信號(hào)從末梢傳感器向上傳遞到脊髓、小腦和大腦,這個(gè)過(guò)程需要一定的時(shí)間延遲,形成一個(gè)動(dòng)態(tài)系統(tǒng)。其次,有一條下行的信號(hào)通道,信號(hào)在神經(jīng)系統(tǒng)做出決策后向下傳遞,這同樣是一個(gè)動(dòng)力學(xué)系統(tǒng),兩條信號(hào)通道都存在一定的時(shí)間延遲。同時(shí),相鄰的神經(jīng)系統(tǒng)需要形成局部的回路,包括脊髓回路、小腦回路和大腦回路。這三個(gè)回路的特征在目前的控制系統(tǒng)中很少得到完整體現(xiàn)。
不過(guò),隨著人工智能和神經(jīng)網(wǎng)絡(luò)技術(shù)的進(jìn)步,以及硬件設(shè)備的發(fā)展,有可能出現(xiàn)更符合仿生特點(diǎn)的系統(tǒng)。目前有許多研究,如類腦控制、類腦 SLAM 等,都在嘗試這一方向。雖然這些方法并沒(méi)有完全按照生物系統(tǒng)的原貌去實(shí)現(xiàn),但它們把握了核心機(jī)理,可以利用現(xiàn)有的電子和機(jī)電器件,按照信號(hào)處理的方式重新構(gòu)建整個(gè)系統(tǒng),實(shí)現(xiàn)全新的架構(gòu)。我認(rèn)為在仿生這個(gè)方向上還有很大的創(chuàng)新空間,從長(zhǎng)遠(yuǎn)來(lái)看,在仿生領(lǐng)域繼續(xù)深入研究是很有價(jià)值的。
機(jī)器之心:這個(gè)方向與具身智能結(jié)合起來(lái),應(yīng)該能夠開拓出廣闊的研究空間。
趙明國(guó):沒(méi)錯(cuò),這可以作為具身智能研究的一個(gè)分支,因?yàn)橹悄鼙旧砭桶律姆较颉N覀兛梢园凑宅F(xiàn)有的技術(shù)路線繼續(xù)深入研究,將細(xì)節(jié)做得更加深入和透徹。但是,單純依靠堆積數(shù)據(jù)和算力是否就足夠了?只要能夠取得很好的結(jié)果,這種方法也并非不可行。我認(rèn)為研究人員可以從不同角度展開研究,而不是片面否定或過(guò)度依賴某一種方法。這就像從不同角度登山,最終都有可能到達(dá)山頂。
05、關(guān)于人形機(jī)器人應(yīng)用:
除了替代人,還可以有第二種思路
機(jī)器之心:關(guān)于人形機(jī)器人,目前還沒(méi)有明確的應(yīng)用場(chǎng)景。您認(rèn)為哪些領(lǐng)域或者行業(yè)可能率先看到人形機(jī)器人走向?qū)嶋H應(yīng)用?
趙明國(guó):人形機(jī)器人應(yīng)用場(chǎng)景的話題其實(shí)已經(jīng)討論多年了。不過(guò),我們要區(qū)分愿景和現(xiàn)實(shí)。就像手機(jī)電池,理想情況下大家當(dāng)然希望不需要充電,但實(shí)際購(gòu)買時(shí)還是要考慮成本等多種因素。現(xiàn)在討論人形機(jī)器人的時(shí)候,很多人沒(méi)有明確區(qū)分愿景和現(xiàn)實(shí)。
就應(yīng)用場(chǎng)景而言,我認(rèn)為可能包括工廠、養(yǎng)老、家庭服務(wù)、餐飲、接待、危險(xiǎn)作業(yè)等。但目前還沒(méi)有哪個(gè)場(chǎng)景能夠保證立即實(shí)現(xiàn)。大家普遍的思路是用機(jī)器人替代人類完成現(xiàn)有工作,這自然是必要的。但除此之外,如果人形機(jī)器人能夠創(chuàng)造新的應(yīng)用場(chǎng)景,包括那些原本不被重視或并非剛需的場(chǎng)景,因?yàn)槿诵螜C(jī)器人的出現(xiàn)而成為可能,我認(rèn)為這對(duì)人形機(jī)器人的發(fā)展可能會(huì)起到關(guān)鍵作用。
實(shí)際上,這個(gè)問(wèn)題可以分為科學(xué)問(wèn)題、技術(shù)問(wèn)題、產(chǎn)品問(wèn)題和商品問(wèn)題。人形機(jī)器人可能還處于技術(shù)問(wèn)題甚至科學(xué)問(wèn)題階段,很多基礎(chǔ)的問(wèn)題仍未解決,比如我們前面談過(guò)的智能控制系統(tǒng)架構(gòu)究竟如何實(shí)現(xiàn),技術(shù)還在不停演變和發(fā)展,有些問(wèn)題的解決方案相對(duì)明顯,但大多數(shù)還不明朗,大家都在嘗試的過(guò)程中。
這時(shí)候討論技術(shù)路線該如何實(shí)現(xiàn),是使用 A 路線 B 路線還是 C 路線,或者很多人已經(jīng)做到商品化,要大規(guī)模賣。我覺(jué)得我們還處于混沌的狀況。
機(jī)器之心:在機(jī)器人的發(fā)展歷程中,您能舉例說(shuō)明技術(shù)和應(yīng)用場(chǎng)景是如何相互影響的嗎?
趙明國(guó):電機(jī)就是一個(gè)很好的例子。早期機(jī)器人使用的電機(jī)與現(xiàn)在有很大不同,例如在 ASIMO 那個(gè)時(shí)代,典型的電機(jī)是空心杯,火星車也用的是空心杯電機(jī),它形狀細(xì)長(zhǎng),效率很高,占用空間小。隨著機(jī)器人技術(shù)向更高精度、更復(fù)雜控制和更高性能的發(fā)展,空心杯電機(jī)逐漸被無(wú)刷直流電機(jī)等類型所取代。
電機(jī)的設(shè)計(jì)也在不斷變化。例如永磁力矩電機(jī),以前是內(nèi)轉(zhuǎn)子的,現(xiàn)在用外轉(zhuǎn)子,因?yàn)楹笳邭庀⒏螅︹犆芏雀螅瑢?duì)人形機(jī)器人這種移動(dòng)體來(lái)說(shuō)更實(shí)用,而且它還可以把關(guān)節(jié)做到扁平。這種電機(jī)最近幾年很多人在做,但其實(shí)這些種類早就有,只是應(yīng)用領(lǐng)域不一樣。外轉(zhuǎn)子電機(jī)最早用于四旋翼飛行器,后來(lái)被應(yīng)用到人形機(jī)器人上,大家突然發(fā)現(xiàn),這其實(shí)是明擺著的道理,就應(yīng)該這樣。
這就是技術(shù)和產(chǎn)業(yè)相匹配的結(jié)果,大家會(huì)找到一個(gè)平衡點(diǎn)。傳感器和驅(qū)動(dòng)器也在朝著高度集成的方向發(fā)展。這背后有經(jīng)濟(jì)規(guī)律支持,產(chǎn)業(yè)需求和技術(shù)在特定時(shí)間點(diǎn)一定是匹配的,誰(shuí)匹配得好,誰(shuí)就能獲得發(fā)展,匹配不上的就得不到發(fā)展。
這一點(diǎn)在計(jì)算機(jī)領(lǐng)域的體現(xiàn)更為明顯。馮諾依曼架構(gòu)之所以長(zhǎng)期主導(dǎo),很大程度上是因?yàn)樗鳛橐环N線性結(jié)構(gòu),最容易大規(guī)模生產(chǎn),尤其在當(dāng)時(shí)生產(chǎn)制造水平較低的情況下。雖然現(xiàn)在也有很多新的架構(gòu)出現(xiàn),但要完全取代馮諾依曼架構(gòu)依舊困難。
機(jī)器人領(lǐng)域目前也處于百花齊放的階段,要實(shí)現(xiàn)大一統(tǒng),讓大家公認(rèn)某一條路線還很難,但可以肯定的是:誰(shuí)迎合了社會(huì)的需求、生產(chǎn)力的需求,誰(shuí)就能勝出,而非基于主觀愿望,比如「我認(rèn)為未來(lái)人形機(jī)器人能進(jìn)工廠,能進(jìn)家庭」,但并不是大家都認(rèn)可現(xiàn)在做就一定能夠成功。
我覺(jué)得這取決于市場(chǎng),國(guó)家政策也可能起到推動(dòng)作用,但技術(shù)的突破存在不確定性,科學(xué)家也無(wú)法保證只要給我多少條件,就一定能把技術(shù)突破。
有的認(rèn)知,可能是在形成的過(guò)程中,先把戰(zhàn)術(shù)做起來(lái),最后才會(huì)形成戰(zhàn)略,并不是說(shuō)先把所有戰(zhàn)略都想清楚了。但是,這背后一定是有規(guī)律的。我個(gè)人覺(jué)得一方面要勇于實(shí)干,在市場(chǎng)上積極嘗試,另一方面,如果明顯在邏輯上有漏洞的東西,可能就少做,或者重要性別放那么高,優(yōu)先做的一定是你認(rèn)為更符合邏輯,或者是更容易實(shí)現(xiàn)的。這跟時(shí)間點(diǎn)也有關(guān),比如說(shuō)現(xiàn)在大數(shù)據(jù)、大算力,如今市場(chǎng)環(huán)境這些更容易獲得,在這上面投入自然更容易出成果。
但這時(shí)候如果你非要從事仿生,可能最終仿生就是正確的,但仿生學(xué)在 20 年以后勝利,并不意味著現(xiàn)在做仿生就能取得成功,現(xiàn)在從事仿生學(xué)研究可能連經(jīng)費(fèi)都拿不到,更不用說(shuō)做出典型案例了。歷史上有一個(gè)很好的例子,維納在 MIT 找了兩個(gè)年輕人,由于計(jì)算機(jī)最終采用了馮諾依曼架構(gòu)而非他們的方案,這兩個(gè)年輕人都郁郁而終,三十幾歲就去世了,對(duì)此維納也無(wú)能為力。
這并非他們的想法有問(wèn)題,回過(guò)頭看,你會(huì)發(fā)現(xiàn)如今很多概念,比如具身智能、存算一體,智能控制等,維納在《控制論》中都有提及,除了控制論,他的思想還啟發(fā)了信息論、系統(tǒng)論。
機(jī)器之心:我在《維納傳》里有讀到,確實(shí)令人惋惜,時(shí)代沒(méi)有準(zhǔn)備好。
趙明國(guó):沒(méi)錯(cuò),關(guān)鍵在于時(shí)間點(diǎn)不對(duì),太過(guò)超前了,當(dāng)時(shí)的技術(shù)無(wú)法支撐,或者說(shuō)社會(huì)還沒(méi)有相應(yīng)的需要,因此無(wú)法產(chǎn)生經(jīng)濟(jì)效益。并不是說(shuō)這些想法從科學(xué)角度看存在問(wèn)題,而是從應(yīng)用角度看,它們還不適合當(dāng)時(shí)的環(huán)境。我認(rèn)為可以從不同視角來(lái)看。以維納為例,在科學(xué)方面,他毫無(wú)疑問(wèn)是頂級(jí)大師,但在產(chǎn)業(yè)方面,維納對(duì)產(chǎn)業(yè)有啟發(fā)和引領(lǐng)作用,但他并非實(shí)踐者。相比之下,馮諾依曼在這兩方面都有極高造詣,他未必沒(méi)有認(rèn)識(shí)到維納的這些想法,只是他選擇了更能產(chǎn)生實(shí)際應(yīng)用的方案。
機(jī)器之心:現(xiàn)在仿生學(xué)的時(shí)代沒(méi)有到,您認(rèn)為其中的關(guān)鍵原因是什么?
趙明國(guó):我覺(jué)得主要有兩方面,一是對(duì)生物機(jī)理的認(rèn)知尚不充分,二是相關(guān)器件的水平尚未達(dá)到要求。仿生學(xué)高度依賴物理器件和傳感器的水平。當(dāng)前,我們可以進(jìn)行仿生學(xué)研究,但不應(yīng)拘泥于完全仿生。現(xiàn)階段的工程實(shí)踐可以沿用堆積算力、數(shù)據(jù)等資源的思路,這是可行的,我也不質(zhì)疑。不過(guò),我們也可以適度融入一些仿生學(xué)的思想,因?yàn)樯锝?jīng)過(guò)長(zhǎng)期自然進(jìn)化,其結(jié)構(gòu)和功能必然有其合理性和優(yōu)勢(shì)。我們要持續(xù)深化對(duì)這些特性的認(rèn)知。
就現(xiàn)有的技術(shù)手段而言,我認(rèn)為應(yīng)該循序漸進(jìn)。人形機(jī)器人是一個(gè)長(zhǎng)遠(yuǎn)目標(biāo)。不能否認(rèn),這是人類的終極目標(biāo)之一。無(wú)論是具體的工作還是智能本身,都是我們最終需要解決的問(wèn)題。但當(dāng)前能做什么,這是一個(gè)技術(shù)問(wèn)題。從現(xiàn)實(shí)出發(fā),我的建議是:大型企業(yè)和國(guó)家隊(duì)需要攻克這些難題,朝著最終目標(biāo)邁進(jìn)。要進(jìn)入工業(yè)應(yīng)用場(chǎng)景,就需要組建合適的團(tuán)隊(duì)。這種大型團(tuán)隊(duì)能夠在長(zhǎng)期內(nèi)持續(xù)進(jìn)行復(fù)雜的規(guī)模化的系統(tǒng)性研究。
對(duì)于較小的團(tuán)隊(duì),很難在整個(gè)系統(tǒng)層面開展復(fù)雜的研究。他們可以選擇純學(xué)術(shù),或者鉆研具體的問(wèn)題。例如,可以聚焦某個(gè)科學(xué)問(wèn)題或工程問(wèn)題,比如改進(jìn)電機(jī)、優(yōu)化傳感器,或者革新算法。一旦取得突破,大型團(tuán)隊(duì)就可以將這些成果整合到他們的系統(tǒng)中發(fā)揮重要作用。我認(rèn)為小型團(tuán)隊(duì)沒(méi)有必要執(zhí)著于解決工廠機(jī)器人或家庭機(jī)器人這些宏大課題,甚至說(shuō)立即將產(chǎn)品推向市場(chǎng),這可能不符合邏輯。
技術(shù)的發(fā)展不能脫離社會(huì)經(jīng)濟(jì)的發(fā)展。技術(shù)先進(jìn)并不意味著一定要立即應(yīng)用,只要技術(shù)符合當(dāng)前需求,就可以投入使用。至于哪種技術(shù)能夠得到更廣泛的應(yīng)用,取決于總體效益,這與經(jīng)濟(jì)規(guī)律有關(guān),也可能與人的認(rèn)知水平有關(guān)。歷史上,由于某個(gè)時(shí)期人類認(rèn)知的局限,可能會(huì)犯一些局部性錯(cuò)誤,這種情況并不罕見。但從長(zhǎng)遠(yuǎn)看,更先進(jìn)的技術(shù)終將勝出,這符合歷史進(jìn)步的規(guī)律。
嘉賓簡(jiǎn)介
趙明國(guó),清華大學(xué)自動(dòng)化系研究員、機(jī)器人控制實(shí)驗(yàn)室主任、清華大學(xué)無(wú)人系統(tǒng)中心類腦機(jī)器人中心主任。發(fā)表百余篇論文,授權(quán)國(guó)家發(fā)明專利 10 余項(xiàng)。在人形機(jī)器人領(lǐng)域,提出了虛擬斜坡行走方法、廣義模型預(yù)測(cè)控制、全身控制等方法,研究成果獲得 RoboCup 人形組亞軍等多項(xiàng)國(guó)際獎(jiǎng)項(xiàng)。在類腦計(jì)算領(lǐng)域,利用神經(jīng)形態(tài)技術(shù)創(chuàng)建了高性能、高能效的機(jī)器人控制系統(tǒng),成果發(fā)表于 Nature 封面,獲得 2019 年度中國(guó)科學(xué)十大進(jìn)展及「科技創(chuàng)新 2030」計(jì)劃的資助。
- 免責(zé)聲明
- 本文所包含的觀點(diǎn)僅代表作者個(gè)人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對(duì)本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險(xiǎn),讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前,請(qǐng)務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對(duì)因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。