91最新在线观看,波多野结衣影视,亚洲作爱网

首頁 > AI資訊 > 最新資訊 > 攀爬、跳躍、過窄縫，開源強化學習策略讓機器狗能跑酷了

攀爬、跳躍、過窄縫，開源強化學習策略讓機器狗能跑酷了

新火種 2023-09-13

機器之心報道

編輯：小舟

主打一個迅速。

跑酷是一項極限運動，對機器人特別是四足機器狗來說，更是一項巨大的挑戰，需要在復雜的環境中快速克服各種障礙。一些研究嘗試使用參考動物數據或復雜的獎勵，但這些方法生成的「跑酷」技能要么多樣但盲目，要么基于視覺但特定于場景。然而，自主跑酷需要機器人學習基于視覺且多樣化的通用技能，以感知各種場景并迅速做出反應。

最近，一個機器狗跑酷的視頻火了，視頻中的機器狗在多種場景中迅速克服了各種障礙。例如，從鐵板下方的縫隙穿過，爬上木箱，再跳到另一個木箱上，一連串動作行云流水：

這串動作說明機器狗掌握了貼地爬行、攀爬和跳躍三個基本技能：
它還有個技能：傾斜擠過窄縫：
如果機器狗未能克服障礙，它會多試幾次：
該機器狗是基于一種為低成本機器人研發的「跑酷」技能學習框架。這個框架是由來自上海期智研究院、斯坦福大學、上海科技大學、CMU 和清華大學的研究者聯合提出的，研究論文已經入選 CoRL 2023（Oral）。研究項目已開源。

方法簡介
該研究推出了一種新的開源系統，用于學習基于視覺的端到端跑酷策略，以使用簡單的獎勵來學習多種跑酷技能，而無需任何參考運動數據。
具體來說，該研究提出了一種強化學習方法，旨在讓機器人掌握攀爬高障礙、跳過大間隙、在低障礙下爬行、擠過狹小縫隙和跑步，并將這些技能蒸餾成基于單一視覺的跑酷策略，并以自我為中心的（egocentric）深度相機將其遷移到四足機器人上。
為了成功在低成本機器人上部署，該研究提出的跑酷策略僅使用機載計算（Nvidia Jetson）、機載深度攝像頭（Intel Realsense）和機載電源來部署，不使用動作捕捉、激光雷達、多個深度攝像頭和大量計算。
為了訓練跑酷策略，該研究共進行了如下三個階段的工作：
第一階段：具有 soft 動態約束（dynamics constraint）的強化學習預訓練。該研究使用自動課程讓機器人學習穿越障礙物，鼓勵機器人逐漸學會克服障礙。
第二階段：具有 hard 動態約束的強化學習微調。該研究在這個階段強制執行所有動態約束，并用現實動態（realistic dynamics）微調機器人在預訓練階段學到的行為。
第三階段：蒸餾。在學習了每個單獨的跑酷技能后，該研究使用 DAgger 將它們蒸餾成一個基于視覺的跑酷策略（由 RNN 參數化），該策略可以僅使用機載感知和計算部署到腿式機器人上。
實驗及結果
在訓練中，該研究為每種技能設置了相應的障礙物尺寸，如下表 1 所示：
該研究進行了大量的模擬和現實實驗，結果表明，跑酷策略使低成本四足機器人能夠自主選擇和執行適當的跑酷技能，僅使用機載計算、機載視覺傳感和機載電源即可穿越開放世界中具有挑戰性的環境，包括爬高 0.40m（1.53x 機器人高度）的障礙物，跳過 0.60m（1.5x 機器人長度）的大間隙，在 0.2m（0.76x 機器人高度）的低障礙物下爬行，通過傾斜擠過 0.28m 的細縫（小于機器人寬度），并且可以一直跑步前行。
此外，該研究還將所提方法和幾種基線方法進行了比較，并在模擬環境中進行了消融實驗，結果如下表 2 所示：
感興趣的讀者可以閱讀論文原文，了解更多研究內容。

Tags:

無人駕駛機器策略

免責聲明: 本文所包含的觀點僅代表作者個人看法，不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。交易和投資涉及高風險，讀者在采取與本文內容相關的任何行動之前，請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

攀爬、跳躍、過窄縫，開源強化學習策略讓機器狗能跑酷了

大摩策略師Wilson：投資者對AI主題的追捧過頭

【展商推薦】康耐視Cognex：深耕智能機器視覺

黃仁勛談機器人及AI未來：需要三臺計算機

卡耐基梅隆大學機器學習系主任ZicoKolter加入OpenAI：負責安全和超級對齊

橋水啟動由機器學習決策的20億美元規模基金，已經開始交易

熱門文章