靈初智能發布首個基于強化學習的端到端具身模型PsiR0
IT之家 12 月 30 日消息,靈初智能發布首個基于強化學習(RL)的端到端具身模型 Psi R0。
IT之家獲悉,該模型支持雙靈巧手協同進行復雜操作,將多個技能串聯混訓,生成具有推理能力的智能體,從而完成并閉環長程靈巧操作任務。并且,Psi R0 還可以實現跨物品、跨場景級別的泛化。

以電商場景為例,商品打包是典型的長程任務作業,需對上萬件商品進行抓取,掃碼,放置,塑料袋打結等多個操作。Psi R0 能夠使用雙靈巧手流暢地完成這一系列動作(官方稱此系列動作在客戶現場可以取代一個完整工位),成為首個基于強化學習訓練完成長程靈巧操作任務的具身機器人。

官方表示,基于 RL 的 Psi R0 模型,使用海量仿真數據訓練出雙手操作的智能體,并通過雙向訓練框架串聯多技能,在業界率先完成開放環境中的長程任務,具備較強的泛化能力與較高的魯棒性(robustness)。
這一技能訓練框架從物體時空軌跡抽象出關鍵信息以構建通用目標函數,從而解決獎勵函數難設計的問題。在后訓練階段,通過少量高質量真機數據對齊,進一步提升長程任務的成功率。

除此之外,雙向訓練框架中的轉移可行性函數發揮著重要作用,它能夠微調技能以提高串聯的成功率與泛化性,同時賦予模型自主切換技能的能力,使其在遭遇操作失敗時能夠迅速調整策略,確保高成功率。

相關推薦
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。