首頁 > AI資訊 > 最新資訊 > 智元發(fā)布首個通用具身基座大模型:完成小樣本快速泛化,降低具身智能門檻

智元發(fā)布首個通用具身基座大模型:完成小樣本快速泛化,降低具身智能門檻

新火種    2025-04-27

3月10日,智元發(fā)布首個通用具身基座大模型——智元啟元大模型(GO-1)。據(jù)了解,該架構(gòu)由VLM(多模態(tài)大模型)+MoE(混合專家)組成。其中VLM借助海量互聯(lián)網(wǎng)圖文數(shù)據(jù)獲得通用場景感知和語言理解能力,MoE中的Latent Planner(隱式規(guī)劃器)借助大量跨本體和人類操作數(shù)據(jù)獲得通用的動作理解能力,MoE中的Action Expert(動作專家)借助百萬真機數(shù)據(jù)獲得精細的動作執(zhí)行能力。三者環(huán)環(huán)相扣,可以利用人類視頻學習、完成小樣本快速泛化并且降低具身智能門檻。其已成功部署到智元多款機器人本體,而且還會持續(xù)進化,將具身智能推上一個新臺階。

對于多模態(tài)大模型與混合專家大模型的具體分工,智元具身研究中心常務主任任廣輝回復《每日經(jīng)濟新聞》記者問題時表示:“我們多模態(tài)大模型本身,自帶了一個專家。Latent Planner負責我們互聯(lián)網(wǎng)規(guī)模的圖文錄像訓練,它來理解視頻中的動作,比如倒水這個動作,肯定需要手腕旋轉(zhuǎn)。而Action Expert(動作專家),則是在看了很多理論,看了很多視頻動作后,負責在機器人本體(上的)執(zhí)行。”

任廣輝補充表示:“各個模型分工明確,各司其職,并且是分層的。就如人類學東西一樣,先學理論,再看別人如何操作,再自己操作。這樣分層次(學習),也令整個學習、訓練相對而言更容易一點。”

每日經(jīng)濟新聞

相關(guān)推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內(nèi)容相關(guān)的任何行動之前,請務必進行充分的盡職調(diào)查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產(chǎn)生的任何金錢損失負任何責任。

熱門文章