英偉達(dá)最新研究成果!開辟機(jī)器人導(dǎo)航更多可能無需地圖可實時感知
日前,加州大學(xué)研究人員和英偉達(dá)共同發(fā)布了新的視覺語言模型“NaVILA”。亮點在于,NaVILA模型為機(jī)器人導(dǎo)航提供了一種新方案。
NaVILA模型的相關(guān)論文
視覺語言模型(VLM)是一種多模態(tài)生成式AI模型,能夠?qū)ξ谋尽D像和視頻提示進(jìn)行推理。它通過將大語言模型(LLM)與視覺編碼器相結(jié)合,使LLM具有“看”的能力。
傳統(tǒng)的機(jī)器人行動往往依賴于預(yù)先繪制的地圖和復(fù)雜的傳感器系統(tǒng)。而NaVILA模型不需要預(yù)先的地圖,機(jī)器人只需“聽懂”人類的自然語言指令,結(jié)合實時的視覺圖像和激光雷達(dá)信息,實時感知環(huán)境中的路徑、障礙物和動態(tài)目標(biāo),就可以自主導(dǎo)航到指定位置。
不僅擺脫了對地圖的依賴,NaVILA還進(jìn)一步將導(dǎo)航技術(shù)從輪式擴(kuò)展到了足式機(jī)器人,希望讓機(jī)器人應(yīng)付更多復(fù)雜場景,使其具備跨越障礙和自適應(yīng)路徑規(guī)劃的能力。
在論文中,加州大學(xué)研究人員使用宇樹Go2機(jī)器狗和G1人形機(jī)器人進(jìn)行了實測。根據(jù)團(tuán)隊統(tǒng)計的實測結(jié)論,在家庭、戶外和工作區(qū)等真實環(huán)境中,NaVILA的導(dǎo)航成功率高達(dá)88%,在復(fù)雜任務(wù)中的成功率也達(dá)到了75%。
Go2機(jī)器狗接受行動指令:向左轉(zhuǎn)一點,朝著肖像海報走,你會看到一扇敞開的門
G1人形機(jī)器人接受行動指令:立即左轉(zhuǎn)并直行,踩上墊子繼續(xù)前進(jìn),直到接近垃圾桶時停下來
據(jù)介紹,NaVILA模型的特點在于:
優(yōu)化準(zhǔn)確性與效率:NVILA模型在訓(xùn)練成本上降低了4.5倍,微調(diào)所需內(nèi)存減少了3.4倍。在預(yù)填充和解碼的延遲上幾乎降低了2倍(這些數(shù)據(jù)是與另一個大型視覺模型LLaVa OneVision進(jìn)行比較得出的)。
高分辨率輸入:NVILA模型并不通過降低照片和視頻的大小來優(yōu)化輸入,而是使用高分辨率圖像和視頻中的多個幀,以確保不丟失任何細(xì)節(jié)。
壓縮技術(shù):英偉達(dá)指出,訓(xùn)練視覺語言模型的成本非常高,同時,微調(diào)這樣的模型也非常耗費內(nèi)存,7B參數(shù)的模型需要超過64GB的GPU內(nèi)存。因此英偉達(dá)采用了一種名為“先擴(kuò)展后壓縮”的技術(shù),通過將視覺信息壓縮為更少的token,來減少輸入數(shù)據(jù)的大小,并將像素進(jìn)行分組,以保留重要信息,平衡模型的準(zhǔn)確性與效率。
多模態(tài)推理能力:NVILA模型能夠根據(jù)一張圖片或一段視頻回答多個查詢,具有強(qiáng)大的多模態(tài)推理能力。
在視頻基準(zhǔn)測試中,NVILA的表現(xiàn)超過了GPT-4o Mini,并且在與GPT-4o、Sonnet 3.5和Gemini 1.5 Pro的比較中也表現(xiàn)出色。NVILA還在與Llama 3.2的對比中取得了微弱勝利。
英偉達(dá)表示,目前尚未將該模型發(fā)布到Hugging Face平臺上,其承諾會很快發(fā)布代碼和模型,以促進(jìn)模型的可復(fù)現(xiàn)性。
(文章來源:科創(chuàng)板日報)
- 免責(zé)聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認(rèn)可。 交易和投資涉及高風(fēng)險,讀者在采取與本文內(nèi)容相關(guān)的任何行動之前,請務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。