首頁 > AI資訊 > 行業動態 > 英偉達開源Cosmos:加速物理AI開發,直解人形機器人訓練難點

英偉達開源Cosmos:加速物理AI開發,直解人形機器人訓練難點

新火種    2025-01-30

作者 | ZeR0

編輯 | 漠影

智東西1月13日報道,在CES 2025主題演講中,NVIDIA(英偉達)創始人兼CEO黃仁勛宣布推出了一個世界基礎模型平臺Cosmos。該平臺將解決掣肘通用機器人及自動駕駛發展的一大關鍵阻力——訓練數據。

這是一個由先進的生成式世界基礎模型(WFM)、高級視頻tokenizer、護欄、加速視頻處理流水線組成的平臺,針對NVIDIA數據中心GPU進行了優化,將有助于推動自動駕駛汽車、機器人等物理AI系統的發展。

物理AI模型的開發成本很高,需要大量真實數據和測試。Cosmos世界基礎模型使開發者能夠輕松生成大量基于物理學的逼真合成數據,以用于訓練和評估其現有的模型。開發者還可以通過微調Cosmos世界基礎模型來構建自定義模型。

其首批用戶包括1X、思靈機器人(Agile Robots)、Agility、Figure AI、Foretellix、傅利葉(Fourier)、銀河通用(Galbot)、Hillbot、IntBot、Neura Robotics、Skild AI、Virtual Incision、Uber、Waabi、小鵬汽車等的全球物理AI領先企業,涉及機器人、自動駕駛、共享出行等領域。

AIGC時代,聯想的野望和收獲

Cosmos模型將以開放模型許可證的方式提供。首批模型有8款,參數量從40億到140億不等。

NVIDIA API目錄中可預覽首批模型,NVIDIA NGC目錄或Hugging Face也支持下載整個系列的模型和微調框架。很快這些模型將以經過全面優化的NVIDIA NIM微服務形式提供。

開發者可以使用NVIDIA NeMo Curator加速視頻處理,并使用NVIDIA NeMo來定制自己的世界模型,然后可通過NVIDIA DGX Cloud快速、簡單地部署這些模型,還可以獲得NVIDIA AI Enterprise軟件平臺提供的企業支持。

一、機器人ChatGPT時刻將近,世界基礎模型助攻物理AI普及

“機器人技術的ChatGPT時刻即將到來。與大語言模型一樣,世界基礎模型是推動機器人和自動駕駛汽車開發的基礎。”NVIDIA創始人兼CEO黃仁勛談道,并非所有開發者都擁有自主訓練模型所需的專業知識和資源,英偉達創建Cosmos的目的是普及物理AI,讓每一位開發者都能接觸到通用機器人技術。

借助NVIDIA Cosmos的開放模型套件,開發者可以根據目標應用的需要,使用數據集定制自動駕駛汽車旅行視頻、機器人在倉庫中的移動軌跡等世界基礎模型。

Cosmos世界基礎模型專為物理AI的研發而生,是一套開放擴散和自回歸Transformer模型,為實現基于物理學的交互、物體恒存性以及生成高質量的仿真工業環境(如倉庫、工廠)和駕駛環境(包括各種路況)而構建。

這些模型接受了來自2000萬小時真實世界人類交互、環境、工業、機器人、自動駕駛數據的訓練,可根據文本、圖像和視頻等輸入組合以及機器人傳感器或運動數據生成基于物理學的視頻。

黃仁勛在CES主題演講期間展示了一些開發者使用Cosmos模型的用例:

1)視頻搜索和理解:使開發者能從視頻數據中輕松找到特定的訓練場景,例如雪天路況或倉庫擁堵等。

2)基于物理學的逼真合成數據生成:使用Cosmos模型從NVIDIA Omniverse平臺上開發的可控3D場景中生成逼真視頻。

3)物理AI模型開發和評估:在基礎模型上構建自定義模型,使用Cosmos進行強化學習以改進模型,或者測試模型在特定仿真場景中的表現。

4)預測與“多元宇宙”模擬:使用Cosmos和Omniverse生成AI模型所有未來可能實現的結果,以便幫助其選擇最佳和最準確的路徑。

二、提供先進開發工具,保護數據隱私安全

構建物理AI模型需要數PB(petabytes)的視頻數據以及數萬小時的計算,來處理、整理和標記這些數據。

為了幫助節省在數據整理、訓練和模型定制方面的巨大成本,Cosmos提供了以下功能:

NVIDIA NeMo Curator驅動的NVIDIA AI和CUDA加速數據處理管線,使開發者能夠使用NVIDIA Blackwell平臺在14天內處理、整理和標記2000萬小時的視頻,而如果僅用CPU則需要3年以上。

NVIDIA Cosmos Tokenizer是先進的可視化tokenizer,可將圖像和視頻轉換成token。與當前領先的tokenizer相比,其總壓縮率提高了8倍,處理速度提高了12倍。

NVIDIA NeMo框架可用于高效的模型訓練、定制和優化。

關于世界模型的隱私和數據保護問題,NVIDIA也做了一系列設計。Cosmos根據NVIDIA的可信AI原則開發而成。該原則將優先考慮隱私、安全、保障、透明和減少不必要的偏見。

Cosmos開放平臺加入了專為減少有害文字和圖像而設計的護欄,并提供了一個增強文字提示準確性的工具。使用NVIDIA API目錄上的Cosmos 自回歸模型和擴散模型生成的視頻會帶有隱形水印,可識別AI生成的內容,這有助于減少錯誤信息和錯誤歸屬的可能性。NVIDIA還將進一步改進其應用的護欄和水印解決方案。

三、多家物理AI企業已采用,加速人形機器人、自動駕駛開發

許多物理AI行業的領先者已開始使用Cosmos技術。

例如AI人形機器人公司1X使用Cosmos Tokenizer推出了1X World Model Challenge數據集。Hillbot和Skild AI正在使用Cosmos加速其通用機器人的開發。小鵬汽車也將使用Cosmos加快其人形機器人的開發。

“數據的稀缺性和可變性是在機器人環境中成功學習的主要挑戰。”Agility首席技術官Pras Velagapudi分享說,“借助Cosmos的文本、圖像和視頻到世界的能力,我們能夠在各種任務中生成和增強逼真的場景并利用這些場景訓練模型,而不需要采集那么多昂貴的真實數據。”

一些交通運輸領域的領先企業也在使用Cosmos構建適用于自動駕駛汽車的物理AI。

Waabi是一家從自動駕駛汽車開始致力于開發物理世界生成式AI的公司,正在評估Cosmos在自動駕駛汽車軟件開發和仿真中數據整理的應用。自動駕駛AI基礎模型公司Wayve也正在評估使用Cosmos搜索用于提高安全性和驗證的極端駕駛場景。

自動駕駛汽車工具鏈提供商Foretellix將使用Cosmos與NVIDIA Omniverse Sensor RTX API大規模評估和生成高保真測試場景與訓練數據。

全球共享出行巨頭Uber正與NVIDIA合作共同加速自動駕駛汽車的發展。Uber豐富的駕駛數據集在與Cosmos平臺和NVIDIA DGX Cloud的功能結合后,能幫助自動駕駛汽車合作伙伴更加高效地構建更強大的AI模型。

Uber首席執行官Dara Khosrowshahi提到生成式AI將驅動未來的移動出行,這需要豐富的數據和強大的算力。他相信在NVIDIA的助力下,Uber團隊能夠幫助行業更快開發出安全、可擴展的自動駕駛解決方案。

結語:打開AI理解物理世界之門

機器人、自動駕駛等物理AI的開發離不開大量真實數據。NVIDIA Cosmos平臺的出現恰逢其時,通過能夠生成高仿真虛擬世界狀態的世界基礎模型,為一眾開發者們提供了教AI理解物理世界的關鍵工具。

這是也是NVIDIA未來AI雄心的展現。真實世界充滿各種物理原理,要讓AI具備更強的通用智能、能夠模擬出與現實世界如出一轍的自然運作,理解物理世界是不可避免的下一個重點發展方向。而NVIDIA打造的Cosmos、Omniverse平臺組合,將使得生成逼真合成數據更加輕而易舉,從而加速物理AI的構建與應用。

相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章