與DeepMind展開合作,英偉達的物理世界AI正在拓展版圖
在近日舉行的 GTC 大會上,英偉達發布了一系列與 AI 未來方向「物理世界 AI」相關的工具,并宣布了新的合作。
在今天凌晨 GTC 大會主 Keynote 上,英偉達創始人、CEO 黃仁勛宣布與 Google DeepMind、Isomorphic Labs、Intrinsic 和 Tapestry(X 實驗室電網領域「登月計劃」項目)的團隊基于 NVIDIA Omniverse、NVIDIA Cosmos 和 NVIDIA Isaac 平臺的應用,分享各自合作的里程碑成果。
谷歌與英偉達技術團隊的合作旨在利用 AI 和仿真技術開發具有抓取能力的機器人、重塑藥物研發、優化能源電網等。
為助力研究和 AI 開發工作,谷歌云將率先采用英偉達今天在 GTC 上推出的新一代 Blackwell 產品。與此同時,英偉達也將率先采用 Google DeepMind AI 水印技術 SynthID,通過識別 AI 生成的內容以保護知識產權。
具體來說,英偉達將成為 Google DeepMind 旗下 SynthID 的首個外部用戶,該產品將數字水印直接嵌入到 AI 生成的圖像、音頻、文本和視頻中。SynthID 有助于維護 NVIDIA Cosmos 世界基礎模型輸出的完整性,從而防止錯誤信息和錯誤歸因,并且不會影響視頻質量。
Google DeepMind 和英偉達還合作優化了谷歌輕量級開源模型系列 Gemma,使其在 NVIDIA GPU 上運行。近期發布的 Gemma 3 標志著開源創新的一次重大飛躍。
英偉達的參與幫助了 Gemma 提升易用性。Gemma 由 NVIDIA AI 平臺驅動,可作為高度優化的 NVIDIA NIM 微服務使用,利用開源 NVIDIA TensorRT-LLM 庫的強大功能,提供強大的推理性能。
此外,兩家的深度工程合作將擴展到通過 Vertex AI 優化英偉達加速計算上基于 Gemini 的工作負載。
谷歌旗下的 Intrinsic 專注于為各行業制造商開發實用型機器人的智能自適應 AI 技術。當前,全球大多數工業機器人采用手動編程,每個動作都需通過復雜、成本高昂的硬編碼流程實現。
該團隊與英偉達合作,為 Intrinsic Flowstate 構建了更加深度且直觀的開發者工作流,為 NVIDIA Isaac Manipulator 基礎模型提供支持,實現通用機器人的抓取功能。由于 AI 具有良好的適應能力,在機器人開發中采用基礎模型將極大縮短應用開發時間,提高靈活性。
據介紹在 GTC 上,Intrinsic 還將分享 Intrinsic Flowstate 和 NVIDIA Omniverse 之間的早期 OpenUSD 框架流連接,可跨平臺實現機器人作業單元的實時可視化。
英偉達和 Google DeepMind 宣布與 Disney Research 攜手開發了 Newton——一個由 NVIDIA Warp 框架加速的開源物理引擎,與 MuJoCo 兼容。在 Newton 的支持下,與 MuJoCo 現有的 GPU 加速模擬器 MJX 相比,MuJoCo 將使機器人機器學習工作負載的速度提高 70 倍以上。
基于該平臺打造的《星球大戰》風格的機器人 Blue 站上了 GTC 現場。
Isomorphic Labs 由 Google DeepMind 首席執行官哈薩比斯創立,致力于通過 AI 重塑藥物研發。它利用 NVIDIA GPU 在谷歌云上構建了藥物設計引擎,以滿足持續開發有助于改善人類健康狀態的突破性 AI 模型所需的規模和性能。
Tapestry 是谷歌 X 實驗室針對電網領域的「登月計劃」,正在為更加綠色且可靠的未來電網打造 AI 賦能的產品。Tapestry 和英偉達正在探索提高電網仿真速度和精度的方法。
在 AI 基礎設施方面,谷歌云將成為首批提供 NVIDIA Blackwell GPU 最新實例的公司之一。
谷歌云和英偉達共同優化了熱門開源框架,如備受歡迎的機器學習 Python 庫 JAX,以及可大規模在 NVIDIA GPU 上高效運行的 MaxText。MaxText 是一款可在大規模 GPU 集群上擴展大模型的先進框架,采用與 NVIDIA 合作開發的優化功能,可在數以萬計的 GPU 上實現高效訓練。
英偉達也宣布了 Cosmos 世界基礎模型和物理 AI 數據工具的重大更新,該模型引入了開放式、可完全定制的物理 AI 開發推理模型,讓開發者以前所未有的方式控制世界生成。
NVIDIA 還推出了兩款由 NVIDIA Omniverse 和 Cosmos 平臺提供支持的新藍圖,為開發者提供用于機器人和自動駕駛汽車后訓練的大規模可控合成數據生成引擎。
用于自動駕駛汽車仿真的 Omniverse Blueprint 借助 Cosmos Transfer 放大基于物理傳感器數據的變化。借助該工具,Foretellix 可以通過為不同駕駛數據集改變天氣和光照等條件來豐富行為場景。Parallel Domain 也正在使用該藍圖將類似的變更應用于傳感器仿真。
用于合成操作運動生成的 NVIDIA GR00T Blueprint 結合了 Omniverse 和 Cosmos Transfer,可大規模生成多樣化數據集,利用 OpenUSD 驅動的仿真,將數據采集和增強時間從數天縮短到數小時。
新的 Cosmos Predict 模型將支持多幀生成,在給定開始和結束輸入圖像的情況下可以預測中間行為或運動軌跡。 這些模型專為后訓練而打造,可使用 NVIDIA 開放的物理 AI 數據集進行定制。
英偉達表示,借助 NVIDIA Grace Blackwell NVL72 系統及其龐大的推理計算能力,開發者可以實現實時世界生成。
1X 正在使用 Cosmos Predict 和 Cosmos Transfer 來訓練其新型人形機器人 NEO Gamma。機器人大腦開發商 Skild AI 正在利用 Cosmos Transfer 增強其機器人的合成數據集。此外,Nexar 和 Oxa 正在使用 Cosmos Predict 來升級其自動駕駛系統。
Cosmos Reason 是一個開放式、可完全定制的 WFM,具有時空感知能力,它使用思維鏈推理來理解視頻數據,并能夠預測交互結果,如一個人走進人行道或一個盒子從架子上掉下來。
開發者可以使用 Cosmos Reason 來提升物理 AI 數據標注和管理,增強現有世界基礎模型或創建新的視覺語言動作模型。他們還可以對其進行后訓練,構建高級規劃器,以指導物理 AI 如何完成所需操作。
此外,基于下游任務,開發者可以在 NVIDIA DGX Cloud 上使用原生 PyTorch 腳本或 NVIDIA NeMo 框架對 Cosmos WFM 進行后訓練。
Cosmos 開發者還可以使用 DGX Cloud 上的 NVIDIA NeMo Curator 來加速數據處理和管理。 Linker Vision 和 Milestone Systems 正將其用于管理海量視頻數據,訓練用于視覺智能體的大視覺語言模型,這些智能體基于 NVIDIA AI Blueprint 進行視頻搜索和總結。Virtual Incision 正在探索將其部署在未來的手術機器人中,而 Uber 和 Waabi 正在推動自動駕駛汽車的開發。
最后,英偉達公開了 Cosmos 世界基礎模型平臺的技術報告:
論文鏈接:https://arxiv.org/abs/2501.03575
或許以世界模型為基礎,未來會涌現出大量行業 AI、機器人新技術。
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。