首頁 > AI資訊 > 最新資訊 > 10秒創造一個世界!吳佳俊團隊新作實時交互式3D世界生成

10秒創造一個世界!吳佳俊團隊新作實時交互式3D世界生成

新火種    2024-10-27

斯坦福吳佳俊團隊與MIT攜手打造的最新研究成果,讓我們離實時生成開放世界游戲又近了一大步。

從單一圖像出發,在用戶的實時交互下生成無限延展的3D場景:

10秒創造一個世界!吳佳俊團隊新作實時交互式3D世界生成

只需上傳一張圖片,就能踏入一個由AI創造的虛擬世界。用戶可以通過移動視角和輸入文本提示,實時決定接下來要探索的方向和場景內容:

10秒創造一個世界!吳佳俊團隊新作實時交互式3D世界生成

從鳥瞰圖的視角,可以清晰看到虛擬世界的生成過程:

10秒創造一個世界!吳佳俊團隊新作實時交互式3D世界生成

無論是魔幻森林、現實都市,還是寧靜鄉村,WonderWorld都能在眨眼間為你呈現:

10秒創造一個世界!吳佳俊團隊新作實時交互式3D世界生成10秒創造一個世界!吳佳俊團隊新作實時交互式3D世界生成

這項工作名為WonderWorld,由斯坦福吳佳俊團隊和MIT聯合打造。

10秒創造一個世界!吳佳俊團隊新作實時交互式3D世界生成

WonderWorld的項目主頁上還有能以第一視角移動的交互式場景:

10秒創造一個世界!吳佳俊團隊新作實時交互式3D世界生成

資深游戲創業者,GOAT Gamin的首席AI官興奮地表示:“它還能對非真實感的圖片work。有無限多的可能性!”

10秒創造一個世界!吳佳俊團隊新作實時交互式3D世界生成

在硅谷廣受歡迎的Hacker News上,WonderWorld也一度被放在頭版討論:

10秒創造一個世界!吳佳俊團隊新作實時交互式3D世界生成

要知道,之前的生成式AI方法都需要數十分鐘甚至若干小時才能生成一個單獨的場景,WonderWorld的速度可謂打開了交互式新世界的大門。

那這究竟是如何做到的?

交互式生成 3D 世界

要讓用戶來控制生成一個3D世界,最核心的難點在于生成速度。先前的AI生成3D場景的方法大都需要先逐步生成許多目標場景的2D圖片來補全被遮擋的部分,然后再優化得到一個3D場景的表示。這個過程耗時頗多。

10秒創造一個世界!吳佳俊團隊新作實時交互式3D世界生成

WonderWorld的核心突破在于其驚人的速度。

研究團隊開發的FLAGS?(Fast LAyered Gaussian Surfels) 場景表示方法,使得系統能在短短10秒內生成一個新場景。這一速度比現有方法快了近100倍,真正將交互式3D世界生成推向了實時的門檻。

具體來說,WonderWorld生成新場景時,會先生成一張場景的2D圖片(對于第一個場景則是直接使用輸入圖片),從圖片中生成三張layer images,再從layer images來生成 FLAGS 表示。

10秒創造一個世界!吳佳俊團隊新作實時交互式3D世界生成

FLAGS表示由三層Gaussian surfels組成:天空層,背景層,以及前景層。每一層都從對應的layer image中生成。天空和背景的layer image 都單獨進行了遮擋的補全,因此WonderWorld不需要逐步生成多張圖片。

另外,FLAGS表示的每個Gaussian surfel都唯一對應一個layer image 上的像素,因此它可以使用估計的像素級別幾何信息(如單目深度和單目法向量)來初始化Gaussian surfels的參數,從而加速其優化過程。

10秒創造一個世界!吳佳俊團隊新作實時交互式3D世界生成

最后,WonderWorld 還針對多個3D場景之間經常出現幾何“裂縫”的問題,提出了Guided depth diffusion。核心想法是,利用已經生成的 3D 場景的深度信息作為 guidance,使新生成場景的深度與其一致。只要新舊場景在連接處的深度一致,那么場景的裂縫就得以彌合。

10秒創造一個世界!吳佳俊團隊新作實時交互式3D世界生成

值得一提的是,無論是2D圖片生成還是深度估計模塊,都可以直接采用預訓練模型,因此整個框架不需要任何訓練。

實驗測試

由于先前沒有任何方法可以做到交互式3D場景生成,研究人員采用了連貫3D場景生成的方法WonderJourney,單一場景生成的Text2Room以及LucidDreamer作對比。由于缺乏現有可用評估數據集,研究人員生成了28個場景作為測試。

研究人員首先展示了更多的交互式生成的場景,從而說明WonderWorld可以在應用到不同場景類型以及不同視覺風格:

10秒創造一個世界!吳佳俊團隊新作實時交互式3D世界生成

與基準方法的比較表明,WonderWorld明顯優于各個方法:

10秒創造一個世界!吳佳俊團隊新作實時交互式3D世界生成

從人類偏好評估的角度,WonderWorld 也顯著更受青睞:

10秒創造一個世界!吳佳俊團隊新作實時交互式3D世界生成

此外,從一張輸入圖片,WonderWorld能夠接受不同的用戶控制,生成不同的場景內容:

10秒創造一個世界!吳佳俊團隊新作實時交互式3D世界生成作者簡介

該篇論文主要作者來自斯坦福大學吳佳俊團隊。

論文一作俞洪興,斯坦福大學五年級博士生。

10秒創造一個世界!吳佳俊團隊新作實時交互式3D世界生成

主要研究領域為重建可交互的物理世界。他曾獲得 SIGGRAPH Asia 最佳論文獎,高通獎學金,以及 Meta 獎學金和 NVIDIA 獎學金的提名。

吳佳俊,現任斯坦福大學助理教授,隸屬于斯坦福視覺與學習實驗室(SVL)和斯坦福人工智能實驗室(SAIL)。

10秒創造一個世界!吳佳俊團隊新作實時交互式3D世界生成

在麻省理工學院完成博士學位,本科畢業于清華大學姚班,曾被譽為“清華十大學神”之一。

論文鏈接:https://arxiv.org/pdf/2406.09394

參考鏈接:[1]https://x.com/Koven_Yu/status/1835769026934673595[2]https://kovenyu.com/wonderworld

Tags:
相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章