首頁(yè) > AI資訊 > 最新資訊 > AI版《黑客帝國(guó)》:無(wú)限生成逼真視頻,3A畫(huà)質(zhì),還能實(shí)時(shí)交互

AI版《黑客帝國(guó)》:無(wú)限生成逼真視頻,3A畫(huà)質(zhì),還能實(shí)時(shí)交互

新火種    2024-11-22

人類(lèi)離電影《黑客帝國(guó)》的場(chǎng)景,似乎又近了一步。

因?yàn)榫驮趧倓偅粋€(gè)與電影同名的、首個(gè)AI基礎(chǔ)世界模擬器——The Matrix問(wèn)世。

它已經(jīng)可以實(shí)現(xiàn)生成無(wú)限長(zhǎng)、高保真720p真實(shí)場(chǎng)景視頻,而且還是可以實(shí)時(shí)交互的那種!

話不多說(shuō),直接來(lái)看一個(gè)長(zhǎng)達(dá)14分鐘的效果:

而這個(gè)時(shí)長(zhǎng)還只是demo展示的長(zhǎng)度,The Matrix可以做到在長(zhǎng)達(dá)1個(gè)小時(shí)的時(shí)間里,穿梭沙漠、草原、水體和城市等景觀。

在此期間,還可以通過(guò)按鍵W(前)、S(后)、A(左)和D(右)來(lái)實(shí)時(shí)控制——

每秒16幀,幀幀可控。

AI版《黑客帝國(guó)》:無(wú)限生成逼真視頻,3A畫(huà)質(zhì),還能實(shí)時(shí)交互

The Matrix項(xiàng)目是由全華人團(tuán)隊(duì)打造,作者分別來(lái)自阿里巴巴、香港大學(xué)、滑鐵盧大學(xué)和加拿大AI研究機(jī)構(gòu)Vector Insititute。

AI版《黑客帝國(guó)》:無(wú)限生成逼真視頻,3A畫(huà)質(zhì),還能實(shí)時(shí)交互

而之所以團(tuán)隊(duì)將研究取名為T(mén)he Matrix,是因?yàn)槠湫Ч蛢?nèi)容與電影《黑客帝國(guó)》中的一句話類(lèi)似:

AI版《黑客帝國(guó)》:無(wú)限生成逼真視頻,3A畫(huà)質(zhì),還能實(shí)時(shí)交互

網(wǎng)友們看罷,評(píng)論區(qū)已經(jīng)一片“crazy”、“amazing”的聲音:

AI版《黑客帝國(guó)》:無(wú)限生成逼真視頻,3A畫(huà)質(zhì),還能實(shí)時(shí)交互

但除了無(wú)限生成、效果逼真和實(shí)時(shí)可控之外,The Matrix還解鎖了一項(xiàng)能力。

零樣本,就可以直接泛化

The Matrix的訓(xùn)練數(shù)據(jù)主要由兩部分組成。

首先是通過(guò)像《極限競(jìng)速:地平線》和《賽博朋克 2077》這樣的3A游戲的監(jiān)督數(shù)據(jù)來(lái)進(jìn)行訓(xùn)練;其次再輔以大量的現(xiàn)實(shí)世界場(chǎng)景(如東京街頭)的無(wú)監(jiān)督視頻。

而與以往研究不同的是,The Matrix可以在沒(méi)有上述數(shù)據(jù)學(xué)習(xí)的情況下(零樣本),可以理解和預(yù)測(cè)不同環(huán)境中物體的行為和交互。

例如下面這個(gè)“寶馬X3在辦公環(huán)境中行駛”的場(chǎng)景,這是在游戲數(shù)據(jù)和現(xiàn)實(shí)世界數(shù)據(jù)中都未出現(xiàn)過(guò)的環(huán)境:

AI版《黑客帝國(guó)》:無(wú)限生成逼真視頻,3A畫(huà)質(zhì),還能實(shí)時(shí)交互

再如“車(chē)在水里游泳”:

AI版《黑客帝國(guó)》:無(wú)限生成逼真視頻,3A畫(huà)質(zhì),還能實(shí)時(shí)交互

The Matrix還支持以第一視角的方式來(lái)看世界:

AI版《黑客帝國(guó)》:無(wú)限生成逼真視頻,3A畫(huà)質(zhì),還能實(shí)時(shí)交互

就連真實(shí)世界中的物體,甚至人物,都是可控的:

AI版《黑客帝國(guó)》:無(wú)限生成逼真視頻,3A畫(huà)質(zhì),還能實(shí)時(shí)交互

從實(shí)驗(yàn)結(jié)果上來(lái)看,與近期主流的游戲仿真生成模型比較,不論是時(shí)長(zhǎng)還是效果等,The Matrix都已經(jīng)達(dá)到了領(lǐng)先的效果:

AI版《黑客帝國(guó)》:無(wú)限生成逼真視頻,3A畫(huà)質(zhì),還能實(shí)時(shí)交互怎么做到的?

從技術(shù)角度來(lái)看,The Matrix的核心由三大模塊組成。

首先是交互模塊 (Interactive Module)。

這個(gè)模塊用于理解用戶的輸入(如鍵盤(pán)輸入)并將其整合到視頻生成中,實(shí)現(xiàn)幀級(jí)別的精確控制。

為了增強(qiáng)模型的交互性,研究人員對(duì)一個(gè)預(yù)訓(xùn)練的 Diffusion Transformer (DiT) 模型進(jìn)行調(diào)優(yōu),使得交互模塊不僅能夠應(yīng)對(duì)已知數(shù)據(jù),還能泛化到無(wú)標(biāo)簽的數(shù)據(jù)。

AI版《黑客帝國(guó)》:無(wú)限生成逼真視頻,3A畫(huà)質(zhì),還能實(shí)時(shí)交互

其次是移窗去噪過(guò)程模型 (Shift-Window Denoising Process Model, Swin-DPM)。

這個(gè)新穎的擴(kuò)散模型通過(guò)使用滑動(dòng)的時(shí)間窗口來(lái)處理長(zhǎng)時(shí)間依賴關(guān)系,從而實(shí)現(xiàn)無(wú)限長(zhǎng)視頻的生成。

該模型能夠以連續(xù)、平滑的方式生成視頻,解決了傳統(tǒng)模型在長(zhǎng)序列生成時(shí)遇到的記憶瓶頸。

AI版《黑客帝國(guó)》:無(wú)限生成逼真視頻,3A畫(huà)質(zhì),還能實(shí)時(shí)交互

最后是流一致性模型 (Stream Consistency Model, SCM)。

為了實(shí)現(xiàn)實(shí)時(shí)生成,The Matrix 集成了一種名為流一致性模型的技術(shù),使得推理速度加快 10-20 倍,最終實(shí)現(xiàn) 8-16 FPS 的實(shí)時(shí)生成速度。

AI版《黑客帝國(guó)》:無(wú)限生成逼真視頻,3A畫(huà)質(zhì),還能實(shí)時(shí)交互

此外,研究人員還開(kāi)發(fā)了一個(gè)名為GameData的平臺(tái),用于自動(dòng)捕獲游戲中的狀態(tài)數(shù)據(jù)和視頻幀,并生成標(biāo)注的動(dòng)作幀數(shù)據(jù)集。

這個(gè)數(shù)據(jù)集結(jié)合了真實(shí)世界的視頻數(shù)據(jù),既幫助模型學(xué)習(xí)具體動(dòng)作控制,又增強(qiáng)了模型的視覺(jué)質(zhì)量和域泛化能力。

團(tuán)隊(duì)介紹

正如我們剛才提到的,The Matrix的作者均為華人。

AI版《黑客帝國(guó)》:無(wú)限生成逼真視頻,3A畫(huà)質(zhì),還能實(shí)時(shí)交互

其中,項(xiàng)目負(fù)責(zé)人主要是兩位,分別是Hongyang Zhang和Ruili Feng。

Hongyang Zhang目前是滑鐵盧大學(xué)的助理教授,帶領(lǐng)SafeAI Lab;其主要研究方向包括基礎(chǔ)模型的研究。

另一位則是來(lái)自阿里巴巴的Ruili Feng。

若是大家對(duì)研究感興趣,可戳下方鏈接查看詳情。

參考鏈接:

相關(guān)推薦
免責(zé)聲明
本文所包含的觀點(diǎn)僅代表作者個(gè)人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對(duì)本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險(xiǎn),讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前,請(qǐng)務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對(duì)因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢(qián)損失負(fù)任何責(zé)任。

熱門(mén)文章