谷歌發(fā)布新大語(yǔ)言模型:零樣本生成10秒視頻達(dá)SOTA!網(wǎng)友:壓力給到Runway/Pika
你敢信?大熊貓都會(huì)打牌了!

看這毛茸茸的腦袋、抓牌的動(dòng)作……
而這其實(shí)都是AI生成的,還是零樣本那種。
這就是谷歌最新大語(yǔ)言模型VideoPoet。
它不僅沒(méi)有用視頻領(lǐng)域常用的擴(kuò)散模型,還零樣本實(shí)現(xiàn)了SOTA。相較于此前一些模型,畫(huà)面更加穩(wěn)定、動(dòng)作更加逼真,清晰度也直線(xiàn)up。

和Bard再合作一下,輕松搞定1分鐘長(zhǎng)的視頻小片,從腳本到畫(huà)面全部不用人類(lèi)插手。

這效果,讓網(wǎng)友們直呼:視頻生成進(jìn)化速度也太快了吧。

不少人都表示想玩!

有人還說(shuō),VideoPoet效果這么好,看來(lái)Runway和Pika要加速了!
畫(huà)面逼真動(dòng)作穩(wěn)定
具體來(lái)看VideoPoet的能力非常全面。包括:
文本-視頻圖像-視頻視頻編輯風(fēng)格化處理畫(huà)面補(bǔ)充文本到視頻任務(wù),視頻輸出長(zhǎng)度可調(diào)整,而且可以基于文本內(nèi)容應(yīng)用一系列動(dòng)作和風(fēng)格。

圖像到視頻任務(wù),則能讓靜態(tài)圖片動(dòng)起來(lái)。比如一些世界名畫(huà)和照片,都可生成視頻。

同時(shí)也能調(diào)整視頻風(fēng)格,需要額外輸入一些文本,然后模型會(huì)預(yù)測(cè)視頻的光照和深度信息。
比如輸入“鐵獅子在熔爐的火光中咆哮”,原本無(wú)厘頭的太陽(yáng)花獅子就變得兇猛威嚴(yán)起來(lái)。

當(dāng)然也能進(jìn)行視頻編輯,比如讓視頻中的機(jī)器人隨意運(yùn)動(dòng)、背景中加上煙霧等,都是輸入文字指令即可實(shí)現(xiàn)。

或者是輸入圖像,然后修改它的動(dòng)作。讓蒙娜麗莎轉(zhuǎn)動(dòng)身體、打哈欠。

以及可調(diào)整鏡頭動(dòng)作。基本的縮放、弧線(xiàn)、航拍鏡頭都可搞定。

如果想讓擴(kuò)充視頻畫(huà)面、增加視頻元素,VideoPoet也能實(shí)現(xiàn)。

值得一提的是,VideoPoet還可以根據(jù)視頻配樂(lè)。
這也是讓不少網(wǎng)友感到驚訝的地方。

比如先讓VideoPoet生成一段小熊打架子鼓的視頻,然后不給它任何文本提示,VideoPoet根據(jù)畫(huà)面內(nèi)容自己生成了音頻。
如果想要生成更長(zhǎng)的視頻,可以通過(guò)輸入視頻的最后一秒畫(huà)面讓VideoPoet預(yù)測(cè)下一段視頻,反復(fù)多次即可實(shí)現(xiàn)。
如下案例時(shí)長(zhǎng)約為10秒。
用LLM零樣本生成視頻
不僅是生成效果好,VideoPoet還有一個(gè)優(yōu)勢(shì)在于,以LLM為基礎(chǔ),它能更方便利用現(xiàn)有大模型進(jìn)行改進(jìn)。
比如VideoPoet就使用了T5的編碼器。

不過(guò)由于大語(yǔ)言模型使用離散token,使得它生成視頻具有一定挑戰(zhàn)性。
與自然語(yǔ)言不同,人類(lèi)對(duì)視覺(jué)世界尚未演化出最佳的詞匯表達(dá)。
通過(guò)視頻/音頻tokenizer可以來(lái)克服這一問(wèn)題。
它們能將視頻和音頻編碼為離散token,也可將其轉(zhuǎn)換為原始表示。
VideoPoet正是基于這一原理實(shí)現(xiàn)。
它利用MAGVIT V2來(lái)搞定視頻圖像表示,SoundStream搞定音頻表示。
前者是谷歌CMU團(tuán)隊(duì)在今年10月提出的方法,該方法實(shí)現(xiàn)了語(yǔ)言模型首次在ImageNet基準(zhǔn)上擊敗擴(kuò)散模型。
后者是一個(gè)端到端神經(jīng)音頻解碼器。
具體來(lái)看VideoPoet的框架。它支持文本、視覺(jué)、音頻輸入,分別可利用t5、MAGVIT V2、SoundStream的編碼器。
然后再自回歸生成輸出。

實(shí)驗(yàn)結(jié)果方面,在提示詞與生成結(jié)果的吻合度方面,VideoPoet超過(guò)多個(gè)擴(kuò)散模型。

生成動(dòng)作方面的優(yōu)勢(shì)更加明顯。

這項(xiàng)工作由谷歌研究帶來(lái),作者是兩位軟件工程師Dan Kondratyuk和David Ross。
據(jù)Dan透露,VideoPoet的論文也會(huì)馬上上線(xiàn)。
- 免責(zé)聲明
- 本文所包含的觀點(diǎn)僅代表作者個(gè)人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對(duì)本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險(xiǎn),讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前,請(qǐng)務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對(duì)因依賴(lài)本文觀點(diǎn)而產(chǎn)生的任何金錢(qián)損失負(fù)任何責(zé)任。