抖音跳舞不用真人出鏡,一張照片就能生成高質(zhì)量視頻!字節(jié)新技術(shù)連抱抱臉CTO都下場(chǎng)體驗(yàn)了
看!現(xiàn)在正有四位小姐姐在你面前大秀熱舞:

以為是某些主播在短視頻平臺(tái)發(fā)布的作品?
No,No,No。
真實(shí)答案是:假的,生成的,而且還是只靠了一張圖的那種!

真實(shí)的打開方式是這樣的:

這就是來(lái)自新加坡國(guó)立大學(xué)和字節(jié)跳動(dòng)最新的一項(xiàng)研究,名叫MagicAnimate。
它的作用簡(jiǎn)單來(lái)說(shuō)可以總結(jié)為一個(gè)公式:一張圖片?+ 一組動(dòng)作?= 毫無(wú)違和感的視頻。

然后啊,這項(xiàng)技術(shù)一經(jīng)公布,可謂是在科技圈里掀起了不小的波瀾,眾多科技大佬和極客們紛紛下場(chǎng)耍了起來(lái)。
就連HuggingFace CTO都拿自己的頭像體驗(yàn)了一把:

順便還風(fēng)趣地開了句玩笑:
還有相當(dāng)與時(shí)俱進(jìn)的網(wǎng)友,拿著剛出爐的GTA6(俠盜獵車手6)預(yù)告片中的人物玩了一把:

甚至就連表情包們也成了網(wǎng)友們pick的對(duì)象……

MagicAnimate可以說(shuō)是把科技圈的目光聚焦到了自己身上,因此也有網(wǎng)友調(diào)侃說(shuō):

火,著實(shí)是火。
一張圖即可生成一段舞那么如此火爆的MagicAnimate,該如何“食用”?
話不多說(shuō),我們現(xiàn)在就來(lái)手把手地體驗(yàn)一次。
目前項(xiàng)目團(tuán)隊(duì)已經(jīng)在HuggingFace中開放了在線體驗(yàn)的頁(yè)面:

操作也是非常得簡(jiǎn)單,只需三步即可:
上傳一張靜態(tài)人物照片上傳想要生成的動(dòng)作demo視頻調(diào)整參數(shù),點(diǎn)擊“Animate”即可例如下面就是鄙人照片和一段近期席卷全球的《科目三》舞蹈片段:
△視頻源:抖音(ID:QC0217)
也可以選擇頁(yè)面下方提供的模版進(jìn)行體驗(yàn):

不過(guò)需要注意的是,由于MagicAnimate目前過(guò)于火爆,在生成的過(guò)程中可能會(huì)出現(xiàn)“宕機(jī)”的情況:

即便成功“食用”,可能也得排大隊(duì)……

(沒(méi)錯(cuò)!截至發(fā)稿,還是沒(méi)有等到結(jié)果!)
除此之外,MagicAnimate在GitHub中也給出了本地體驗(yàn)的方式,感興趣的小伙伴可以試試哦~

那么接下來(lái)的一個(gè)問(wèn)題便是:
怎么做到的?整體而言,MagicAnimate采用的是基于擴(kuò)散模型(diffusion)的一個(gè)框架,目的就是增強(qiáng)時(shí)間一致性、保持參考圖像的真實(shí)性,并提高動(dòng)畫保真度。

為此,團(tuán)隊(duì)首先開發(fā)了一個(gè)視頻擴(kuò)散模型(Temporal Consistency Modeling)來(lái)編碼時(shí)間信息。
這個(gè)模型通過(guò)在擴(kuò)散網(wǎng)絡(luò)中加入時(shí)間注意力模塊,來(lái)編碼時(shí)間信息,從而確保動(dòng)畫中各幀之間的時(shí)間一致性。
其次,為了保持幀間的外觀一致性,團(tuán)隊(duì)引入了一種新的外觀編碼器(Appearance Encoder)來(lái)保留參考圖像的復(fù)雜細(xì)節(jié)。
這個(gè)編碼器與以往使用CLIP編碼的方法不同,能夠提取密集的視覺(jué)特征來(lái)引導(dǎo)動(dòng)畫,從而更好地保留身份、背景和服裝等信息。
在這兩項(xiàng)創(chuàng)新技術(shù)的基礎(chǔ)之上,團(tuán)隊(duì)進(jìn)一步采用了一種簡(jiǎn)單的視頻融合技術(shù)(Video Fusion Technique)來(lái)促進(jìn)長(zhǎng)視頻動(dòng)畫的平滑過(guò)渡。
最終,在兩個(gè)基準(zhǔn)上的實(shí)驗(yàn)表明,MagicAnimate的結(jié)果要遠(yuǎn)優(yōu)于以往的方法。
尤其是在具有挑戰(zhàn)性的TikTok舞蹈數(shù)據(jù)集上,MagicAnimate在視頻保真度方面比最強(qiáng)基線高出38%以上!
團(tuán)隊(duì)所給出的定性比較如下:

以及與cross-ID的SOTA基線相比,結(jié)果如下:

不得不說(shuō),諸如MagicAnimate的項(xiàng)目最近著實(shí)是有點(diǎn)火爆。
這不,在它“出道”前不久,阿里團(tuán)隊(duì)也發(fā)布了一個(gè)名叫Animate Anyone的項(xiàng)目,同樣是只要“一張圖”和“想要的動(dòng)作”:

由此,也有網(wǎng)友發(fā)出了疑問(wèn):

你覺(jué)得呢?
論文地址:https://arxiv.org/abs/2311.16498
參考鏈接:[1]https://github.com/magic-research/magic-animate[2]https://twitter.com/cocktailpeanut/status/1732052908227588263[3]https://twitter.com/ProductHunt/status/1732116454647136449[4]https://twitter.com/Gradio/status/1731992981715231162[5]https://twitter.com/dylan_ebert_/status/1732152096621813954
- 免責(zé)聲明
- 本文所包含的觀點(diǎn)僅代表作者個(gè)人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對(duì)本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險(xiǎn),讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前,請(qǐng)務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對(duì)因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。