字節(jié)AI版小李子一開(kāi)口:黃風(fēng)嶺,八百里
字節(jié)和浙大聯(lián)合研發(fā)的項(xiàng)目Loopy火了!
只需一幀圖像,一段音頻,就能生成一段非常自然的視頻!
研究團(tuán)隊(duì)還放出了Loopy和同類應(yīng)用的對(duì)比視頻:
網(wǎng)友下場(chǎng)齊夸夸:


真這么牛?咱們一起來(lái)看一下!

研究團(tuán)隊(duì)放出了一些DEMO視頻,內(nèi)容腦洞跨度有點(diǎn)大!
比如讓小李子唱《黑神話》靈吉菩薩的陜北說(shuō)書(高音時(shí)還會(huì)皺眉):
讓兵馬俑滿口英倫腔:
蒙娜麗莎張口說(shuō)話:
梅梅自帶Bgm說(shuō)古裝臺(tái)詞(甚至還有挑眉的小動(dòng)作):
狼叔的側(cè)顏照也難不倒它:
嘆息聲的細(xì)節(jié)也能處理得很好:
真人肖像的效果也很自然(甚至說(shuō)話時(shí)眼睛還會(huì)順勢(shì)看向其他方向):
Loopy如何“告別割裂感”?看完這些毫無(wú)違和感DEMO視頻,咱們來(lái)研究一下Loopy是如何生成這類視頻的:
總的來(lái)說(shuō),Loopy是一個(gè)端到端的音頻驅(qū)動(dòng)視頻生成模型。
它的框架可以由四部分構(gòu)成,分別是:
ReferenceNet:一個(gè)額外的網(wǎng)絡(luò)模塊,它復(fù)制了原始SD U-Net的結(jié)構(gòu),以參考圖像的潛在表示作為輸入,來(lái)提取參考圖像的特征。
DenoisingNet:一個(gè)去噪的U-Net,負(fù)責(zé)從噪聲輸入生成最終的視頻幀。
在DenoisingNet的空間注意力層中,ReferenceNet提取的參考圖像特征會(huì)與DenoisingNet的特征在token維度上進(jìn)行拼接。
這樣做是為了讓DenoisingNet能夠選擇性地吸收ReferenceNet中與當(dāng)前特征相關(guān)的圖像信息,從而在生成過(guò)程中保持圖像的視覺(jué)一致性。
簡(jiǎn)單來(lái)說(shuō),通過(guò)結(jié)合這兩個(gè)網(wǎng)絡(luò)的特征,DenoisingNet能夠更好地利用參考圖像的細(xì)節(jié),提升生成結(jié)果的質(zhì)量和連貫性。

Apperance:Loopy的外觀模塊,主要接收參考圖像和運(yùn)動(dòng)幀圖像,然后將它們壓縮成特殊的數(shù)字編碼(潛在向量)。
運(yùn)動(dòng)幀的潛在向量經(jīng)過(guò)“時(shí)間序列模塊”處理,與參考圖像的潛在向量拼在一起。這樣就融合了參考信息和動(dòng)作信息。
然后將拼接后的潛在向量輸入ReferenceNet模塊中,生成一張?zhí)卣鲌D,標(biāo)注著重要的視覺(jué)信息,方便供后續(xù)去噪模塊使用。

Audio:Loopy的音頻模塊。模型先是使用Wav2Vec網(wǎng)絡(luò)提取音頻特征,并將每層的特征連接起來(lái),形成多尺度音頻特征。
然后對(duì)于每一幀視頻,將前兩幀和后兩幀的音頻特征連接,形成一個(gè)包含5幀音頻特征的序列,作為當(dāng)前幀的音頻信息。
最后在每個(gè)殘差塊中,使用“交叉注意力”機(jī)制,將音頻特征與視覺(jué)特征結(jié)合,計(jì)算出一個(gè)關(guān)注的音頻特征,并將其與視覺(jué)特征相加,生成新的特征。
值得一提的是,模型中也涉及到了一個(gè)Audio2Latent模塊,這個(gè)模塊可以將音頻信息映射到共享的運(yùn)動(dòng)潛在空間,進(jìn)一步幫助模型理解音頻與視頻中人物動(dòng)作之間的關(guān)系。

研究團(tuán)隊(duì)的實(shí)驗(yàn)結(jié)果如下:

值得一提的是,在Loopy之前,字節(jié)和浙大就已經(jīng)聯(lián)合研發(fā)出了一款類似的項(xiàng)目CyberHost。

但與Loopy不同的是,CyberHost是一個(gè)端到端音頻驅(qū)動(dòng)的人類動(dòng)畫模型。
- 免責(zé)聲明
- 本文所包含的觀點(diǎn)僅代表作者個(gè)人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對(duì)本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險(xiǎn),讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前,請(qǐng)務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對(duì)因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。