梵高大跳科目三,只需文字+火柴人動效!可控視頻生成框架來了
視頻生成還可以這么玩?
來一個“火柴人”做做動作示范,再加文本描述,即可讓各種形象惟妙惟肖地跟著動起來。
比如男人在公園椅子上做遠眺姿勢:
鋼鐵俠街邊起舞:
蝙蝠俠也不閑著,水上打拳:
形象數量可以隨意添加:
風格也能任意切換(上:新海誠,下:梵高):
如此看下來,讓任意一個八桿子打不著的形象跳個科目三,也是簡簡單單了。
如上成果便是不久前入選了AAAI 2024的姿態全可控視頻生成框架:Follow-Your-Pose。
出自清華大學、香港科技大學、騰訊AI Lab以及中科院。
相關代碼已在GitHub攬獲800顆標星。
有網友驚嘆,有了它:
那么以下,為作者投稿內容,一起來看看它具體是如何做到的吧。
姿勢可控的角色視頻生成來了
現如今,生成文本可編輯和姿勢可控的角色視頻在創建各種數字人方面具有迫切的需求。
然而,由于缺乏一個全面的、具有成對的視頻-姿態-文本的生成數據集,從而使這項任務受到了限制。
在這項工作中,研究團隊設計了一種新穎的兩階段訓練方案,該方案可以利用易于獲得的數據集(即圖像姿勢對和無姿勢視頻)和預訓練的文本到圖像(T2I)模型來獲得姿勢可控的角色視頻。
具體來說,在第一階段,只有姿態圖像對僅用于可控的文本到圖像生成。
團隊學習了一個零初始化的卷積編碼器來對姿態信息進行編碼。
在第二階段通過添加可學習的時間自注意力和改革后的跨幀自注意力塊,用無姿勢視頻數據集對上述網絡的運動進行微調。
在團隊新設計的支持下,該方法成功地生成了連續的姿勢可控的角色視頻,同時保留了預訓練的T2I模型的概念生成和合成能力。
具體來說,該兩階段訓練策略,可有效地從研究團隊提出的LAION-Pose數據集中學習圖像姿勢對齊,并從沒有姿勢注釋的自然視頻中學習時間相干性。
在第一階段訓練中,只有姿態編碼器Ep可以訓練來學習姿態控制。
在第二階段訓練中,只有時間模塊是可訓練的,包括時間自注意力(SA)和跨幀自注意力。
在推理過程中,通過提供描述目標角色和相應外觀的文本以及表示運動的姿勢序列來生成時間連貫的視頻。
預訓練穩定擴散的大多數參數都被凍結,包括偽 3D 卷積層以及交叉注意力(CA)和前饋網絡(FFN)模塊。具體框架結構如下。
為了進一步保持時間一致性,研究團隊利用幀間自注意力(SA)來進行交叉幀處理。
不同的是,他們通過簡單地在DDIM的上一次采樣過程中重復使用每個時間步長的噪聲,來生成更長的視頻序列。
具體而言,假設每次采樣T幀,將最后T幀的噪聲添加到下一個2個循環中,作為先驗知識。
需要注意的是,在整個去噪過程中,為了確保生成的長視頻的時間一致性,會將每個時間步長的噪聲添加到先驗知識中。
如框架圖所示,所提出的方法僅調整了用于視頻生成的幀間自注意力和時間自注意力。
通過以上兩階段的訓練,結合為每個階段精心設計的可調節模塊,研究團隊所提出的方法可以從輕松獲得的數據集(例如人體和姿勢的圖像對以及隨機視頻)中生成連續的姿勢可控視頻。
總結
這篇工作主要解決了生成文本可編輯且姿勢可控制的角色視頻的問題。
為實現這一目標,作者重新設計和調整了預訓練的文本到圖像模型,因為它具有強大的語義編輯和組合能力。
并設計了一個新的兩階段訓練方案,可以利用大規模的圖像姿勢對和多樣化的無姿勢數據集。
具體而言,在第一訓練階段,使用姿勢編碼器將姿勢信息注入網絡結構,并從圖像-姿勢對中學習,以實現姿勢可控的文本到圖像生成。
在第二訓練階段,研將圖像模型擴展為3D網絡,從無姿勢視頻中學習時間上的連貫性。
通過研究團隊的幾項新設計,所得框架可以生成具有新穎創意和時間上連貫的視頻,同時保留原始T2I模型的概念組合能力。
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。