字節讓達芬奇和蒙娜麗莎“隔空吵架”,只需一張圖、一段音頻
AIGC在視頻生成領域展現出非凡的潛力。近期, 字節跳動智能創作團隊和得克薩斯大學達拉斯分校又提出了一項名為DREAM-Talk的基于擴散模型框架:接收一段驅動的音頻序列、一張給定的人像圖片和一個情感風格的例子(一段有情感的講話面部視頻)作為輸入,就能生成一段逼真的、嘴唇同步的講話面部視頻,其中包含高質量的情感表達,連畫像也能繪聲繪色地進行表演,還支持多個語種。
(以下結果包括真實人類圖像和由 AIGC 生成的圖像。)
DREAM-Talk 框架的流程如下:
首先,將音頻映射到表情是一個一對多的問題,使得獲得動態和真實的表情變得困難。
其次,生成一系列3D臉部表情參數涉及許多問題,如連續性和多樣性。為了應對這些挑戰,團隊提出了基于擴散的模型,用于生成3D面部表情序列。以輸入的音頻、初始狀態和情感風格作為條件,團隊利用EmoDiff學習隨時間去噪3D表情,使用基于Transformer的架構進行序列建模。初始狀態對應于第一幀中的表情,情感風格由隨機選擇的表情片段定義,獨立于輸入音頻。
從擴散模型獲得動態情感表達后,團隊觀察到擴散網絡無意中減少了音頻的影響,導致音頻和嘴形之間明顯的不匹配。這種現象歸因于擴散網絡生成真實序列的傾向,從而減弱了音頻的影響。為了糾正這個問題,團隊引入了一個嘴唇同步細化網絡,利用相同的音頻和情感數據來重新校準并生成細化的嘴部參數。利用條件約束的音頻和情感表達,嘴唇細化模型進一步優化口部動作,而不改變情感,之后使用blendshape生成相應的 3D 渲染面部。
最后,團隊采用經過微調的Face-Vid2Vid模型生成情感講話視頻。具體來說,團隊使用Face-Vid2Vid方法作為基本的神經渲染方法。此外,團隊對模型進行了微調處理,使用精心挑選的高分辨率表達性講話視頻,來自TalkHead-1HK數據集,旨在提升表達性和渲染質量。
與最新方法的比較:在前兩個比較中,團隊分別對MEAD和HDTF數據集進行評估。在第三個比較中,團隊使用一個由AIGC生成的面部。團隊還將團隊的Rig模型結果作為中間表示進行可視化。團隊的方法在情感表達、嘴唇同步、身份保持和圖像質量方面始終產生顯著優越的結果。
多人物情感演示: 支持各種情感表達,如憤怒、快樂、悲傷、驚訝等。
跨越時空的對話演示: 達芬奇主要表現憤怒,而蒙娜麗莎則表現快樂。
多語言演示: 支持情感表情生成,包括中文、日語、法語、德語等。
關于字節跳動智能創作團隊智能創作團隊是字節跳動AI&多媒體技術中臺,覆蓋了計算機視覺、音視頻編輯、特效處理等技術領域,借助字節跳動豐富的業務場景、基礎設施資源和良好的技術協作氛圍,實現了前沿算法-工程系統-產品全鏈路的閉環,旨在以多種形式為公司內部各業務提供業界前沿的內容理解、內容創作、互動體驗與消費的能力和行業解決方案。
目前,智能創作團隊已通過字節跳動旗下的云服務平臺火山引擎向企業開放技術能力和服務。更多大模型算法相關崗位開放中。
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。