首頁 > AI資訊 > 行業動態 > 字節跳動放大招!OmniHuman數字人模型即將上線:一張圖+一段音頻即可生成視頻

字節跳動放大招!OmniHuman數字人模型即將上線:一張圖+一段音頻即可生成視頻

新火種    2025-02-07

2月7日消息,近期,抖音集團旗下圖片視頻工具即夢AI在官方社交媒體上發布了一條新功能上線預告片。

視頻顯示,新功能采用了全新的多模態視頻生成模型OmniHuman,讓用戶僅需輸入一張圖片和一段音頻,就可以生成一條生動的AI視頻,有望大幅提升AI短片的制作效率和質量。

字節跳動放大招!OmniHuman數字人模型即將上線:一張圖+一段音頻即可生成視頻

OmniHuman技術主頁信息顯示,該模型為字節跳動自研的閉源模型,可支持肖像、半身以及全身等不同尺寸的圖片輸入,并根據輸入的音頻,在視頻中讓人物生成與之匹配的動作,包括演講、唱歌、樂器演奏以及移動。

對于人物視頻生成中常見的手勢崩壞,也相比現有方法取得了顯著的改善。

此外,對動漫、3D卡通等非真人圖片輸入的支持效果也較為出色,生成的視頻能保持特定風格和原有的運動模式。

根據技術主頁展示的演示效果來看,OmniHuman的生成效果已經具有較高的自然度。為防止該項技術被不當利用,字節跳動技術團隊在主頁中特別標注稱,OmniHuman將不會對外提供下載。

即夢AI相關負責人透露,該模型目前已具備較好的表現,但在生成影視真實級別的視頻上仍存在一定的提升空間。

由其支持的多模態視頻生成功能會在即夢上以小范圍內測的形式進行調優調整,并逐步開放。

該負責人同時表示,即夢還會對這一功能設置嚴格的安全審核機制,并且對輸出的視頻標注水印以作提醒,從而確保AI發揮正面、積極的作用,助力視頻創作者更好地實現想象力的表達。

字節跳動放大招!OmniHuman數字人模型即將上線:一張圖+一段音頻即可生成視頻


Tags:
相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章