字節(jié)推出全新AI數(shù)字人模型!可從單張照片生成逼真全身動態(tài)視頻
初創(chuàng)公司掀起AI浪潮的同時,頭部互聯(lián)網(wǎng)企業(yè)在AI賽道的步伐同樣沒有停歇!
2月6日,字節(jié)跳動數(shù)字人團隊推出了新的多模態(tài)數(shù)字人方案OmniHuman,其可以對任意尺寸和人物占比的單張圖片結(jié)合一段輸入的音頻進行視頻生成,生成的人物視頻效果生動,具有非常高的自然度。
字節(jié)推出全新AI數(shù)字人模型
字節(jié)跳動公司研究人員開發(fā)了一種名為OmniHuman-1的人工智能模型,能夠從單張圖像生成逼真全身動態(tài)視頻,效果令人驚嘆。
該模型能夠通過一張圖片配合音頻或視頻,生成非常自然的會說話、唱歌的人類動作視頻。在生成動畫時能夠保持極高的真實感,能夠精確捕捉到人類的面部表情、身體動作、手勢變化、物體交互等細節(jié)。
其支持各種不同類型輸入(如單一的人物圖片和音頻、視頻等信號),生成非常逼真的真人視頻動畫,涵蓋從面部表情到全身動作,無論是說話、唱歌、跳舞等,超越了以往僅能動畫面部或上半身的AI模型。
據(jù)了解,該模型采用基于DiT架構(gòu)的多模態(tài)運動條件混合訓(xùn)練策略,解決高質(zhì)量數(shù)據(jù)稀缺問題。這項技術(shù)的核心在于,它結(jié)合了文本、音頻和人體動作等多種輸入,通過一種稱為“全條件”訓(xùn)練的創(chuàng)新方法,使得AI能夠從更大、更豐富的數(shù)據(jù)集中學(xué)習(xí)。
從評測結(jié)果而言,通過與多個已存在的模型定量對比,OmniHuman算法在多項評估指標(biāo)上展現(xiàn)出顯著優(yōu)勢。
研究團隊指出,OmniHuman經(jīng)過超過18700小時的人類視頻數(shù)據(jù)訓(xùn)練,表現(xiàn)出了顯著的進步。通過引入多種條件信號(例如文本、音頻和姿勢),這項技術(shù)不僅提升了視頻生成的質(zhì)量,還有效減少了數(shù)據(jù)的浪費。
“OmniHuman通過引入多模態(tài)條件驅(qū)動和全條件訓(xùn)練策略,成功解決了人類動畫生成領(lǐng)域長期存在的數(shù)據(jù)擴展和泛化能力問題。這一發(fā)展出現(xiàn)在AI視頻生成技術(shù)競爭日益激烈的背景下,谷歌、Meta和微軟等公司也在積極追逐類似技術(shù)。”有業(yè)內(nèi)人士指出。
數(shù)字人規(guī)模明年或?qū)⑦_百億元
當(dāng)下,全球數(shù)字人進入高產(chǎn)時代,相關(guān)產(chǎn)業(yè)規(guī)模不斷擴大,互聯(lián)網(wǎng)巨頭紛紛下場布局。
目前,除百度、騰訊、阿里巴巴等互聯(lián)網(wǎng)公司,華為云、京東云、字節(jié)跳動、科大訊飛、商湯科技、小冰公司等廠商都已參與到虛擬數(shù)字人生產(chǎn)中。
天眼查數(shù)據(jù)顯示,截至2024年9月底,中國與數(shù)字人相關(guān)的企業(yè)數(shù)量已達114.4萬家,僅2024年前五個月就新增注冊企業(yè)17.4萬余家,顯示出數(shù)字人產(chǎn)業(yè)的市場潛力與活力。
浙商證券認為,數(shù)字人有望成為AI大模型的服務(wù)入口,在幫助企業(yè)實現(xiàn)降本增效的同時,實現(xiàn)toB服務(wù)在toC側(cè)的變現(xiàn)閉環(huán)。
IDC最新發(fā)布的報告顯示,中國虛擬數(shù)字人市場規(guī)模呈現(xiàn)高速增長趨勢,預(yù)計到2026年將達102.4億元。
智研咨詢認為,隨著AI技術(shù)不斷進步,智能驅(qū)動型虛擬數(shù)字人將成為市場主流。虛擬數(shù)字人的擬人化程度為其核心特征及競爭力所在,虛擬數(shù)字人包括真人驅(qū)動型與人工智能驅(qū)動型,其中真人驅(qū)動型虛擬數(shù)字人仍離不開現(xiàn)實真人,其動作捕捉、音視頻合成等均需要中之人配合完成,擬人化程度更高。目前智能驅(qū)動型虛擬數(shù)字人受限于技術(shù)、設(shè)備因素,擬人逼真程度不及真人驅(qū)動型。
未來隨著自然語言處理、深度學(xué)習(xí)算法等AI技術(shù)的不斷發(fā)展與突破,智能驅(qū)動型虛擬數(shù)字人感知能力、表達能力與認知能力都將得到大幅提升,且成本也將進一步下滑。
在性能與成本優(yōu)勢不斷顯現(xiàn)下,能夠?qū)崿F(xiàn)自我認知和進化的智能驅(qū)動型虛擬數(shù)字人將逐步取代真人驅(qū)動型虛擬數(shù)字人,成為市場主流,廣泛地應(yīng)用在各個領(lǐng)域。尤其是AIGC技術(shù)的興起,將助力智能驅(qū)動型數(shù)字人個性化定制及智能化交互能力再上新臺階。
(文章來源:中國基金報)
- 免責(zé)聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風(fēng)險,讀者在采取與本文內(nèi)容相關(guān)的任何行動之前,請務(wù)必進行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產(chǎn)生的任何金錢損失負任何責(zé)任。