首頁 > AI資訊 > 最新資訊 > VBench直接干到了第一!這一次,視頻生成「壓番」全場(chǎng)的是家央企

VBench直接干到了第一!這一次,視頻生成「壓番」全場(chǎng)的是家央企

新火種    2024-12-04

高難度武打視頻,也能「手拿把掐」。

回想起來,年初對(duì)國內(nèi)文生視頻技術(shù)迭代速度的預(yù)估還是保守了。OpenAI 在 2 月發(fā)布 Sora 后,至今還是期貨,但國內(nèi)科技界迅速跟進(jìn),幾乎月月有戰(zhàn)報(bào)。字節(jié) 3 月底就端出「即夢(mèng)」,3-6 秒的小視頻隨心所欲地玩。生數(shù)科技 4 月底放出 Vidu 模型,硬剛 Sora。快手 6 月祭出「可靈」,又把 AI 吃播玩出新水平。9月,字節(jié)又有新動(dòng)作。騰訊「混元」姍姍來遲,還搞了個(gè)開源。沒想到的是,眼瞅著 2024 快要翻篇了,賽道里居然又?jǐn)D進(jìn)一位大牌選手,身份還有些特殊。央企、也是三大運(yùn)營(yíng)商之一:中國電信。憑借全自研技術(shù)、海量數(shù)據(jù)和萬卡 「家底」 ,中國電信人工智能研究院(以下簡(jiǎn)稱 TeleAI )發(fā)布了視頻生成大模型。繼星辰語義大模型、星辰語音大模型之后,TeleAI 再次展示了中國電信在大模型領(lǐng)域與科技巨頭同臺(tái)競(jìng)技的雄心。這家 7 月才掛牌的研究院,正攜手中電信人工智能科技有限公司用一個(gè)個(gè)創(chuàng)新,重新定義傳統(tǒng)運(yùn)營(yíng)商在 AI 時(shí)代的角色。這個(gè)視頻生成大模型有多能打?作為 12 月 1 日最新上榜的模型,它在 VBench 上直接干到了第一,大幅領(lǐng)先第二名。VBench 是一個(gè)全面的「視頻生成模型的評(píng)測(cè)框架」,它將「視頻生成質(zhì)量」細(xì)分為 16 個(gè)評(píng)分維度,從人物形象一致性、動(dòng)作流暢度、畫面穩(wěn)定性到空間關(guān)系等方面對(duì)模型進(jìn)行細(xì)致、客觀的評(píng)估。

圖片 

TeleAI-VAST在VBench榜單上表現(xiàn)亮眼。

項(xiàng)目鏈接:https://huggingface.co/spaces/Vchitect/VBench_Leaderboard

TeleAI 視頻生成大模型在 VBench 的 16 個(gè)評(píng)分項(xiàng)目中,一舉奪得 9 項(xiàng)第一,覆蓋了模型最核心的幾個(gè)能力。如,畫面穩(wěn)定性(時(shí)序閃爍)、語義一致性(物體分類、多物體、人體動(dòng)作)、空間場(chǎng)景(空間關(guān)系、場(chǎng)景),以及視覺風(fēng)格(顏色、外觀、時(shí)序風(fēng)格)。其中,有 5 項(xiàng)得分超過 99%,更有兩項(xiàng)——物體分類和人體動(dòng)作——拿了滿分 100% 。模型的語義表達(dá)能力尤其亮眼。以 92.63% 的總分領(lǐng)先第二名整整 11 個(gè)百分點(diǎn),幾乎橫掃了所有相關(guān)指標(biāo)第一名,從語義一致性、多物體生成到空間場(chǎng)景把控,都展現(xiàn)出超出同儕的專業(yè)水準(zhǔn)。

視頻質(zhì)量同樣出色,以 88.60% 的總分獨(dú)占鰲頭。無論是畫面穩(wěn)定性、時(shí)序連貫性,還是視覺風(fēng)格的把控,均表現(xiàn)不俗。

這么看,不管是「理解視頻」還是「做視頻」,這模型都挺全面,成功超越Runway Gen-3、可靈、Vidu、MiniMax-Video-01、Pika 等一眾勁敵。它算是把物理玩明白了

作為中國電信 2024 年數(shù)字科技生態(tài)大會(huì)的重要環(huán)節(jié),今天的 TeleAI 開發(fā)者大會(huì)展示了一段令人印象深刻的 AI 視頻。

這段 3 分鐘的視頻不僅能從容駕馭 4 個(gè)主角,還能流暢切換多個(gè)場(chǎng)景。

3 分鐘視頻僅是冰山一角,通過分鏡生成加主題目標(biāo)注入,理論上已經(jīng)可以生成任意長(zhǎng)度的視頻內(nèi)容。看來野心不小。要知道,當(dāng)前 AI 視頻生成領(lǐng)域仍在短視頻階段摸索,大多數(shù)模型僅能生成十幾秒的內(nèi)容。即便是少數(shù)能達(dá)到 3 分鐘的作品,通常也只能應(yīng)付單個(gè)主角。就算是單一主體,維持目標(biāo)一致性也是巨大挑戰(zhàn)。就連 Sora 這樣的頂級(jí)模型也存在類似問題。在這個(gè)廣為流傳的視頻中,提示詞設(shè)定的是一只鸚鵡,結(jié)果突然變成多只。當(dāng)鸚鵡與猴子發(fā)生交集,動(dòng)物特征開始混亂:鸚鵡的翅膀扭曲了,后來頭也沒了。猴子呢?一只長(zhǎng)出了鸚鵡腳趾,另一只居然有了鸚鵡的尾巴。

圖片

提示詞:An overhead view of a parrot flying through a verdant Costa Rica jungle, then landing on a tree branch to eat a piece of fruit with a group of monkeys. Golden hour, 35mm film.

而隨著視頻時(shí)長(zhǎng)延長(zhǎng)、主體數(shù)量增加,一致性難度會(huì)呈指數(shù)級(jí)上升。但從 VBench 評(píng)測(cè)榜單可見,TeleAI 的模型在主體一致性(subject consistency)方面表現(xiàn)出色,對(duì)付這一技術(shù)難點(diǎn)自然有一手。

從大會(huì)展示的視頻效果看,四位女主角在多場(chǎng)景切換中保持了高度的形象穩(wěn)定性,也印證了這一點(diǎn)。

圖片圖片

圖片

各個(gè)視頻片段都能夠保持主體外觀的一致性

下面兩個(gè)視頻展示了視頻生成大模型在多場(chǎng)景連續(xù)性上的實(shí)力。

從公交車、大街,再到酒吧和餐廳,目標(biāo)主體的外觀始終保持一致:面部特征(包括佩戴墨鏡)、服裝、發(fā)型都很穩(wěn)定,沒有出現(xiàn)不連貫的情況。

從坐在教室聽課的學(xué)生到穿學(xué)士服領(lǐng)畢業(yè)證,服裝、造型隨著場(chǎng)景在變,但一眼就能認(rèn)出「這就是那個(gè)姑娘」。

圖片

更值得注意的是,憑借強(qiáng)大的語義表達(dá)能力,模型還展現(xiàn)出了類似 Sora 的鏡頭調(diào)度能力。

它能在一個(gè)視頻中創(chuàng)建多個(gè)鏡頭,并準(zhǔn)確保留角色特征和視覺風(fēng)格。這種多鏡頭敘事的手法讓畫面具有了強(qiáng)烈的電影敘事感。

圖片

這段 AI演練視頻也展現(xiàn)了令人印象深刻的多鏡頭敘事。

一會(huì)兒在天上俯拍,把整個(gè)艦隊(duì)盡收眼底;一會(huì)兒從航母甲板上,特寫艦載機(jī)起飛的瞬間。還有從攝影船上水平拍攝、空中跟拍,甚至水下拍攝。

一套「組合拳」打下來,確實(shí)玩出了大片的味道。

事實(shí)上,與目前 Sora 生成的默片相比,這個(gè) AI 演練作品還有一個(gè)更勝一籌的地方。

Sora 雖然在畫面生成上表現(xiàn)出色,但缺少聲音確實(shí)削弱了視頻的感染力。TeleAI 視頻生成大模型在這方面實(shí)現(xiàn)了突破,能夠同步生成與畫面完美契合的音頻效果。

不過,當(dāng)前的視頻大模型除了要應(yīng)對(duì)目標(biāo)一致性的挑戰(zhàn),還面臨著一個(gè)更基礎(chǔ)的問題:對(duì)物理規(guī)律和常識(shí)的理解還很膚淺。這導(dǎo)致它們經(jīng)常翻車。

人在跑步機(jī)上莫名其妙地倒著跑。

圖片

體育視頻更是重災(zāi)區(qū)。體操運(yùn)動(dòng)員四肢橫飛、身體扭曲、與單杠、墊子的交互完全脫離物理法則,場(chǎng)面非常恐怖。

圖片

TeleAI 視頻生成大模型在遵循物理和常識(shí)方面展現(xiàn)出突出實(shí)力,在 VBench 測(cè)試中的人體動(dòng)作和物體分類兩項(xiàng)指標(biāo)都拿下了滿分。

就說這個(gè)跳水片段。人物從懸崖邊騰空到入水的整個(gè)過程,動(dòng)作姿態(tài)流暢自然,符合物理定律,也沒有 AI 生成常見的扭曲變形。懸崖邊的浪花效果也很逼真。

TeleAI 開發(fā)者大會(huì)秀出的視頻中,女主躍入大海時(shí),肢體沒有橫飛和扭曲。

跳水還只是單人項(xiàng)目,再看這段打戲,難度可就更大了。

一個(gè)是動(dòng)作要協(xié)調(diào)。兩個(gè)人打起來,一個(gè)出拳另一個(gè)要躲,動(dòng)作配合要天衣無縫。其次,距離感也得把握好,打近了怕穿模,太遠(yuǎn)又顯得夠不著。

這段視頻展現(xiàn)了 AI 在多主體互動(dòng)場(chǎng)景中的出色表現(xiàn)。

武器碰撞、進(jìn)攻防守都很到位,真假美猴王和武器也沒有穿模,打斗場(chǎng)面比較自然流暢。即使在高速運(yùn)動(dòng)中,美猴王的外貌、服裝和武器也沒走樣。

回看此前的 AI 演練視頻,模型在多主體場(chǎng)景的物理模擬方面同樣表現(xiàn)出色。

無論是空中編隊(duì)飛行,還是多個(gè)主體的動(dòng)態(tài)位置和姿態(tài),都保持了合理的空間關(guān)系,避免了穿模問題。

火焰和煙霧的形態(tài)與擴(kuò)散過程,也都嚴(yán)格遵循物理規(guī)律,呈現(xiàn)出真實(shí)可信的視覺效果。

圖片

而這個(gè)摘頭盔的片段,特別能說明大模型處理復(fù)雜動(dòng)作序列時(shí)的能力。

人的手指與頭盔的交互準(zhǔn)確自然,摘頭盔時(shí)頭發(fā)的晃動(dòng)效果逼真,整個(gè)動(dòng)作序列顯得連貫流暢。畫面中沒有出現(xiàn)「六指」或手指穿模等常見缺陷。

場(chǎng)景的遠(yuǎn)近層次感也處理得當(dāng)。遠(yuǎn)處的火山爆發(fā)場(chǎng)景自然虛化,而近處的人物保持清晰,使整個(gè)畫面看起來層次分明又不顯呆板。

應(yīng)用為王:從視頻到短劇平臺(tái)

TeleAI 在保持目標(biāo)主體一致性和還原真實(shí)世界細(xì)節(jié)方面的突破性進(jìn)展,可不僅僅是為了玩視頻生成,他們盯上了一塊更大的蛋糕:AI 短劇市場(chǎng)。

短劇近年來太火,打開 App Store ,榜首基本被短劇應(yīng)用霸占。用戶就愛這種幾分鐘的「快餐」,劇情快,看著過癮。

要說市場(chǎng)規(guī)模,去年短劇就已經(jīng)到了 373.9 億,比前年暴增 267.65% 。這數(shù)字已經(jīng)頂?shù)蒙想娪捌狈康钠叱闪恕=衲觐A(yù)計(jì)還要突破 500 億,直逼電影市場(chǎng)。

圖片 

周星馳出品的《金豬玉葉》6月在抖音上線,短短幾天播放量就沖破3000萬,這部劇總共24集,每集也就5分鐘左右,整個(gè)拍攝周期才用了13天。

目前已有創(chuàng)作者使用 AI 制作短視頻,一些作品播放量輕松突破百萬。業(yè)內(nèi)普遍看好視頻生成在中國的發(fā)展前景,認(rèn)為 AI 將為短視頻產(chǎn)業(yè),特別是短劇行業(yè)帶來重大機(jī)遇。

不過,要說用 AI 拍完整短劇,還有不少坑要填。短劇制作很復(fù)雜,要搞定劇本、人物、視頻、音頻,最后還得串成完整的故事。現(xiàn)在創(chuàng)作者得在各種 AI 工具間倒騰,連 Sora 都做不到「一條龍」服務(wù)。

TeleAI 在這件事上拿出了態(tài)度:

他們已經(jīng)完成了語義、語音、視覺、多模態(tài)等技術(shù)的全模態(tài)布局,目標(biāo)是將這些能力整合,實(shí)現(xiàn)用戶輸入故事構(gòu)思即可「一鍵生成」短劇的愿景。

在具體實(shí)現(xiàn)上,他們的星辰大模型可將創(chuàng)意構(gòu)思轉(zhuǎn)化為成熟劇本,通過文生圖技術(shù)塑造人物形象,根據(jù)劇本生成分鏡圖,最后基于這些素材生成外觀統(tǒng)一、情節(jié)連貫的視頻片段,最終合成完整短劇。

就拿這個(gè)視頻模型來說,為了做短劇,TeleAI 沒跟著 Sora 走一樣的路,而是另起爐灶,全自研了二階段視頻生成技術(shù) VAST。

通過兩階段生成框架——先畫分鏡,再生成視頻,這項(xiàng)關(guān)鍵技術(shù)顯著提升了短劇創(chuàng)作過程的可控性。

說得更具體一些。

第一階段就像導(dǎo)演畫分鏡,借助多模態(tài)大模型和自回歸技術(shù),將文字描述轉(zhuǎn)換成一系列分鏡頭。這些「分鏡」包含了人物姿勢(shì)、場(chǎng)景分布、遠(yuǎn)近關(guān)系等關(guān)鍵信息,相當(dāng)于給后面的視頻生成打好了草稿。

第二階段如同真實(shí)拍攝,讓擴(kuò)散模型根據(jù)這些「分鏡」開始生成視頻畫面。通過將「分鏡」作為條件輸入,并結(jié)合文本描述和目標(biāo)主體的外觀特征,生成能夠精準(zhǔn)控制主體位置、動(dòng)作和外觀的視頻內(nèi)容。

比如短劇的一場(chǎng)打戲,大模型會(huì)先規(guī)劃出完整的動(dòng)作編排:從出手角度、躲閃走位到環(huán)境互動(dòng),都在分鏡中預(yù)先設(shè)定。

當(dāng)系統(tǒng)生成實(shí)際畫面時(shí),就能嚴(yán)格按照這份草稿來呈現(xiàn),確保每個(gè)出招防守都準(zhǔn)確到位,武打場(chǎng)面既符合物理規(guī)律,又富有觀賞性。

圖片 

實(shí)現(xiàn)對(duì)復(fù)雜動(dòng)作的精確控制

TeleAI 視頻生成大模型的進(jìn)化仍在加速。它的下一步規(guī)劃令人期待:多目標(biāo)控制、鏡頭運(yùn)動(dòng)、3D 渲染全面升級(jí)。而這一切,都將在即將到來的一站式 AI 短劇平臺(tái)中實(shí)現(xiàn)。

想象一下:一個(gè)創(chuàng)意、一臺(tái)電腦,就能完成從劇本創(chuàng)作到視頻生成的全流程。當(dāng) Sora 還在實(shí)驗(yàn)室里磨練時(shí),為什么不先來嘗試已經(jīng)觸手可及的創(chuàng)作利器?

對(duì)于每個(gè)懷揣故事夢(mèng)想的創(chuàng)作者來說,TeleAI 正在讓「一個(gè)人拍一部劇」成為現(xiàn)實(shí)。這扇通向 AI 短劇時(shí)代的大門已經(jīng)打開,而你,準(zhǔn)備好成為下一個(gè)創(chuàng)作先鋒了嗎?

相關(guān)推薦
免責(zé)聲明
本文所包含的觀點(diǎn)僅代表作者個(gè)人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對(duì)本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險(xiǎn),讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前,請(qǐng)務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對(duì)因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。

熱門文章