天天射天天干天天爽,久久亚洲精品无码va白人极品,中文字幕资源站

首頁 > AI資訊 > 最新資訊 > VBench直接干到了第一！這一次，視頻生成「壓番」全場(chǎng)的是家央企

VBench直接干到了第一！這一次，視頻生成「壓番」全場(chǎng)的是家央企

新火種 2024-12-04

高難度武打視頻，也能「手拿把掐」。

回想起來，年初對(duì)國內(nèi)文生視頻技術(shù)迭代速度的預(yù)估還是保守了。OpenAI 在 2 月發(fā)布 Sora 后，至今還是期貨，但國內(nèi)科技界迅速跟進(jìn)，幾乎月月有戰(zhàn)報(bào)。字節(jié) 3 月底就端出「即夢(mèng)」，3-6 秒的小視頻隨心所欲地玩。生數(shù)科技 4 月底放出 Vidu 模型，硬剛 Sora。快手 6 月祭出「可靈」，又把 AI 吃播玩出新水平。9月，字節(jié)又有新動(dòng)作。騰訊「混元」姍姍來遲，還搞了個(gè)開源。沒想到的是，眼瞅著 2024 快要翻篇了，賽道里居然又?jǐn)D進(jìn)一位大牌選手，身份還有些特殊。央企、也是三大運(yùn)營(yíng)商之一：中國電信。憑借全自研技術(shù)、海量數(shù)據(jù)和萬卡「家底」，中國電信人工智能研究院（以下簡(jiǎn)稱 TeleAI ）發(fā)布了視頻生成大模型。繼星辰語義大模型、星辰語音大模型之后，TeleAI 再次展示了中國電信在大模型領(lǐng)域與科技巨頭同臺(tái)競(jìng)技的雄心。這家 7 月才掛牌的研究院，正攜手中電信人工智能科技有限公司用一個(gè)個(gè)創(chuàng)新，重新定義傳統(tǒng)運(yùn)營(yíng)商在 AI 時(shí)代的角色。這個(gè)視頻生成大模型有多能打？作為 12 月 1 日最新上榜的模型，它在 VBench 上直接干到了第一，大幅領(lǐng)先第二名。VBench 是一個(gè)全面的「視頻生成模型的評(píng)測(cè)框架」，它將「視頻生成質(zhì)量」細(xì)分為 16 個(gè)評(píng)分維度，從人物形象一致性、動(dòng)作流暢度、畫面穩(wěn)定性到空間關(guān)系等方面對(duì)模型進(jìn)行細(xì)致、客觀的評(píng)估。

TeleAI-VAST在VBench榜單上表現(xiàn)亮眼。

項(xiàng)目鏈接：https://huggingface.co/spaces/Vchitect/VBench_Leaderboard

TeleAI 視頻生成大模型在 VBench 的 16 個(gè)評(píng)分項(xiàng)目中，一舉奪得 9 項(xiàng)第一，覆蓋了模型最核心的幾個(gè)能力。如，畫面穩(wěn)定性（時(shí)序閃爍）、語義一致性（物體分類、多物體、人體動(dòng)作）、空間場(chǎng)景（空間關(guān)系、場(chǎng)景），以及視覺風(fēng)格（顏色、外觀、時(shí)序風(fēng)格）。其中，有 5 項(xiàng)得分超過 99%，更有兩項(xiàng)——物體分類和人體動(dòng)作——拿了滿分 100% 。模型的語義表達(dá)能力尤其亮眼。以 92.63% 的總分領(lǐng)先第二名整整 11 個(gè)百分點(diǎn)，幾乎橫掃了所有相關(guān)指標(biāo)第一名，從語義一致性、多物體生成到空間場(chǎng)景把控，都展現(xiàn)出超出同儕的專業(yè)水準(zhǔn)。

視頻質(zhì)量同樣出色，以 88.60% 的總分獨(dú)占鰲頭。無論是畫面穩(wěn)定性、時(shí)序連貫性，還是視覺風(fēng)格的把控，均表現(xiàn)不俗。

這么看，不管是「理解視頻」還是「做視頻」，這模型都挺全面，成功超越Runway Gen-3、可靈、Vidu、MiniMax-Video-01、Pika 等一眾勁敵。它算是把物理玩明白了

作為中國電信 2024 年數(shù)字科技生態(tài)大會(huì)的重要環(huán)節(jié)，今天的 TeleAI 開發(fā)者大會(huì)展示了一段令人印象深刻的 AI 視頻。

這段 3 分鐘的視頻不僅能從容駕馭 4 個(gè)主角，還能流暢切換多個(gè)場(chǎng)景。

3 分鐘視頻僅是冰山一角，通過分鏡生成加主題目標(biāo)注入，理論上已經(jīng)可以生成任意長(zhǎng)度的視頻內(nèi)容。看來野心不小。要知道，當(dāng)前 AI 視頻生成領(lǐng)域仍在短視頻階段摸索，大多數(shù)模型僅能生成十幾秒的內(nèi)容。即便是少數(shù)能達(dá)到 3 分鐘的作品，通常也只能應(yīng)付單個(gè)主角。就算是單一主體，維持目標(biāo)一致性也是巨大挑戰(zhàn)。就連 Sora 這樣的頂級(jí)模型也存在類似問題。在這個(gè)廣為流傳的視頻中，提示詞設(shè)定的是一只鸚鵡，結(jié)果突然變成多只。當(dāng)鸚鵡與猴子發(fā)生交集，動(dòng)物特征開始混亂：鸚鵡的翅膀扭曲了，后來頭也沒了。猴子呢？一只長(zhǎng)出了鸚鵡腳趾，另一只居然有了鸚鵡的尾巴。

提示詞：An overhead view of a parrot flying through a verdant Costa Rica jungle, then landing on a tree branch to eat a piece of fruit with a group of monkeys. Golden hour, 35mm film.

而隨著視頻時(shí)長(zhǎng)延長(zhǎng)、主體數(shù)量增加，一致性難度會(huì)呈指數(shù)級(jí)上升。但從 VBench 評(píng)測(cè)榜單可見，TeleAI 的模型在主體一致性（subject consistency）方面表現(xiàn)出色，對(duì)付這一技術(shù)難點(diǎn)自然有一手。

從大會(huì)展示的視頻效果看，四位女主角在多場(chǎng)景切換中保持了高度的形象穩(wěn)定性，也印證了這一點(diǎn)。

各個(gè)視頻片段都能夠保持主體外觀的一致性

下面兩個(gè)視頻展示了視頻生成大模型在多場(chǎng)景連續(xù)性上的實(shí)力。

從公交車、大街，再到酒吧和餐廳，目標(biāo)主體的外觀始終保持一致：面部特征（包括佩戴墨鏡）、服裝、發(fā)型都很穩(wěn)定，沒有出現(xiàn)不連貫的情況。

從坐在教室聽課的學(xué)生到穿學(xué)士服領(lǐng)畢業(yè)證，服裝、造型隨著場(chǎng)景在變，但一眼就能認(rèn)出「這就是那個(gè)姑娘」。

更值得注意的是，憑借強(qiáng)大的語義表達(dá)能力，模型還展現(xiàn)出了類似 Sora 的鏡頭調(diào)度能力。

它能在一個(gè)視頻中創(chuàng)建多個(gè)鏡頭，并準(zhǔn)確保留角色特征和視覺風(fēng)格。這種多鏡頭敘事的手法讓畫面具有了強(qiáng)烈的電影敘事感。

這段 AI演練視頻也展現(xiàn)了令人印象深刻的多鏡頭敘事。

一會(huì)兒在天上俯拍，把整個(gè)艦隊(duì)盡收眼底；一會(huì)兒從航母甲板上，特寫艦載機(jī)起飛的瞬間。還有從攝影船上水平拍攝、空中跟拍，甚至水下拍攝。

一套「組合拳」打下來，確實(shí)玩出了大片的味道。

事實(shí)上，與目前 Sora 生成的默片相比，這個(gè) AI 演練作品還有一個(gè)更勝一籌的地方。

Sora 雖然在畫面生成上表現(xiàn)出色，但缺少聲音確實(shí)削弱了視頻的感染力。TeleAI 視頻生成大模型在這方面實(shí)現(xiàn)了突破，能夠同步生成與畫面完美契合的音頻效果。

不過，當(dāng)前的視頻大模型除了要應(yīng)對(duì)目標(biāo)一致性的挑戰(zhàn)，還面臨著一個(gè)更基礎(chǔ)的問題：對(duì)物理規(guī)律和常識(shí)的理解還很膚淺。這導(dǎo)致它們經(jīng)常翻車。

人在跑步機(jī)上莫名其妙地倒著跑。

體育視頻更是重災(zāi)區(qū)。體操運(yùn)動(dòng)員四肢橫飛、身體扭曲、與單杠、墊子的交互完全脫離物理法則，場(chǎng)面非常恐怖。

TeleAI 視頻生成大模型在遵循物理和常識(shí)方面展現(xiàn)出突出實(shí)力，在 VBench 測(cè)試中的人體動(dòng)作和物體分類兩項(xiàng)指標(biāo)都拿下了滿分。

就說這個(gè)跳水片段。人物從懸崖邊騰空到入水的整個(gè)過程，動(dòng)作姿態(tài)流暢自然，符合物理定律，也沒有 AI 生成常見的扭曲變形。懸崖邊的浪花效果也很逼真。

TeleAI 開發(fā)者大會(huì)秀出的視頻中，女主躍入大海時(shí)，肢體沒有橫飛和扭曲。

跳水還只是單人項(xiàng)目，再看這段打戲，難度可就更大了。

一個(gè)是動(dòng)作要協(xié)調(diào)。兩個(gè)人打起來，一個(gè)出拳另一個(gè)要躲，動(dòng)作配合要天衣無縫。其次，距離感也得把握好，打近了怕穿模，太遠(yuǎn)又顯得夠不著。

這段視頻展現(xiàn)了 AI 在多主體互動(dòng)場(chǎng)景中的出色表現(xiàn)。

武器碰撞、進(jìn)攻防守都很到位，真假美猴王和武器也沒有穿模，打斗場(chǎng)面比較自然流暢。即使在高速運(yùn)動(dòng)中，美猴王的外貌、服裝和武器也沒走樣。

回看此前的 AI 演練視頻，模型在多主體場(chǎng)景的物理模擬方面同樣表現(xiàn)出色。

無論是空中編隊(duì)飛行，還是多個(gè)主體的動(dòng)態(tài)位置和姿態(tài)，都保持了合理的空間關(guān)系，避免了穿模問題。

火焰和煙霧的形態(tài)與擴(kuò)散過程，也都嚴(yán)格遵循物理規(guī)律，呈現(xiàn)出真實(shí)可信的視覺效果。

而這個(gè)摘頭盔的片段，特別能說明大模型處理復(fù)雜動(dòng)作序列時(shí)的能力。

人的手指與頭盔的交互準(zhǔn)確自然，摘頭盔時(shí)頭發(fā)的晃動(dòng)效果逼真，整個(gè)動(dòng)作序列顯得連貫流暢。畫面中沒有出現(xiàn)「六指」或手指穿模等常見缺陷。

場(chǎng)景的遠(yuǎn)近層次感也處理得當(dāng)。遠(yuǎn)處的火山爆發(fā)場(chǎng)景自然虛化，而近處的人物保持清晰，使整個(gè)畫面看起來層次分明又不顯呆板。

應(yīng)用為王：從視頻到短劇平臺(tái)

TeleAI 在保持目標(biāo)主體一致性和還原真實(shí)世界細(xì)節(jié)方面的突破性進(jìn)展，可不僅僅是為了玩視頻生成，他們盯上了一塊更大的蛋糕：AI 短劇市場(chǎng)。

短劇近年來太火，打開 App Store ，榜首基本被短劇應(yīng)用霸占。用戶就愛這種幾分鐘的「快餐」，劇情快，看著過癮。

要說市場(chǎng)規(guī)模，去年短劇就已經(jīng)到了 373.9 億，比前年暴增 267.65% 。這數(shù)字已經(jīng)頂?shù)蒙想娪捌狈康钠叱闪恕＝衲觐A(yù)計(jì)還要突破 500 億，直逼電影市場(chǎng)。

周星馳出品的《金豬玉葉》6月在抖音上線，短短幾天播放量就沖破3000萬，這部劇總共24集，每集也就5分鐘左右，整個(gè)拍攝周期才用了13天。

目前已有創(chuàng)作者使用 AI 制作短視頻，一些作品播放量輕松突破百萬。業(yè)內(nèi)普遍看好視頻生成在中國的發(fā)展前景，認(rèn)為 AI 將為短視頻產(chǎn)業(yè)，特別是短劇行業(yè)帶來重大機(jī)遇。

不過，要說用 AI 拍完整短劇，還有不少坑要填。短劇制作很復(fù)雜，要搞定劇本、人物、視頻、音頻，最后還得串成完整的故事。現(xiàn)在創(chuàng)作者得在各種 AI 工具間倒騰，連 Sora 都做不到「一條龍」服務(wù)。

TeleAI 在這件事上拿出了態(tài)度：

他們已經(jīng)完成了語義、語音、視覺、多模態(tài)等技術(shù)的全模態(tài)布局，目標(biāo)是將這些能力整合，實(shí)現(xiàn)用戶輸入故事構(gòu)思即可「一鍵生成」短劇的愿景。

在具體實(shí)現(xiàn)上，他們的星辰大模型可將創(chuàng)意構(gòu)思轉(zhuǎn)化為成熟劇本，通過文生圖技術(shù)塑造人物形象，根據(jù)劇本生成分鏡圖，最后基于這些素材生成外觀統(tǒng)一、情節(jié)連貫的視頻片段，最終合成完整短劇。

就拿這個(gè)視頻模型來說，為了做短劇，TeleAI 沒跟著 Sora 走一樣的路，而是另起爐灶，全自研了二階段視頻生成技術(shù) VAST。

通過兩階段生成框架——先畫分鏡，再生成視頻，這項(xiàng)關(guān)鍵技術(shù)顯著提升了短劇創(chuàng)作過程的可控性。

說得更具體一些。

第一階段就像導(dǎo)演畫分鏡，借助多模態(tài)大模型和自回歸技術(shù)，將文字描述轉(zhuǎn)換成一系列分鏡頭。這些「分鏡」包含了人物姿勢(shì)、場(chǎng)景分布、遠(yuǎn)近關(guān)系等關(guān)鍵信息，相當(dāng)于給后面的視頻生成打好了草稿。

第二階段如同真實(shí)拍攝，讓擴(kuò)散模型根據(jù)這些「分鏡」開始生成視頻畫面。通過將「分鏡」作為條件輸入，并結(jié)合文本描述和目標(biāo)主體的外觀特征，生成能夠精準(zhǔn)控制主體位置、動(dòng)作和外觀的視頻內(nèi)容。

比如短劇的一場(chǎng)打戲，大模型會(huì)先規(guī)劃出完整的動(dòng)作編排：從出手角度、躲閃走位到環(huán)境互動(dòng)，都在分鏡中預(yù)先設(shè)定。

當(dāng)系統(tǒng)生成實(shí)際畫面時(shí)，就能嚴(yán)格按照這份草稿來呈現(xiàn)，確保每個(gè)出招防守都準(zhǔn)確到位，武打場(chǎng)面既符合物理規(guī)律，又富有觀賞性。

實(shí)現(xiàn)對(duì)復(fù)雜動(dòng)作的精確控制

TeleAI 視頻生成大模型的進(jìn)化仍在加速。它的下一步規(guī)劃令人期待：多目標(biāo)控制、鏡頭運(yùn)動(dòng)、3D 渲染全面升級(jí)。而這一切，都將在即將到來的一站式 AI 短劇平臺(tái)中實(shí)現(xiàn)。

想象一下：一個(gè)創(chuàng)意、一臺(tái)電腦，就能完成從劇本創(chuàng)作到視頻生成的全流程。當(dāng) Sora 還在實(shí)驗(yàn)室里磨練時(shí)，為什么不先來嘗試已經(jīng)觸手可及的創(chuàng)作利器？

對(duì)于每個(gè)懷揣故事夢(mèng)想的創(chuàng)作者來說，TeleAI 正在讓「一個(gè)人拍一部劇」成為現(xiàn)實(shí)。這扇通向 AI 短劇時(shí)代的大門已經(jīng)打開，而你，準(zhǔn)備好成為下一個(gè)創(chuàng)作先鋒了嗎？

Tags:

深度學(xué)習(xí) 全場(chǎng) 視頻

相關(guān)推薦

免責(zé)聲明: 本文所包含的觀點(diǎn)僅代表作者個(gè)人看法，不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對(duì)本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。交易和投資涉及高風(fēng)險(xiǎn)，讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前，請(qǐng)務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對(duì)因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。

VBench直接干到了第一！這一次，視頻生成「壓番」全場(chǎng)的是家央企

2024浦東國際人才港論壇丨人工智能產(chǎn)業(yè)人才論壇最新日程出爐，掃碼報(bào)名開啟“AI人才進(jìn)階之旅”

關(guān)于LLM-as-a-judge范式，終于有綜述講明白了

VBench直接干到了第一！這一次，視頻生成「壓番」全場(chǎng)的是家央企

新炬網(wǎng)絡(luò)亮相DAMS2024，引航大模型賦能下的智能運(yùn)維再升級(jí)

百度Q3核心凈利潤(rùn)增長(zhǎng)17%超預(yù)期文心大模型日調(diào)用量達(dá)15億

熱門文章