首頁 > AI資訊 > 最新資訊 > 賽道正在變得擁擠騰訊混元大模型殺入文生視頻讓用戶“用起來”是關(guān)鍵

賽道正在變得擁擠騰訊混元大模型殺入文生視頻讓用戶“用起來”是關(guān)鍵

科創(chuàng)板日報(bào)    2024-12-05

《科創(chuàng)板日報(bào)》12月4日訊(記者 張洋洋)昨日,騰訊混元大模型正式上線視頻生成能力,這是繼文生文、文生圖、3D生成之后,混元大模型的最新業(yè)務(wù)進(jìn)展。與此同時(shí),騰訊開源該視頻生成大模型,參數(shù)量130億,是當(dāng)前最大的視頻開源模型。

“用戶只需要輸入一段描述,即可生成視頻,”騰訊混元相關(guān)負(fù)責(zé)人透露,目前的生成視頻支持中英文雙語輸入、多種視頻尺寸以及多種視頻清晰度。目前該模型已上線騰訊元寶APP,用戶可在AI應(yīng)用中的“AI視頻”板塊申請?jiān)囉谩F髽I(yè)用戶通過騰訊云提供服務(wù)接入,目前API同步開放內(nèi)測申請。

自從OpenAI 的Sora 基于 DiT(Diffusion Transformer)架構(gòu),把長視頻生成的效果提高到了前所未有的水平,全球AI廠商加速趕來,掀起視頻生成熱潮。

2024年接近尾聲,今年以來大模型領(lǐng)域最熱鬧的細(xì)分賽道要數(shù)視頻生成。字節(jié)豆包正在推出文生視頻內(nèi)測,Minmax,快手,商湯等也先后推出了文生視頻。由清華大學(xué)聯(lián)合生數(shù)科技共同研發(fā)Vidu 則宣稱是中國首個(gè)長時(shí)長、高一致性、高動(dòng)態(tài)性視頻大模型。

不過,做好文生視頻這件事并不簡單,這一點(diǎn)從OpenAI在今年初發(fā)布了Sora之后,仍未正式對外開放便可見一斑。

這主要是因?yàn)楫?dāng)前的視頻生成技術(shù)產(chǎn)出的結(jié)果與用戶期望之間仍存在較大差距,這些模型在理解和應(yīng)用物理規(guī)則方面表現(xiàn)不足,并且在生成過程中缺乏有效的可控性。

按照騰訊的說法,混元文生視頻大模型主要的優(yōu)勢能力在于,可以實(shí)現(xiàn)超寫實(shí)畫質(zhì)、生成高度符合提示詞的視頻畫面,畫面流暢不易變形。

“比如,在沖浪、跳舞等大幅度運(yùn)動(dòng)畫面的生成中,騰訊混元可以生成非常流暢、合理的運(yùn)動(dòng)鏡頭,物體不易出現(xiàn)變形;光影反射基本符合物理規(guī)律,在鏡面或者照鏡子場景中,可以做到鏡面內(nèi)外動(dòng)作一致。同時(shí),模型還可以實(shí)現(xiàn)在畫面主角保持不變的情況下自動(dòng)切鏡頭,這是業(yè)界大部分模型所不具備的能力。”

從技術(shù)角度來看,據(jù)騰訊混元相關(guān)負(fù)責(zé)人介紹,混元大模型基于跟Sora類似的DiT架構(gòu),在架構(gòu)設(shè)計(jì)上進(jìn)行了多處升級。

混元視頻生成模型適配了新一代文本編碼器提升語義遵循,其具備強(qiáng)大的語義跟隨能力,更好地應(yīng)對多個(gè)主體描繪,實(shí)現(xiàn)更加細(xì)致的指令和畫面呈現(xiàn);采用統(tǒng)一的全注意力機(jī)制,使得每幀視頻的銜接更為流暢,并能實(shí)現(xiàn)主體一致的多視角鏡頭切換;通過先進(jìn)的圖像視頻混合VAE(3D 變分編碼器),讓模型在細(xì)節(jié)表現(xiàn)有明顯提升,特別是小人臉、高速鏡頭等場景。

比如寫下這么一段提示詞,一位中國美女穿著漢服,頭發(fā)飄揚(yáng),背景是倫敦,然后鏡頭切換到特寫鏡頭:

不過在視頻生成領(lǐng)域,快手、抖音、智譜科技、生數(shù)科技等國內(nèi)廠商均已推出相應(yīng)的產(chǎn)品,甚至開啟了商業(yè)化,騰訊混元此番的節(jié)奏并不算快。

對此,騰訊混元相關(guān)負(fù)責(zé)人在接受《科創(chuàng)板日報(bào)》記者采訪時(shí)回應(yīng)稱,當(dāng)下的視頻生成技術(shù),從可用度而言,還未到大規(guī)模商用的階段,還有很多技術(shù)難點(diǎn)需要克服,混元大模型文生視頻功能也并不急于一時(shí),當(dāng)下階段更重要的是開源讓更多人用起來,使模型的飛輪能快速轉(zhuǎn)動(dòng)帶動(dòng)優(yōu)化模型本身。

在落地應(yīng)用上,上述負(fù)責(zé)人表示,混元大模型生成的視頻可用于工業(yè)級商業(yè)場景,例如廣告宣傳、動(dòng)畫制作、創(chuàng)意視頻生成等場景。對于未來的商業(yè)化,騰訊暫時(shí)還沒有詳細(xì)的規(guī)劃出來。

目前,騰訊宣布開源該視頻生成大模型已在 Hugging Face平臺及Github上發(fā)布,包含模型權(quán)重、推理代碼、模型算法等完整模型,可供企業(yè)與個(gè)人開發(fā)者免費(fèi)使用和開發(fā)生態(tài)插件。基于騰訊混元的開源模型,開發(fā)者及企業(yè)無需從頭訓(xùn)練,即可直接用于推理,并可基于騰訊混元系列打造專屬應(yīng)用及服務(wù)。

相關(guān)推薦
免責(zé)聲明
本文所包含的觀點(diǎn)僅代表作者個(gè)人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險(xiǎn),讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前,請務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。

熱門文章