日韩亚洲精品在线,国产人成精品香港三级在线,欧美一区二区激情视频

首頁 > AI資訊 > 最新資訊 > 賽道正在變得擁擠騰訊混元大模型殺入文生視頻讓用戶“用起來”是關(guān)鍵

賽道正在變得擁擠騰訊混元大模型殺入文生視頻讓用戶“用起來”是關(guān)鍵

科創(chuàng)板日報(bào) 2024-12-05

《科創(chuàng)板日報(bào)》12月4日訊（記者張洋洋）昨日，騰訊混元大模型正式上線視頻生成能力，這是繼文生文、文生圖、3D生成之后，混元大模型的最新業(yè)務(wù)進(jìn)展。與此同時(shí)，騰訊開源該視頻生成大模型，參數(shù)量130億，是當(dāng)前最大的視頻開源模型。

“用戶只需要輸入一段描述，即可生成視頻，”騰訊混元相關(guān)負(fù)責(zé)人透露，目前的生成視頻支持中英文雙語輸入、多種視頻尺寸以及多種視頻清晰度。目前該模型已上線騰訊元寶APP，用戶可在AI應(yīng)用中的“AI視頻”板塊申請?jiān)囉谩Ｆ髽I(yè)用戶通過騰訊云提供服務(wù)接入，目前API同步開放內(nèi)測申請。

自從OpenAI 的Sora 基于 DiT（Diffusion Transformer）架構(gòu)，把長視頻生成的效果提高到了前所未有的水平，全球AI廠商加速趕來，掀起視頻生成熱潮。

2024年接近尾聲，今年以來大模型領(lǐng)域最熱鬧的細(xì)分賽道要數(shù)視頻生成。字節(jié)豆包正在推出文生視頻內(nèi)測，Minmax，快手，商湯等也先后推出了文生視頻。由清華大學(xué)聯(lián)合生數(shù)科技共同研發(fā)Vidu 則宣稱是中國首個(gè)長時(shí)長、高一致性、高動(dòng)態(tài)性視頻大模型。

不過，做好文生視頻這件事并不簡單，這一點(diǎn)從OpenAI在今年初發(fā)布了Sora之后，仍未正式對外開放便可見一斑。

這主要是因?yàn)楫?dāng)前的視頻生成技術(shù)產(chǎn)出的結(jié)果與用戶期望之間仍存在較大差距，這些模型在理解和應(yīng)用物理規(guī)則方面表現(xiàn)不足，并且在生成過程中缺乏有效的可控性。

按照騰訊的說法，混元文生視頻大模型主要的優(yōu)勢能力在于，可以實(shí)現(xiàn)超寫實(shí)畫質(zhì)、生成高度符合提示詞的視頻畫面，畫面流暢不易變形。

“比如，在沖浪、跳舞等大幅度運(yùn)動(dòng)畫面的生成中，騰訊混元可以生成非常流暢、合理的運(yùn)動(dòng)鏡頭，物體不易出現(xiàn)變形；光影反射基本符合物理規(guī)律，在鏡面或者照鏡子場景中，可以做到鏡面內(nèi)外動(dòng)作一致。同時(shí)，模型還可以實(shí)現(xiàn)在畫面主角保持不變的情況下自動(dòng)切鏡頭，這是業(yè)界大部分模型所不具備的能力。”

從技術(shù)角度來看，據(jù)騰訊混元相關(guān)負(fù)責(zé)人介紹，混元大模型基于跟Sora類似的DiT架構(gòu)，在架構(gòu)設(shè)計(jì)上進(jìn)行了多處升級。

混元視頻生成模型適配了新一代文本編碼器提升語義遵循，其具備強(qiáng)大的語義跟隨能力，更好地應(yīng)對多個(gè)主體描繪，實(shí)現(xiàn)更加細(xì)致的指令和畫面呈現(xiàn)；采用統(tǒng)一的全注意力機(jī)制，使得每幀視頻的銜接更為流暢，并能實(shí)現(xiàn)主體一致的多視角鏡頭切換；通過先進(jìn)的圖像視頻混合VAE（3D 變分編碼器），讓模型在細(xì)節(jié)表現(xiàn)有明顯提升，特別是小人臉、高速鏡頭等場景。

比如寫下這么一段提示詞，一位中國美女穿著漢服，頭發(fā)飄揚(yáng)，背景是倫敦，然后鏡頭切換到特寫鏡頭：

不過在視頻生成領(lǐng)域，快手、抖音、智譜科技、生數(shù)科技等國內(nèi)廠商均已推出相應(yīng)的產(chǎn)品，甚至開啟了商業(yè)化，騰訊混元此番的節(jié)奏并不算快。

對此，騰訊混元相關(guān)負(fù)責(zé)人在接受《科創(chuàng)板日報(bào)》記者采訪時(shí)回應(yīng)稱，當(dāng)下的視頻生成技術(shù)，從可用度而言，還未到大規(guī)模商用的階段，還有很多技術(shù)難點(diǎn)需要克服，混元大模型文生視頻功能也并不急于一時(shí)，當(dāng)下階段更重要的是開源讓更多人用起來，使模型的飛輪能快速轉(zhuǎn)動(dòng)帶動(dòng)優(yōu)化模型本身。

在落地應(yīng)用上，上述負(fù)責(zé)人表示，混元大模型生成的視頻可用于工業(yè)級商業(yè)場景，例如廣告宣傳、動(dòng)畫制作、創(chuàng)意視頻生成等場景。對于未來的商業(yè)化，騰訊暫時(shí)還沒有詳細(xì)的規(guī)劃出來。

目前，騰訊宣布開源該視頻生成大模型已在 Hugging Face平臺及Github上發(fā)布，包含模型權(quán)重、推理代碼、模型算法等完整模型，可供企業(yè)與個(gè)人開發(fā)者免費(fèi)使用和開發(fā)生態(tài)插件。基于騰訊混元的開源模型，開發(fā)者及企業(yè)無需從頭訓(xùn)練，即可直接用于推理，并可基于騰訊混元系列打造專屬應(yīng)用及服務(wù)。

Tags:

大模型賽道擁擠

相關(guān)推薦

免責(zé)聲明: 本文所包含的觀點(diǎn)僅代表作者個(gè)人看法，不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。交易和投資涉及高風(fēng)險(xiǎn)，讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前，請務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。

賽道正在變得擁擠騰訊混元大模型殺入文生視頻讓用戶“用起來”是關(guān)鍵

NeurIPS2024|可信大模型新挑戰(zhàn)：噪聲思維鏈提示下的魯棒推理，準(zhǔn)確率直降40%

Sora之后，蘋果發(fā)布視頻生成大模型STIV，87億參數(shù)一統(tǒng)T2V、TI2V任務(wù)

索尼時(shí)隔24年再創(chuàng)歷史新高全賽道布局IP經(jīng)濟(jì)吸引投資者側(cè)目

【VIP機(jī)會日報(bào)】指數(shù)放量拉升大消費(fèi)股全線爆發(fā)欄目梳理零售、冰雪產(chǎn)業(yè)、食品等多方向公司大漲

日發(fā)精機(jī)連收6個(gè)漲停板入局人形機(jī)器人賽道成效幾何

熱門文章