男人把女人捅爽视频,人妻少妇熟女javhd,一区二区欧美在线观看

首頁(yè) > AI資訊 > 行業(yè)動(dòng)態(tài) > 騰訊版Sora發(fā)布即開(kāi)源！130億參數(shù)，模型權(quán)重、推理代碼全開(kāi)放

騰訊版Sora發(fā)布即開(kāi)源！130億參數(shù)，模型權(quán)重、推理代碼全開(kāi)放

新火種 2024-12-04

騰訊版Sora，發(fā)布即開(kāi)源！

130億參數(shù)，成為目前參數(shù)量最大的開(kāi)源視頻生成模型。模型權(quán)重、推理代碼、模型算法等全部上傳GitHub與Hugging Face，一點(diǎn)沒(méi)藏著。

實(shí)際效果如何呢？

不瞞你們說(shuō)，我真的看見(jiàn)一只大熊貓，在跳廣場(chǎng)舞、吃火鍋、打麻將，請(qǐng)看VCR：

到底是來(lái)自四川的貓！

目前該模型已上線(xiàn)騰訊元寶APP，用戶(hù)可在AI應(yīng)用中的“AI視頻”板塊申請(qǐng)?jiān)囉谩?/p>

API同步開(kāi)放測(cè)試，開(kāi)發(fā)者可通過(guò)騰訊云接入。

騰訊混元視頻生成主打四大特點(diǎn)：

超寫(xiě)實(shí)畫(huà)質(zhì)，模型生成的視頻內(nèi)容具備高清質(zhì)感、真實(shí)感，可用于工業(yè)級(jí)商業(yè)場(chǎng)景例如廣告宣傳、創(chuàng)意視頻生成等商業(yè)應(yīng)用。高語(yǔ)義一致，用戶(hù)可以進(jìn)行細(xì)致的刻畫(huà)，例如生成主體的細(xì)節(jié)，人物概念的組合等。模型可以準(zhǔn)確的表達(dá)出文本的內(nèi)容。運(yùn)動(dòng)畫(huà)面流暢，可生成大幅度的合理運(yùn)動(dòng)，運(yùn)動(dòng)鏡頭流暢、符合物理規(guī)律，不易變形。原生鏡頭轉(zhuǎn)換，模型原生具備自動(dòng)生成多視角同主體的鏡頭切換畫(huà)面，增強(qiáng)畫(huà)面敘事感。

那么實(shí)際表現(xiàn)能否符合描述？下面結(jié)合實(shí)例一一拆解。

實(shí)測(cè)騰訊首個(gè)文生視頻模型

首先是沖浪題材，涉及到畫(huà)面大幅度運(yùn)動(dòng)，水的物理模擬等難點(diǎn)。

提示詞中還特別指定了攝像頭的運(yùn)動(dòng)，騰訊混元表現(xiàn)出流暢運(yùn)鏡的能力，只是在“最后定格在…”這個(gè)要求上稍顯不足。

鏡子題材，考驗(yàn)?zāi)Ｐ蛯?duì)光影的理解，以及鏡子內(nèi)外主體運(yùn)動(dòng)是否能保持一致。

提示詞中的白床單元素又加大了難度，涉及到的布料模擬，也符合物理規(guī)律。

不過(guò)人們想象中的幽靈一般沒(méi)有腳，AI似乎沒(méi)學(xué)到，又或者是跳舞涉及大量腿部動(dòng)作，產(chǎn)生了沖突。

接下來(lái)是騰訊混元視頻生成主推的功能之一，在畫(huà)面主角保持不變的情況下自動(dòng)切鏡頭，據(jù)了解是業(yè)界大部分模型所不具備的能力。

https://mp.weixin.qq.com/s/6_ciIeZBqkFMuizUmjKV4Q?token=1748535864&lang=zh_CN

再來(lái)一個(gè)綜合型的復(fù)雜提示詞，對(duì)主角外貌、動(dòng)作、環(huán)境都有細(xì)致描述，畫(huà)面中還出現(xiàn)其他人物，騰訊混元表現(xiàn)也不錯(cuò)。

最后附上來(lái)自官方的寫(xiě)prompt小tips：

用法1：提示詞=主體+場(chǎng)景+運(yùn)動(dòng)用法2：提示詞=主體(主體描述)+場(chǎng)景(場(chǎng)景描述)+運(yùn)動(dòng)(運(yùn)動(dòng)描述)+(鏡頭語(yǔ)言)+(氛圍描述)+(風(fēng)格表達(dá))用法3：提示詞=主體+場(chǎng)景+運(yùn)動(dòng)+(風(fēng)格表達(dá))+(氛圍描述)+(運(yùn)鏡方式)+(光線(xiàn))+(景別)多鏡頭生成：提示詞=[場(chǎng)景1]+鏡頭切換到[場(chǎng)景2]兩個(gè)動(dòng)作生成：提示詞=[主體描述]+[動(dòng)作描述]+[然后、過(guò)了一會(huì)等連接詞]+[動(dòng)作描述2]

怎么樣，你學(xué)會(huì)了嗎？

更多騰訊混元生成的視頻，以及與Sora同提示詞PK，還可以看看新火種在內(nèi)測(cè)階段的嘗試。

最大的開(kāi)源視頻生成模型。

看完效果，再看看技術(shù)層面有哪些亮點(diǎn)。

首先從官方評(píng)估結(jié)果看，混元視頻生成模型在文本視頻一致性、運(yùn)動(dòng)質(zhì)量和畫(huà)面質(zhì)量多個(gè)維度效果領(lǐng)先。

然后從目前公開(kāi)資料看，騰訊混元視頻生成模型還有三個(gè)亮點(diǎn)。

1、文本編碼器部分，已經(jīng)適配多模態(tài)大模型

當(dāng)下行業(yè)中多數(shù)視覺(jué)生成模型的文本編碼器，適配的主要是上一代語(yǔ)言模型，如OpenAI的CLIP和谷歌T5及各種變種。

騰訊在開(kāi)源圖像生成模型Hunyuan-DiT中適配的是T5和CLIP的結(jié)合，這次更進(jìn)一步，直接升級(jí)到了新一代多模態(tài)大語(yǔ)言模型（Multimodal Large Language Model）。

由此能夠獲得更強(qiáng)大的語(yǔ)義跟隨能力，體現(xiàn)在能夠更好地應(yīng)對(duì)畫(huà)面中存在的多個(gè)主體，以及完成指令中更多的細(xì)節(jié)。

2、視覺(jué)編碼器部分，支持混合圖片/視頻訓(xùn)練，提升壓縮重建性能

視頻生成模型中的視覺(jué)編碼器，在壓縮圖片/視頻數(shù)據(jù)，保留細(xì)節(jié)信息方面起著關(guān)鍵作用。

混元團(tuán)隊(duì)自研了3D視覺(jué)編碼器支持混合圖片/視頻訓(xùn)練，同時(shí)優(yōu)化了編碼器訓(xùn)練算法，顯著提升了編碼器在快速運(yùn)行、紋理細(xì)節(jié)上的壓縮重建性能，使得視頻生成模型在細(xì)節(jié)表現(xiàn)上，特別是小人臉、高速鏡頭等場(chǎng)景有明顯提升。

3、從頭到尾用full attention（全注意力）的機(jī)制，沒(méi)有用時(shí)空模塊，提升畫(huà)面流暢度。

混元視頻生成模型采用統(tǒng)一的全注意力機(jī)制，使得每幀視頻的銜接更為流暢，并能實(shí)現(xiàn)主體一致的多視角鏡頭切換。

與“分離的時(shí)空注意力機(jī)制”分別關(guān)注視頻中的空間特征和時(shí)間特征，相比之下，全注意力機(jī)制則更像一個(gè)純視頻模型，表現(xiàn)出更優(yōu)越的效果。

更多細(xì)節(jié)，可以參見(jiàn)完整技術(shù)報(bào)告～

官網(wǎng)：https://aivideo.hunyuan.tencent.com

代碼：https://github.com/Tencent/HunyuanVideo

模型：https://huggingface.co/tencent/HunyuanVideo

技術(shù)報(bào)告：https://github.com/Tencent/HunyuanVideo/blob/main/assets/hunyuanvideo.pdf

Tags:

全開(kāi) 權(quán)重

相關(guān)推薦

免責(zé)聲明: 本文所包含的觀點(diǎn)僅代表作者個(gè)人看法，不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對(duì)本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。交易和投資涉及高風(fēng)險(xiǎn)，讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前，請(qǐng)務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對(duì)因依賴(lài)本文觀點(diǎn)而產(chǎn)生的任何金錢(qián)損失負(fù)任何責(zé)任。

騰訊版Sora發(fā)布即開(kāi)源！130億參數(shù)，模型權(quán)重、推理代碼全開(kāi)放

騰訊版Sora發(fā)布即開(kāi)源！130億參數(shù)，模型權(quán)重、推理代碼全開(kāi)放

【焦點(diǎn)復(fù)盤(pán)】三大指數(shù)跌逾3%齊創(chuàng)月內(nèi)收盤(pán)新低，全市場(chǎng)近5000股下跌，大金融等權(quán)重板塊集體重挫

美國(guó)要在AI賽道上“火力全開(kāi)”？國(guó)會(huì)收到建議：?jiǎn)?dòng)“曼哈頓式計(jì)劃”！

騰訊3D大模型全面開(kāi)源，文本圖像10秒轉(zhuǎn)3D資產(chǎn)，模型權(quán)重、推理代碼全開(kāi)放

全球首個(gè)類(lèi)Sora開(kāi)源復(fù)現(xiàn)方案來(lái)了！全面公開(kāi)訓(xùn)練細(xì)節(jié)和模型權(quán)重

熱門(mén)文章