首頁 > AI資訊 > 行業(yè)應(yīng)用 > 在線可玩!智譜開源圖生視頻模型,網(wǎng)友直呼Amazing!

在線可玩!智譜開源圖生視頻模型,網(wǎng)友直呼Amazing!

新火種    2024-09-20

剛剛,智譜把清影背后的圖生視頻模型CogVideoX-5B-I2V給開源了!(在線可玩)

一起開源的還有它的標(biāo)注模型cogvlm2-llama3-caption。

在線可玩!智譜開源圖生視頻模型,網(wǎng)友直呼Amazing!

在實際應(yīng)用中,CogVideoX-5B-I2V支持「一張圖」+「提示詞」生成視頻。

而cogvlm2-llama3-caption則是負(fù)責(zé)將視頻內(nèi)容轉(zhuǎn)換成文本描述。

在線可玩!智譜開源圖生視頻模型,網(wǎng)友直呼Amazing!

不過用過的網(wǎng)友卻對它的表現(xiàn)褒貶不一:

有人在用過之后直呼Amazing。

在線可玩!智譜開源圖生視頻模型,網(wǎng)友直呼Amazing!

也有人試了半天,最后還是選擇了CogVideoX之前的版本,還夸夸說:我最看好這個型號!

在線可玩!智譜開源圖生視頻模型,網(wǎng)友直呼Amazing!

所以到底效果如何,咱們來實測一波!

實測CogVideoX-5B-I2V

測試開始~輸入提示詞:咖啡店員握住雙手笑著對客人表示歡迎,說話時身體自然活動(依舊是老生常談的“手部”問題)

第二次實測,試了一下簡短提示詞:嗎嘍顛著二郎腿打電話(效果不理想,主體還是靜態(tài)的沒有動起來)

第三次的提示詞是:“明月圓圓,幾個人坐在河邊談心說話,舉杯高歌?!憋@示生成完成,但是到最后顯示環(huán)節(jié)卻直接NAN了(嗚嗚嗚)

在線可玩!智譜開源圖生視頻模型,網(wǎng)友直呼Amazing!

整體效果有些一言難盡,而且生成速度有些慢。

在線可玩!智譜開源圖生視頻模型,網(wǎng)友直呼Amazing!

咱們還是來看一下團(tuán)隊自己發(fā)布的一些成功作品吧:

提示詞:當(dāng)萬花筒般的蝴蝶在花朵中翩翩起舞時,花園變得生機(jī)勃勃,它們精致的翅膀在下面的花瓣上投下陰影。

提示詞:一位穿著西裝的宇航員,靴子上沾滿了的紅色塵埃,在第四顆行星的粉紅色天空下,他伸出手與一個外星人握手

提示詞:湖岸邊長滿了柳樹,細(xì)長的枝條在微風(fēng)中輕輕搖曳。平靜的湖面倒映著清澈的藍(lán)天,幾只優(yōu)雅的天鵝在平靜的水面上優(yōu)雅地滑翔

論文也已公開

值得一提的是,目前CogVideoX-5B-I2V模型的代碼均已開源,支持在抱抱臉中進(jìn)行部署。

相關(guān)研究論文也已公開,縱觀論文內(nèi)容,有三大技術(shù)亮點值得說道說道~

在線可玩!智譜開源圖生視頻模型,網(wǎng)友直呼Amazing!

首先便是團(tuán)隊自研了一個高效的三維變分自編碼器結(jié)構(gòu)(3D VAE),將原視頻空間壓縮至2%大小,大大減少了視頻擴(kuò)散生成模型的訓(xùn)練成本及訓(xùn)練難度。

模型結(jié)構(gòu)包括編碼器、解碼器和潛在空間正則化器,通過四個階段的下采樣和上采樣實現(xiàn)壓縮。時間因果卷積確保了信息的因果性,減少了通信開銷。團(tuán)隊采用上下文并行技術(shù)以適應(yīng)大規(guī)模視頻處理。

在實驗中,團(tuán)隊發(fā)現(xiàn)大分辨率編碼易于泛化,而增加幀數(shù)則挑戰(zhàn)較大。

因此,團(tuán)隊分兩階段訓(xùn)練模型:首先在較低幀率和小批量上訓(xùn)練,然后通過上下文并行在更高幀率上進(jìn)行微調(diào)。訓(xùn)練損失函數(shù)結(jié)合了L2損失、LPIPS感知損失和3D判別器的GAN損失。

在線可玩!智譜開源圖生視頻模型,網(wǎng)友直呼Amazing!

其次是專家Transformer。

團(tuán)隊使用VAE的編碼器將視頻壓縮至潛在空間,然后將潛在空間分割成塊并展開成長的序列嵌入z_vision。

同時,他們使用T5,將文本輸入編碼為文本嵌入z_text,然后將z_text和z_vision沿序列維度拼接。拼接后的嵌入被送入專家Transformer塊堆棧中處理。

最后,團(tuán)隊反向拼接嵌入來恢復(fù)原始潛在空間形狀,并使用VAE進(jìn)行解碼以重建視頻。

在線可玩!智譜開源圖生視頻模型,網(wǎng)友直呼Amazing!

最后的亮點,便是在于數(shù)據(jù)了。

團(tuán)隊開發(fā)了負(fù)面標(biāo)簽來識別和排除低質(zhì)量視頻,如過度編輯、運動不連貫、質(zhì)量低下、講座式、文本主導(dǎo)和屏幕噪音視頻。

通過video-llama訓(xùn)練的過濾器,他們標(biāo)注并篩選了20000個視頻數(shù)據(jù)點。同時,計算光流和美學(xué)分?jǐn)?shù),動態(tài)調(diào)整閾值,確保生成視頻的質(zhì)量。

視頻數(shù)據(jù)通常沒有文本描述,需要轉(zhuǎn)換為文本描述以供文本到視頻模型訓(xùn)練?,F(xiàn)有的視頻字幕數(shù)據(jù)集字幕較短,無法全面描述視頻內(nèi)容。

為此,團(tuán)隊還提出了一種從圖像字幕生成視頻字幕的管道,并微調(diào)端到端的視頻字幕模型以獲得更密集的字幕。這種方法通過Panda70M模型生成簡短字幕,使用CogView3模型生成密集圖像字幕,然后使用GPT-4模型總結(jié)生成最終的短視頻。

他們還微調(diào)了一個基于CogVLM2-Video和Llama 3的CogVLM2-Caption模型,使用密集字幕數(shù)據(jù)進(jìn)行訓(xùn)練,以加速視頻字幕生成過程。

在線可玩!智譜開源圖生視頻模型,網(wǎng)友直呼Amazing!One more thing

值得一提的是,CogVideoX近來這一個月也沒有閑著,化身勤更達(dá)人碼出了一堆更新!

2024年9月17日,提供了SAT權(quán)重的推理和微調(diào)代碼和安裝依賴的命令,使用GLM-4優(yōu)化了提示詞跳轉(zhuǎn)鏈接:https://github.com/THUDM/CogVideo/commit/db309f3242d14153127ffaed06a3cf5a74c77062

2024年9月16日,用戶可以利用本地開源模型+FLUX+CogVideoX,實現(xiàn)自動化生成高質(zhì)量視頻。跳轉(zhuǎn)鏈接:https://github.com/THUDM/CogVideo/blob/CogVideoX_dev/tools/llm_flux_cogvideox/llm_flux_cogvideox.py

2024年9月15日,CogVideoX的LoRA微調(diào)權(quán)重已成功導(dǎo)出,并在diffusers庫中成功通過測試。跳轉(zhuǎn)鏈接:https://github.com/THUDM/CogVideo/blob/CogVideoX_dev/sat/README_zh.md

2024年8月29日,在CogVideoX-5B的推理代碼中加入了pipe.enable_sequential_cpu_offload()和pipe.vae.enable_slicing()功能,使顯存占用降至5GB。

2024年8月27日,CogVideoX-2B模型的開源協(xié)議已修改為Apache 2.0協(xié)議.

當(dāng)天,智譜AI開源了更大規(guī)模的CogVideoX-5B模型,顯著提升了視頻生成的質(zhì)量與視覺效果。這個模型優(yōu)化了推理性能,允許用戶在RTX 3060等桌面顯卡上進(jìn)行推理,降低了硬件的要求。

2024年8月20日,VEnhancer工具已支持對CogVideoX生成的視頻進(jìn)行增強(qiáng),提升視頻分辨率和質(zhì)量。

2024年8月15日,CogVideoX依賴的SwissArmyTransformer庫升級至0.4.12版本,微調(diào)不再需要從源代碼安裝該庫。同時,引入了Tied VAE技術(shù)以優(yōu)化生成效果。而這次CogVideoX-5B-I2V的開源,也代表著CogVideoX系列模型已經(jīng)支持文生視頻、視頻延長、圖生視頻三種任務(wù)。

在線可玩!智譜開源圖生視頻模型,網(wǎng)友直呼Amazing!
Tags:
相關(guān)推薦
免責(zé)聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認(rèn)可。 交易和投資涉及高風(fēng)險,讀者在采取與本文內(nèi)容相關(guān)的任何行動之前,請務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。

熱門文章