ComfyUISVD圖片轉短視頻工作流分享!低配置也能用!
大家好,這里是和你們一起探索 AI 的花生~
之前為大家推薦過一些可以將圖像轉為動圖或者短視頻的 AI 工具,比如 LeiaPix Converter、Runway、Pika 等,今天再為大家推薦一種在本地免費實現(xiàn)圖像轉短視頻的方式,即在 ComfyUI 中使用開源模型 Stable Video Diffusion (SVD),經(jīng)測試 8G 的顯存也能用,并且效果也相當不錯。
一、Stable Video Diffusion 簡介Stable Video Diffusion(SVD)是 Stability AI 推出的開源圖像到視頻生成模型,可以生成基于輸入圖像生成 2-6 秒的高分辨率(576x1024)視頻。
用 SVD 轉為視頻后:
官方目前放出了 2 款模型,分別是 SVD 和 SVD-XT(文末有模型資源包),其中 SVD 可以生成 14 幀的視頻,SVD-XT 可以生成 25 幀的視頻。 它們還分別有一個升級版本 svd_image_decoder 和 svd_xt_image_decoder,是將 sd1.5/sd2.1 vae 添加到了原本的模型中,可以讓生成的視頻細節(jié)更好,但是總體的穩(wěn)定性不太好。
二、ComfyUI:SVD 圖像轉視頻有了開源模型,我們就可以在 ComfyUI 中通過 SVD 免費將圖像轉為短視頻,下圖是一個 SVD 的基礎工作流(文末有 json 文件),其使用方法如下:
①首先將 svd.safetensors 或 svd_xt.safetensors 放入大模型文件夾中;
②將工作流文件拖入 ComfyUI 界面,對于缺失的節(jié)點可以在 Manager 中補全后再重啟;
③SVD_image2vid_conditioning 是控制視頻生成效果的關鍵節(jié)點,里面的參數(shù)作用分別是:
width/heigth:視頻的寬高,最好和上傳的圖像尺寸一致。官方推薦的尺寸是 1024*576 或者 576*1024;video_frames:視頻總幀數(shù),按視頻大模型來設定,即 svd 為 14 幀,svd_xt 為 25 幀。總幀數(shù)越多,能生成更明顯生動的動作,但是對顯存的壓力也更大。motion_bucket_id:控制視頻動態(tài),數(shù)值范圍 1-255,數(shù)值越大,動態(tài)越明顯,推薦 125-180。fps:Frames Per Second 每秒傳輸幀數(shù),數(shù)值范圍 5-30,數(shù)值過高視頻可能會不穩(wěn)定,一般推薦 6-8。augmentation level:表示添加到初始圖像中的噪點量。數(shù)值越高,視頻看起來就越不像初始圖像,但提高該值可獲得更多動態(tài)效果,推薦設置為 0.1。④VideoLinearCFGGuidance(視頻線性引導)節(jié)點的作用是線性縮放不同幀的 cfg 數(shù)值。其數(shù)值 1.0 代表第一幀的 cfg 值,Kampler 節(jié)點中的 2.5 代表最后一幀的 cfg 值,那么中間一幀的 cfg 數(shù)值就是 1.75。這樣離初始幀較遠的幀將獲得逐漸升高的 cfg 值,可以稍微改善視頻模型的采樣效果。
⑤Kampler 節(jié)點中的 cfg 數(shù)值需要隨視頻總幀數(shù)進行變化。如果是 25 幀,則 2.5 足夠,如果是 50 幀, 則需要適當增加,比如改為 5.0。
工作流設置完成后,上傳一張圖像,運行后即可將其轉為動態(tài)。我的顯存是 8G,大概 2 分鐘就能生成一個 3s 的 1024*576 短視頻(14 幀)。
除了上傳圖像,我們也可以將文生圖流程接入上面的基礎工作流,這樣就能直接通過文本生成短視頻了。我提供的工作流是 SD 1.5 的,如果要用 SDXL 模型,難么文生圖模塊里 Ksampler 內(nèi)的生成參數(shù)記得要做出對應的調(diào)整;同時視頻模型也用的是 25 幀的 SVD_XT 模型,轉換時間大概是 9 分鐘。
轉換結果
此外我們還可以添加一些額外的節(jié)點,讓圖片轉視頻的效果更穩(wěn)定、效率更高。
下圖工作流中使用了 LCM Lora 來提升圖像生成效率,讓 25 幀視頻的生成時間由 9 分鐘縮短至 5 分鐘,對顯存的壓力也更小;FreeU_V2 節(jié)點讓圖像細節(jié)更精準;RIFE VFI 節(jié)點則可以進行視頻插幀,讓效果更流暢。不過 LCM Lora 也會讓視頻生成的質量有所下降,畫面會變得更模糊,在實際應用中大家可以結合自己的需求看是否使用。
轉換結果(多調(diào)節(jié) lora 權重、SVD 動態(tài)強度、SVD 噪點強度和 Ksampler 中的 cfg 參數(shù)進行抽卡):
好了以上就是本期為大家分享的在 ComfyUI 中使用 SVD 模型實現(xiàn)圖像免費轉視頻的相關內(nèi)容。
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內(nèi)容相關的任何行動之前,請務必進行充分的盡職調(diào)查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產(chǎn)生的任何金錢損失負任何責任。