昆侖萬維:SkyReels-V2開源突破視頻生成技術(shù)邊界開啟無限時長電影生成新時代
4月21日,昆侖萬維SkyReels團(tuán)隊正式發(fā)布并開源SkyReels-V2——全球首個使用擴(kuò)散強(qiáng)迫(Diffusion-forcing)框架的無限時長電影生成模型,其通過結(jié)合多模態(tài)大語言模型(MLLM)、多階段預(yù)訓(xùn)練(Multi-stage Pretraining)、強(qiáng)化學(xué)習(xí)(Reinforcement Learning)和擴(kuò)散強(qiáng)迫(Diffusion-forcing)框架來實現(xiàn)協(xié)同優(yōu)化。
回顧過去一年,視頻生成技術(shù)在擴(kuò)散模型和自回歸框架的推動下取得了顯著進(jìn)展,但在提示詞遵循、視覺質(zhì)量、運動動態(tài)和視頻時長的協(xié)調(diào)上仍面臨重大挑戰(zhàn)。
現(xiàn)有技術(shù)在提升穩(wěn)定的視覺質(zhì)量時往往犧牲運動動態(tài)效果,為了優(yōu)先考慮高分辨率而限制視頻時長(通常為5—10秒),并且由于通用多模態(tài)大語言模型(MLLM)無法解讀電影語法(如鏡頭構(gòu)圖、演員表情和攝像機(jī)運動),導(dǎo)致鏡頭感知生成能力不足。這些相互關(guān)聯(lián)的限制阻礙了長視頻的逼真合成和專業(yè)電影風(fēng)格的生成。
為了解決這些痛點,SkyReels-V2應(yīng)運而生,它不僅在技術(shù)上實現(xiàn)了突破,還提供了多種有用的應(yīng)用場景,包括故事生成、圖生視頻、運鏡專家和多主體一致性視頻生成(SkyReels-A2)。
SkyReels-V2現(xiàn)已支持生成30秒、40秒的視頻,且具備生成高運動質(zhì)量、高一致性、高保真視頻的能力。
SkyReels-V2的推出標(biāo)志著視頻生成技術(shù)邁入了一個新的階段,為實現(xiàn)高質(zhì)量、長時間的電影風(fēng)格視頻生成提供了全新的解決方案。它不僅為內(nèi)容創(chuàng)作者提供了強(qiáng)大的工具,更開啟了利用AI進(jìn)行視頻敘事和創(chuàng)意表達(dá)的無限可能。
昆侖萬維表示,SkyReels團(tuán)隊仍致力于推動視頻生成技術(shù)的發(fā)展,并將SkyCaptioner-V1和SkyReels-V2系列模型(包括擴(kuò)散強(qiáng)迫、文本到視頻、圖像到視頻、攝像導(dǎo)演和元素到視頻模型)的各種尺寸(1.3B、5B、14B)進(jìn)行完全開源,以促進(jìn)學(xué)術(shù)界和工業(yè)界的進(jìn)一步研究和應(yīng)用。(燕云)
校對:楊立林
(文章來源:證券時報網(wǎng))
- 免責(zé)聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認(rèn)可。 交易和投資涉及高風(fēng)險,讀者在采取與本文內(nèi)容相關(guān)的任何行動之前,請務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。