首頁(yè) > AI資訊 > 行業(yè)動(dòng)態(tài) > 中國(guó)首個(gè)自研視頻大模型Vido上線!中國(guó)人也有了自己的Sora...

中國(guó)首個(gè)自研視頻大模型Vido上線!中國(guó)人也有了自己的Sora...

小巖    2024-04-29

4月27日,未來(lái)人工智能先鋒論壇在2024中關(guān)村論壇年會(huì)人工智能主題日舉辦。在本次論壇上,有一件里程碑式的事件發(fā)生:生數(shù)科技聯(lián)合清華大學(xué)正式發(fā)布中國(guó)首個(gè)長(zhǎng)時(shí)長(zhǎng),高一致性,高動(dòng)態(tài)性視頻大模型Vidu。

國(guó)內(nèi)首個(gè)純自研的視頻大模型,究竟有何特別之處?

根據(jù)介紹,該模型采用了團(tuán)隊(duì)原創(chuàng)的Diffusion與Transformer融合的架構(gòu)U-VT,支持一鍵生成長(zhǎng)達(dá)16秒,分辦率高達(dá)1080P的高清視頻內(nèi)容。Vidu不僅能夠模擬真實(shí)物理世界,還擁有豐富想象力,具備多鏡頭生成,時(shí)空一致性高等特點(diǎn)。

值得一提的是,Vidu是自Sora發(fā)布之后,全球率先取得重大突破的視頻大模型,性能全面對(duì)標(biāo)國(guó)際頂尖水平,并在加速迭代提升中,完全有能力與Sora抗衡。

根據(jù)現(xiàn)場(chǎng)演示的效果,Vidu能夠模擬真實(shí)的物理世界,生成細(xì)節(jié)復(fù)雜且符合真實(shí)物理規(guī)律的場(chǎng)景,諸如合理的光影效果,細(xì)膩的人物表情等。此外,它還具有豐富的想象力,能夠生成真實(shí)世界不存在的虛構(gòu)畫(huà)面,創(chuàng)造出具有深度和復(fù)雜性的超現(xiàn)實(shí)主義內(nèi)容,譬如“畫(huà)室里的一艘船正在海浪中駛向鏡頭”。

Vidu還能夠生成復(fù)雜的動(dòng)態(tài)鏡頭,不只局限于簡(jiǎn)單的推,拉,移等鏡頭,而是能夠圍繞統(tǒng)一主體在一段畫(huà)面里實(shí)現(xiàn)遠(yuǎn)景,近景,中景,特寫(xiě)等不同鏡頭的切換,直接生成長(zhǎng)鏡頭,追焦,轉(zhuǎn)場(chǎng)等效果也不在話下,給視頻注入豐富的鏡頭語(yǔ)言。

需要說(shuō)明的是,短片中的片段都是從頭到尾的連續(xù)生成,沒(méi)有明顯的插幀現(xiàn)象。通過(guò)這種“一鏡到底”的表現(xiàn)能夠推測(cè)出,Vidu采用的是“一步到位”的生成方式,從文本到視頻的轉(zhuǎn)換是直接且連續(xù)的,在底層算法實(shí)現(xiàn)上是基于單一模型完全端到端生成,不涉及中間的插幀和其他多步驟的處理。

Sora推出兩月后迎頭趕上,Vido的未來(lái)大有可為。

Sora在今年2月剛剛上線,2個(gè)月之后國(guó)內(nèi)便有了Vido,可見(jiàn)Vido技術(shù)團(tuán)隊(duì)的效率之高。

Vidu 發(fā)布后,清華大學(xué) AI 研究院副院長(zhǎng),生數(shù)科技首席科學(xué)家表示,“在今年2月,文生視頻大模型Sora發(fā)布后,我們發(fā)現(xiàn)其剛好和我們的技術(shù)路線是高度一致的,這也讓我們堅(jiān)定地進(jìn)一步推進(jìn)了自己的研究”。

據(jù)悉,Sora發(fā)布推出后,Vidu團(tuán)隊(duì)基于對(duì)U-ViT架構(gòu)的深入理解以及長(zhǎng)期積累的工程與數(shù)據(jù)經(jīng)驗(yàn),在短短兩個(gè)月進(jìn)一步突破長(zhǎng)視頻表示與處理關(guān)鍵技術(shù),研發(fā)推出Vidu視頻大模型,顯著提升視頻的連貫性與動(dòng)態(tài)性。

更難得的是,Vido能夠深刻理解并展現(xiàn)中國(guó)元素,特別注重文化適應(yīng)性,能夠生成具有中國(guó)特色的元素,諸如熊貓、龍等等。既為跨文化交流與傳播提供了有力支持,也為我們的文化自信注入了新的活力。

概括說(shuō)來(lái),Vidu的快速突破,離不開(kāi)算法原理,模型架構(gòu),算力資源,數(shù)據(jù)治理,工程實(shí)現(xiàn)這5大要素的完美結(jié)合。如今的Vido正在加速迭代,未來(lái)還將兼容更廣泛的多模態(tài)能力,為我們帶來(lái)更多驚喜。而Vido的孵化者生數(shù)科技,自成立以來(lái)已經(jīng)獲得了多家知名產(chǎn)業(yè)機(jī)構(gòu)的投資,完成了數(shù)億元的融資,成為國(guó)內(nèi)多模態(tài)大模型賽道的佼佼者。

從某種程度上說(shuō),Vido很可能先走了一步...

“Vidu,we do, we did, we do together”,這是在Vido發(fā)布后,朱軍教授在朋友圈寫(xiě)下的一段話。

乍一看上去,Vidu是清華大學(xué)聯(lián)合大模型創(chuàng)業(yè)公司生數(shù)科技用兩個(gè)半月交出的一份新答卷。但事實(shí)上,任何一次驚艷全場(chǎng)都離不開(kāi)長(zhǎng)時(shí)間的深耕細(xì)作。

根據(jù)生數(shù)科技的官方介紹, Vidu 模型之所以取得快速突破,源自于該團(tuán)隊(duì)在貝葉斯機(jī)器學(xué)習(xí)和多模態(tài)大模型的長(zhǎng)期積累和多項(xiàng)原創(chuàng)性成果。早在 2022 年 9 月,出于對(duì)標(biāo)當(dāng)時(shí)剛剛開(kāi)源的 Stable Diffusion, 清華團(tuán)隊(duì)提交了一篇名為 《All are Worth Words: A ViT Backbone for Diffusion Models》的論文,里面提出了全球首個(gè) Diffusion 與 Transformer 融合的架構(gòu),比 Sora 采用的 DiT 架構(gòu)還要再早兩個(gè)月。到了去年 3 月,團(tuán)隊(duì)開(kāi)源了全球首個(gè)基于 U-ViT 融合架構(gòu)的多模態(tài)擴(kuò)散模型 UniDiffuser,率先完成了 U-ViT 架構(gòu)的大規(guī)模可擴(kuò)展性驗(yàn)證,一舉實(shí)現(xiàn)了從簡(jiǎn)單的文生圖擴(kuò)展到圖生文,圖文改寫(xiě)等多種功能。正是基于對(duì) U-ViT 架構(gòu)的深入理解以及長(zhǎng)期積累的工程與數(shù)據(jù)經(jīng)驗(yàn),團(tuán)隊(duì)才能在短短兩個(gè)月里進(jìn)一步突破了長(zhǎng)視頻表示與處理的多項(xiàng)關(guān)鍵技術(shù),成功研發(fā)出 Vidu 視頻大模型。

3 月份的 Vidu還只能生成 8 秒的視頻,就連生數(shù)科技的CEO 都認(rèn)為想要達(dá)到Sora的版本效果,至少需要3個(gè)月的時(shí)間。但如今,僅僅一個(gè)月的時(shí)間,Vidu 就在技術(shù)上迎來(lái)突破,不僅畫(huà)面效果逼近 Sora 的水準(zhǔn),視頻生成的時(shí)長(zhǎng)也擴(kuò)展到了 16 秒。

反觀當(dāng)初被外界一致叫好的Sora,其實(shí)也存在著巨大的短板和漏洞。與 Sora 合作的加拿大制作公司Shy Kids就對(duì)外界爆料,聲稱“從 Sora 生成的素材到最終成品之間的差距,不亞于買(mǎi)家秀和買(mǎi)家秀的區(qū)別。具體來(lái)說(shuō),生成的原始素材與最終使用素材的比例高達(dá)300:1,也就是說(shuō),為得到一秒的有效畫(huà)面,制作團(tuán)隊(duì)需要并審查長(zhǎng)達(dá) 300 秒的原始素材,對(duì)篩選和判斷能力提出極高的要求。 

這意味著OpenAI的研究人員最初在開(kāi)發(fā) Sora 的時(shí)候,更多地將注意力集中在圖像生成的技術(shù)層面,卻沒(méi)有考慮到創(chuàng)作者在實(shí)際應(yīng)用中對(duì)鏡頭語(yǔ)言的需求。

從某種程度上說(shuō),Sora這些尚且存在的短板恰恰給其他競(jìng)爭(zhēng)者,尤其是咱們國(guó)內(nèi)的研發(fā)團(tuán)隊(duì)提供了迎頭趕上寶貴的時(shí)間窗口。不光是Vido,其他一大批有望對(duì)標(biāo),乃至超越 Sora 的大模型也正在涌現(xiàn)。

跑領(lǐng)先只是一時(shí)之快,大模型之戰(zhàn)笑到最后才是贏家。我們相信,Vidu或許會(huì)成為國(guó)內(nèi)第一個(gè)有希望追趕 Sora 的視頻生成大模型,但絕不會(huì)是唯一的那一個(gè)。


Tags:
相關(guān)推薦
免責(zé)聲明
本文所包含的觀點(diǎn)僅代表作者個(gè)人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對(duì)本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險(xiǎn),讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前,請(qǐng)務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對(duì)因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢(qián)損失負(fù)任何責(zé)任。

熱門(mén)文章