首頁 > AI資訊 > 最新資訊 > AI一鍵生成“電影感”視頻人人都能當(dāng)“導(dǎo)演”

AI一鍵生成“電影感”視頻人人都能當(dāng)“導(dǎo)演”

南方都市報    2024-12-05

  騰訊旗下混元大模型,正在“招聘”導(dǎo)演。12月3日,在混元大模型媒體溝通會上,騰訊公布了旗下模型最新進(jìn)展:正式上線視頻生成能力?,F(xiàn)場生成視頻顯示,無論是在水里沖浪,還是在閣樓里跳舞,只要你的想象力“夠用”,輸入精確提示詞后都能一鍵生成。另外在人物展示方面,混元視頻大模型不僅能生成人物中景還能展示人物特寫,鏡頭轉(zhuǎn)換的過程絲滑又頗具電影質(zhì)感。

  今年以來,“等我老了依靠小貓來養(yǎng)老”“老照片古人物動起來”等用AI大模型制作的上述視頻走紅網(wǎng)絡(luò),視頻領(lǐng)域儼然已成AI技術(shù)落地的首個橋頭堡。在溝通會上騰訊還宣布開源該視頻生成大模型,參數(shù)量130億,是當(dāng)前最大的視頻開源模型。目前,用戶可在騰訊元寶APP的“AI視頻”板塊申請?jiān)囉谩?/p>

  超寫實(shí)電影感視頻,AI一鍵生成了

  溝通會上,騰訊混元多模態(tài)生成技術(shù)負(fù)責(zé)人凱撒透露,用戶只需輸入一段描述,即可生成視頻。目前的生成視頻支持中英文雙語輸入、多種視頻尺寸以及多種視頻清晰度。

  下面來展示一些用混元最新視頻大模型生成的實(shí)驗(yàn)案例,比如輸入提示詞:“超大海浪,沖浪者在浪花上起跳,完成空中轉(zhuǎn)體。攝影機(jī)從海浪內(nèi)部穿越而出,捕捉陽光透過海水的瞬間。水花在空中形成完美弧線,沖浪板劃過水面留下軌跡。最后定格在沖浪者穿越水簾的完美瞬間。”

  視頻生成的效果可以看到,水和人在視頻演進(jìn)的過程中都分離呈現(xiàn)得很好,鏡頭從沖浪者到水花再到?jīng)_浪者出水,整體非常流暢。

  再舉一個頗具西方電影感的例子,輸入提示詞“穿著白床單的幽靈面對著鏡子。鏡子中可以看到幽靈的倒影。幽靈位于布滿灰塵的閣樓中,閣樓里有老舊的橫梁和被布料遮蓋的家具。閣樓的場景映照在鏡子中?!?/p>

  生成的視頻中幽靈在鏡子前跳舞,視頻有前景也有后景,幽靈在床單中跳舞的動作可以通過床單的褶皺展示,電影氛圍和電影感打光都做到了。

  有讀者可能會想,上面的例子都比較現(xiàn)代化,如果想要生成古風(fēng)的人物,還有效嗎?輸入提示詞“一位中國美女穿著漢服,頭發(fā)飄揚(yáng),背景是倫敦,然后鏡頭切換到特寫鏡頭”。

  從生成的視頻可以看到,混元真是貫通中西!從中景到大特寫,雖然經(jīng)歷了一個電影語境上的“大跳切”,但是一點(diǎn)也不突兀,中景古風(fēng)美女衣袂飄飄,切到特寫時美女頭上發(fā)帶、釵環(huán)甚至連頭發(fā)絲都在隨風(fēng)飄動,另外混元把人物臉上的微小瑕疵也做出來了,很有真實(shí)感。

  除了單主體鏡頭,混元視頻大模型在多主體上也做得很好。輸入提示詞“特寫鏡頭拍攝的是一位60多歲、留著胡須的灰發(fā)男子,他坐在巴黎的一家咖啡館里,沉思著宇宙的歷史,他的眼睛聚焦在畫外走動的人們身上,而他自己則基本一動不動地坐著,他身穿羊毛大衣西裝外套,內(nèi)襯系扣襯衫,戴著棕色貝雷帽和眼鏡,看上去很有教授風(fēng)范,片尾他露出一絲微妙的閉嘴微笑,仿佛找到了生命之謎的答案,燈光非常具有電影感,金色的燈光,背景是巴黎的街道和城市,景深,35毫米電影膠片。”

  這段提示詞中主體除了“灰發(fā)男子”,還有“畫外走動的人們”“巴黎的街道和城市”。生成的視頻可以看到,從特寫切到中景,男子臉上的光、表情細(xì)節(jié),以及背景中走動的人、城市景色都表現(xiàn)出來了,背景與前景相互結(jié)合,也做到了所謂的“電影感”。

  結(jié)合以上案例不難看出,目前騰訊混元生成視頻大模型可以實(shí)現(xiàn)超寫實(shí)畫質(zhì)、生成高度符合提示詞的視頻畫面,畫面流暢不易變形。

  比如,在沖浪、跳舞等大幅度運(yùn)動畫面的生成中,騰訊混元可以生成非常流暢、合理的運(yùn)動鏡頭,物體不易出現(xiàn)變形;光影反射基本符合物理規(guī)律,在鏡面或者照鏡子場景中,可以做到鏡面內(nèi)外動作一致。值得一提的是,混元目前已實(shí)現(xiàn)了在畫面主角保持不變的情況下自動切換鏡頭,這是業(yè)界大部分模型所不具備的能力。

  同時,在與國內(nèi)外多個頂尖模型的評測對比顯示,混元視頻生成模型在文本視頻一致性、運(yùn)動質(zhì)量和畫面質(zhì)量多個維度效果領(lǐng)先,在人物、人造場所等場景下表現(xiàn)尤為出色。

文生視頻評測結(jié)果

  全面開源,上元寶可免費(fèi)使用

  目前該模型已上線騰訊元寶APP,用戶可在AI應(yīng)用中的“AI視頻”板塊申請?jiān)囉?。企業(yè)客戶通過騰訊云提供服務(wù)接入,目前API同步開放內(nèi)測申請。

通過騰訊元寶APP-AI應(yīng)用-AI視頻即可使用該功能

  同時,騰訊方面還宣布,此次發(fā)布的視頻生成大模型已在Hugging Face平臺及Github上發(fā)布,包含模型權(quán)重、推理代碼、模型算法等完整模型,全面開源,可供企業(yè)與個人開發(fā)者免費(fèi)使用和開發(fā)生態(tài)插件?;隍v訊混元的開源模型,開發(fā)者及企業(yè)無需從頭訓(xùn)練,即可直接用于推理,并可基于騰訊混元系列打造專屬應(yīng)用及服務(wù),能夠節(jié)約大量人力及算力,加速行業(yè)創(chuàng)新步伐。

  從年初以來,騰訊混元系列模型的開源速度不斷加快。就在11月初,騰訊召開混元大模型媒體溝通會,宣布最新的MoE模型“混元Large”以及混元3D生成大模型“ Hunyuan3D-1.0”正式開源。

  今年以來,“等我老了依靠小貓來養(yǎng)老”“老照片古人物動起來”等用AI大模型制作的上述視頻走紅網(wǎng)絡(luò)。視頻領(lǐng)域儼然已成AI技術(shù)落地的首個橋頭堡。不少AI視頻出圈的背后,是“中國版Sora”的快速崛起。今年春節(jié)期間,Sora的橫空出世投下了一枚炸彈,瞬間讓卷“文生文”“文生圖”的大模型廠商開啟了“視頻ChatGPT時代”。不過,Sora一鳴驚人后卻遲遲未上線,被外界稱為“期貨”。

  在這期間,多家中國廠商搶先入場,推出了視頻大模型產(chǎn)品,包括字節(jié)、快手、阿里云、昆侖萬維、美圖在內(nèi)的互聯(lián)網(wǎng)廠商,以及Minimax、智譜、愛詩科技與生數(shù)科技等大模型初創(chuàng)等廠商都在快速跟進(jìn)。

  騰訊混元多模態(tài)生成技術(shù)負(fù)責(zé)人凱撒在溝通會后接受采訪時表示,目前不少業(yè)界產(chǎn)品和模型都有先發(fā)優(yōu)勢,但團(tuán)隊(duì)在研發(fā)時發(fā)現(xiàn),現(xiàn)在視頻生成特別是文生視頻領(lǐng)域成熟度遠(yuǎn)沒有大家想象的那么高,失敗率仍很高?!霸谖覀儍?nèi)部評估,這個技術(shù)程度還沒有到大規(guī)模商業(yè)化的程度,還在技術(shù)打磨階段。我們選擇在這個階段推出它,同時選擇對外開源,希望跟社區(qū)一起把技術(shù)早日推向像AI圖像生成這樣真正可用的狀態(tài)。”

(文章來源:南方都市報)

相關(guān)推薦
免責(zé)聲明
本文所包含的觀點(diǎn)僅代表作者個人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險,讀者在采取與本文內(nèi)容相關(guān)的任何行動之前,請務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。

熱門文章