別急著捧殺谷歌Veo2,畢竟曾被吹上天的Sora也翻了車
AI好好用報道
編輯:楊文為了考住Veo2,也是難為人類了。總被 OpenAI 壓著打的谷歌,終于揚(yáng)眉吐氣了!
最近,谷歌連上幾款大模型,個個備受好評。
先是推出最強(qiáng) AI 大模型 Gemini 2.0,接著又官宣了 AI 視頻生成模型 Veo2,直接對著 OpenAI 的 Sora 貼臉開大。
據(jù)介紹,Veo2 能生成 2 分鐘以上時長、4k 分辨率的視頻,也能理解提示詞中的相機(jī)控制指令,還能重建出符合真實(shí)世界的物理交互和人臉表情。
同時,在基于人類評估者的對比評估中整體表現(xiàn)遠(yuǎn)超對手。

一眾大佬也齊刷刷為其站臺。

官方給出的演示視頻也相當(dāng)驚艷。
《權(quán)力與游戲》中的龍在高樓大廈間穿梭,這效果是不是吊打不少視覺特效師?

一只貓對著鏡子中的自己咆哮,但它看到的卻是自己像獅子一樣在吼叫:

谷歌 DeepMind 研究員 @babaeizadeh 還制作了一系列動畫風(fēng)格的土豆小人情景喜劇。
(Prompt:anime style footage of two potatoes having a sword fight. cinematic, fastpaced with a lot of shotcuts.)
不過,與幾個月之前的 Sora 類似,Veo2 目前也尚未對公眾開放。
這也意味著,社交平臺上的 Veo2 生成視頻,要么時官方精挑細(xì)選出來的,要么是科技博主們一手評測出來的。
此外,這些放出來的視頻時長均為 8 秒,分辨率也不超過 720p。
Veo2 的實(shí)際效果究竟如何?
我們或許可以從科技博主的測評視頻中找到一些端倪。
-1-
Veo2 也逃不過翻車的命運(yùn)嗎?
目前,已經(jīng)有不少國外科技博主拿到了 Veo2 試用「門票」,并在社交平臺上放出來各種測評視頻。
從這些測評視頻中,我們發(fā)現(xiàn)Veo2 確實(shí)進(jìn)步一大截,但也存在不少老生常談的問題。
并未完全理解物理世界
X 博主 @shlomifruchter 是谷歌 Deepmind Veo 的聯(lián)合負(fù)責(zé)人。
他用 Veo2 生成了一系列將水果扔進(jìn)水里的視頻。
比如,把幾顆飽滿的藍(lán)莓丟進(jìn)水中,無論是藍(lán)莓入水后的浮沉,還是泛起的水泡、濺起的水花,乍一看都沒毛病,但一細(xì)究就會發(fā)現(xiàn)杯子的水位并沒有上升。

再比如鐵球垂直砸入裝滿硬幣的盒子,最初的「爆炸性」運(yùn)動生成得很真實(shí),但在「飛」走很多硬幣后,盒子里又冒出了比開始還多的硬幣。

(視頻來自谷歌 DeepMind 成員.@hhm)
DeepMind 研究科學(xué)家 @MattMcGill_評論稱,在沒有感官反饋的情況下,視頻生成模型很難像人類一樣準(zhǔn)確地模擬和修正物理現(xiàn)象,從而導(dǎo)致生成的視頻中出現(xiàn)許多物理錯誤。
這就像在缺乏感官基礎(chǔ)的夢境中,人可以漂浮著下樓梯,物體之間可以隨意轉(zhuǎn)換,時間可以變得非線性等。
并未嚴(yán)格遵循提示詞
風(fēng)投公司 a16z 合伙人 Justine Moore 也測試了幾個 Prompt。
其中一個Prompt:giraffe librarian in a sweater and jeans putting books back on a shelf.(穿著毛衣和牛仔褲的長頸鹿圖書管理員把書放回書架上。)

對于這個長頸鹿圖書管理員的穿著,Veo2 領(lǐng)悟得很到位,但它并沒有把書放回書架。
Justine Moore 在回復(fù)中表示,有 25% 到 50% 的情況下模型能夠成功地完成任務(wù)或給出正確的結(jié)果。它在處理復(fù)雜任務(wù)、運(yùn)動量大的場景以及分布外推理方面的能力有了顯著提升,但仍有改進(jìn)空間。
谷歌 DeepMind 成員@hhm 輸入 Prompt: Bear writing the solution to 2x-1=0. But only the solution!(熊在寫解方程 2x - 1 = 0 的解,但只寫解!)

(視頻來自 X 博主 @hhm)
黑板上確實(shí)呈現(xiàn)出正確的答案,只不過小熊并沒有在寫字,它只是拿著一塊黑板而已。
手部細(xì)節(jié)生成異常
在某些細(xì)節(jié)方面,Veo2 也經(jīng)不起推敲。
比如這個女孩在云端跳舞的視頻,眼尖的觀眾會發(fā)現(xiàn)畫面驚現(xiàn)三條胳膊。


搞不定復(fù)雜的體育動作
對于 AI 來說,生成體操動作仍是一大難題。
這是因為 AI 需要能夠捕捉到運(yùn)動員在空中的旋轉(zhuǎn)、翻轉(zhuǎn)等動作,并且生成的視頻要保持流暢和連貫。
同時運(yùn)動員在翻轉(zhuǎn)時可能出現(xiàn)身體部位的相互遮擋,這增加了模型生成視頻時處理遮擋關(guān)系的難度。
下面這個 Veo2 生成的體操動作視頻就是一個失敗的案例:重力失靈、運(yùn)動員騰空翻轉(zhuǎn)時身體不正常扭曲等。

X 博主 @jerrod_lew 發(fā)布了一個 Veo2 生成的體育類視頻合集,里面有多處詭異的情形。
網(wǎng)球拍擊球的角度不正確,背后的力度看起來不夠;跑步者的手突然反向運(yùn)動,使得生成的動作不自然、不符合人體運(yùn)動規(guī)律等。
(視頻來自 X 博主 @jerrod_lew)
還有這個機(jī)器人和人類踢足球的視頻,人類和機(jī)器人的手臂會互相穿過;在無人觸碰的情況下,球會自己旋轉(zhuǎn)移動等。

(Prompt:Soccer of the future, mixing people and robots. This is a fragment from a 2024 cinematic movie.)
-2-
國外科技博主橫評
不少博主還發(fā)布了 Veo 2 和其他視頻生成模型對比的視頻。
Prompt: A pair of hands skillfully slicing a ripe tomato on a wooden cutting board.提示詞:雙手熟練地在木菜板上切成熟的西紅柿。
提示詞:宇航員探索水下外星沉船。
提示詞:調(diào)酒師正在調(diào)制老式雞尾酒。
提示詞:一個人坐在咖啡館喝咖啡的視頻。過了一會兒,切到另一個視角,發(fā)現(xiàn)旁邊桌子上的一個人正在給他們寫信。
- 免責(zé)聲明
- 本文所包含的觀點(diǎn)僅代表作者個人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認(rèn)可。 交易和投資涉及高風(fēng)險,讀者在采取與本文內(nèi)容相關(guān)的任何行動之前,請務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。