視頻效果不輸Pika!華裔“AI女神”聯手谷歌打造又一利器
《科創板日報》12月12日訊(編輯 宋子喬) AI視頻生成領域又迎來一個重磅工具。
日前,AI科學家李飛飛團隊與谷歌合作,推出了視頻生成模型W.A.L.T(Window Attention Latent Transformer)——一個在共享潛在空間中訓練圖像和視頻生成的、基于Transformer架構的擴散模型。
李飛飛是華裔女科學家、世界頂尖的AI專家,現為美國斯坦福大學終身教授、斯坦福大學人工智能實驗室主任,曾任谷歌副總裁和谷歌云首席科學家。前OpenAI研究員、曾擔任特斯拉人工智能和自動駕駛視覺總監的Andrej Karpathy便是其得意弟子。
從展示的案例來看,W.A.L.T的效果媲美Gen-2比肩Pika,其可以根據自然語言/圖片提示生成逼真的2D/3D視頻或動畫。
A Teddy bear skating carefully in Times Square,Slow Motion/一只泰迪熊在時代廣場上優雅的滑冰,慢動作An stronaust riding a horse/一名宇航員騎著馬A giant dragon sitting in a snow covered landscape, breathing fire/一條巨大的龍盤踞在冰雪覆蓋的大地上,噴吐著火焰Cameraturns around a cute bunny, studio lighting, 360 rotation/相機圍繞一只可愛的兔子旋轉,工作室燈光,360度旋轉評論區有不少人驚嘆,“好萊塢的末日!”“跨域式的發展!”還有人提問,“能嵌入消費電子產品上嗎?代碼會開源嗎?”
相關論文已經發布(見下圖)。
▌怎么做到的?
核心研究人員阿格里姆?古普塔(Agrim Gupta)代表李飛飛團隊對W.A.L.T的兩個關鍵決策作了詳細介紹:
首先,研究者使用因果編碼器(causal encoder)在統一的潛在空間內聯合壓縮圖像和視頻,從而實現跨模態的訓練和生成。
其次,為了提高記憶和訓練效率,研究者使用了為空間和時空聯合生成建模量身定制的窗口注意力機制(window attention),注:該機制基于transformer架構。
通過這兩個關鍵決策,團隊在已建立的視頻(UCF-101和Kinetics-600)和圖像(ImageNet)生成基準測試上實現了SOTA,而無需使用無分類器指導。
最后,團隊還訓練了三個模型的級聯,用于文本到視頻的生成任務,包括一個基本的潛在視頻擴散模型和兩個視頻超分辨率擴散模型,以每秒8幀的速度,生成512x896分辨率的視頻。
▌W.A.L.T的出現說明了什么?
在視頻生成領域,Runway Gen-2、Zero Scope等應用珠玉在前,一大波“后浪”洶涌而至。
加上W.A.L.T,近期已有多個視頻生成應用驚艷亮相,包括爆火出圈的Pika,以及三大圖片轉視頻神器——阿里的Animate Anyone、字節跳動的Magic Animate、微軟的GAIA。
Pika的投資人名單幾乎集齊了硅谷的半壁江山,其他應用背后均站著科技巨頭。
W.A.L.T在內的工具的密集出現,再次說明一個問題:各方勢力競相加碼,但相關應用的優化迭代速度和商業化進程均較慢,大公司與初創團隊勢均力敵,終局之戰遠未到來,文生視頻應用的潛力還沒有徹底被開發。
主要原因在于,視頻生成應用的底層模型及技術仍在優化,未篩選出最優模型。
在圖像和視頻生成應用上,當下的主流技術路線為Diffusion Model(擴散模型),但各家采用的模型均有自己的創新點。比如W.A.L.T的窗口注意力機制。Pika聯合創始人孟晨琳此前也透露:“Pika也不能完全算Diffusion Model,我們開發了很多新東西,是一種新的模型?!?/p>
由于底層技術不同,各產品存在各自的優劣勢,比如,基于Transformer的代表Phenaki突破了視頻生成時長限制,但效果相對粗糙缺少細節;基于擴散模型的代表Make-AVideo重在提升視頻質量,但其視頻時長均在4秒以內。
如何找到視頻生成時長、效果、成本之間的平衡點?該領域的研究者依然在尋求最優解。
▌視頻生成背后暗藏機器人機遇?
值得注意的是,李飛飛研究領域涉及計算機視覺、機器學習、深度學習、認知神經科學等,而近年來其關注的重點聚焦在AI智能體,即具身智能。負責介紹W.A.L.T的研究人員Agrim Gupta是論文《通過學習和進化實現具身智能》的第一作者。
在李飛飛看來,計算機視覺未來的重點方向就是具身智能,她認為,具身AI可能會給我們帶來一次重大的轉變,從識別圖像等機器學習的簡單能力,轉變到學習如何通過多個步驟執行復雜的類人任務。
具身智能,可以理解為具備自主決策和行動能力的機器人/仿真人,是通用AI的高級形態。W.A.L.T模型的另一研究方谷歌已經在研究,如何將其原生多模態大模型Gemini與機器人技術結合起來。
作為多模態應用的重要分支,視頻生成與機器人的視覺感知力有著密切的關系。基于此,李飛飛團隊投身視頻生成模型,并沒有偏離其具身智能研究。未來如何?我們靜觀其變。
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。