首頁 > AI資訊 > 最新資訊 > 視頻行業“工具革命”?Sora正式發布物理規律遵循難題待解

視頻行業“工具革命”?Sora正式發布物理規律遵循難題待解

新京報    2024-12-13

  近300天后,Sora終于正式發布。

  北京時間12月10日凌晨,OpenAI為期12天的發布會迎來第三場直播,OpenAI CEO山姆·奧特曼(Sam Altman)在直播中帶來了AI視頻生成模型Sora,這也是該模型正式向用戶開放。

  新版本在畫質(最高支持1080p)、時長(最長20秒)以及畫面長寬比方面都為用戶提供了選擇,還可實現文生視頻、圖生視頻和視頻生視頻。同時,Sora還提供了剪輯工具,用戶可以輕松剪輯視頻。可以說,正式推出后的Sora變得更快、更清晰以及更能剪輯。

  對于Sora的發布,多位業內人士表示,在可以預見的范圍內,Sora會給廣告、影視、游戲、直播等行業帶來深遠影響。上海人工智能研究院算法工程師黃冠認為,雖然AI視頻生成模型在物理理解能力、畫面統一性及算力成本等方面上還存在進步的空間,但隨著資本的持續推動,國內外相關模型也會在未來一年內加速走向成熟。

  最長可生成20秒視頻,ChatGPT會員可免費使用

  直播中,Sora工作人員表示,此次推出的Sora Turbo是原始Sora模型的全新高端加速版本,工作人員著重對Remix(重混)、Re-cut(重新剪輯)、Storyboard(故事板)、Loop(循環)、Style presets(風格預設)等功能進行了演示。

  在Remix(重混)功能上,用戶可對生成結果的內容進行替換、刪除等操作,演示中,一段“猛犸象穿過沙漠”的畫面生成后,工作人員通過修改文字,畫面中的“猛犸象”變成了“機器人”。

  在Storyboard(故事板)功能中,用戶可以使用Re-cut(重新剪輯)功能,在視頻時間線上截取、修剪或者擴展視頻,如為片段的留白處創建一個結尾。

  除此之外,在故事板功能中,Sora還可以使用圖像創建視頻。演示中,當工作人員上傳了一張燈塔的圖片后,Sora根據圖片自動生成了一段對于畫面的描述,并且加入了用戶可能希望圖像如何運動的理解。

  據工作人員介紹,Sora可以生成多種長寬比的視頻,時長從5秒到20秒不等,分辨率可從480p到1080p。同時,Sora還會為用戶提供多個片段的風格預設。

  從價格方面來看,ChatGPT plus或ChatGPT Pro的訂閱用戶可免費使用Sora,前者為20美元/月,最多可生成50次,分辨率最高為720p,時間最長為5秒。而ChatGPT Pro為200美元/月,此類訂閱用戶可享受更高的權益,如在慢速隊列模式下可以無限制生成,快速模式下可生成500個視頻,分辨率最高可達1080p,生成的視頻時間最長為20秒。

  用戶扎堆體驗,Sora物理規律遵循方面仍存缺陷

  Sora官網顯示,由于官網涌入大量流量,目前暫停了新帳戶的創建,截至發稿時,這一禁令仍未解除。不過,在全球社交媒體上,已有不少用戶分享了Sora的使用體驗。

  在視頻平臺Youtube上,擁有近2000萬粉絲的科技測評博主Marques Brownlee分享了自己搶先體驗Sora的測評結果。Marques指出,在生成時間方面,生成一個5秒鐘的360p視頻只需要不到20秒,且生成過程在服務器端進行,不受用戶電腦速度和網絡連接速度的影響。

  Marques表示,在抽象內容創作方面,Sora能夠根據用戶的詳細描述,創建各種紋理、顏色和漸變效果,使抽象形狀以多種方式移動,可用于制作屏幕保護程序或背景素材等。除此之外,在特定風格創作以及創意元素生成等方面,Sora都有很好的表現,能為用戶提供更多創作的可能性。

  不過,在遵循物理規律方面,Sora還存在一定的欠缺。在Marques的觀察中,Sora生成的視頻存在物體運動不符合常理以及存在物體永恒性的問題,如物體相互穿過、憑空出現和消失的現象頻繁發生,影響了視頻的真實感和可理解性。另一方面,人物動作缺乏自然,當有腿的物體行走時,經常出現腿部動作混亂,前后腿切換錯誤的情況,且人物運動速度不穩定,導致整體運動效果偏離了正常狀態。

  對于這一問題,上海人工智能研究院算法工程師黃冠告訴貝殼財經記者,這是目前大部分AI視頻生成模型的通病,“Sora是擴散模型和 Transformer 的結合體,本質是根據輸入,通過 Transformer 生成潛在空間表征序列,對應的表征形式為空間時間圖塊(類似 GPT 中的token),再經擴散模型對表征序列進行解釋,逐漸消除噪聲生成邏輯自洽的圖像序列。這種架構可能會導致模型對物理現象難以理解,導致生成的畫面存在不符合物理規律的問題。”

  黃冠表示,若要提升模型對物理的解釋能力,需要優化模型架構,“此類模型是概率性模型,依賴訓練數據和標定,未來可通過提升數據標定、擴大優質數據集訓練或模型架構更新的方式取得進步。”

  對于Sora的發布,Sora的工作人員在直播間表示,作為一個工具,Sora 可以讓用戶同時在多個地方,同時嘗試多個想法以及嘗試以前完全不可能的事情,“我們認為這是一種超級特別的東西,是背后創作者的延伸。所以我們迫不及待地想看看用戶可以創造什么。”

  多位業內人士表示,在可以預見的范圍內,Sora會給廣告、影視、游戲、直播等行業帶來深遠影響。黃冠指出,AI視頻生成模型的發展速度非常快,隨著資本的持續推動,國內外相關模型也會在未來一年內加速成熟。

  Sora帶來視頻行業“工具革命”?

  今年2月Sora預覽版發布后,首次由AI生成了長達1分鐘的多鏡頭長視頻,引發了全球對于AI視頻生成模型的討論。

  在第三場直播中,山姆·奧特曼也分享了其認為視頻對于OpenAI 十分重要的原因,“我們喜歡為創作者打造工具,這種創造文化對我們來說至關重要,這也是我們希望人類利用AI的方式之一。其次,我們不希望這個世界只有文本,我們希望AI能夠理解并生成視頻,我認為這會深刻改變我們使用計算機的方式。第三,這對于OpenAI的通用人工智能路線圖至關重要,視頻將是一個重要的環境,我們或者AI將在這里學習如何實現我們在世界上所需的目標。”

  在Sora預覽版發布后,有不少聲音認為,Sora掀起了視頻行業的“工具革命”。此次正式版發布后,有行業人士認為,Sora的成功之處在于找到了AI如何復制人類視頻制作的方法和思路,如用戶可以通過剪輯工具對畫面的細節進行調優,同時會對多領域產生深遠影響。

  中央財經大學中國互聯網經濟研究院副院長劉航向告訴貝殼財經記者,對于Sora掀起視頻行業“工具革命”這一提法,其認為并不過分,自動生成視頻的功能對動畫和視頻行業從業者有很強的賦能作用,可以提升效率。但劉航強調,在使用的過程中,創作者需明確表達自身的需求和主旨,并輸入內容,才能使AI生成符合需求的結果。

  黃冠則表示,Sora從工具的屬性上來看確實是一場革命,基于“完美”版Sora的前提下,傳統視頻的制作方法可能完全被顛覆,“在當前情形下,Sora更多可能是作為輔助工具來提高工作效率,我也期待未來理想版的Sora以及理想情況下的AIGC能成為現實,那時不僅僅是視頻行業的‘工具革命’,可能說是媒體行業新一輪的‘工業革命’也不為過。”

  今年以來,國內AI視頻生成工具如海螺AI、可靈、即夢AI、Vidu、清影等大模型相繼出現,并且均能實現較好的視頻生成效果。

  黃冠認為,雖然在模型創新、數據和算力等方面,國內AI視頻生成模型與國外還存在差距,但背靠快手、騰訊、阿里、字節的大模型們,追趕速度極快,甚至在某些方面有所趕超,如中文語境下讓視頻人物說中國話、創作中國風作品效果更佳。黃冠還強調,在商業化方面,國內還率先在微短劇行業實現了AI 視頻生成模型的落地。

  11月底,快手科技創始人兼首席執行官程一笑曾透露,目前可靈AI的商業化單月流水超千萬人民幣,公司有信心在明年實現可靈收入規模的快速增長。

  Fortune business insights發布的報告顯示,2024年,全球AI視頻生成市場規模預計達6.148億美元(約44.6億人民幣),預計到2032年,這一市場規模將超過25.629億美元(約185.93億人民幣),年復合增長率19.5%,市場前景廣闊。

  不過,AI視頻生成模型還要不斷突破技術和算力瓶頸。多位AI算法研究人員告訴貝殼財經記者,除了物理理解能力差,當前AI視頻生成模型還存在畫面統一性問題以及算力資源消耗大、生成成本高等問題,如算力限制和成本較高的直接后果就是視頻的生成時長受到影響,這也是為何Sora最高只能生成20秒視頻的部分原因。

  而隨著技術和算力發展,AI生成視頻的內容質量將會得到較大提升,生成的視頻也會更符合物理場景、畫面更連貫真實。對于未來的商業化前景,受訪專家表示,此類模型可為影視行業提供從故事創作到視頻生成、剪輯的一條龍服務,實現一站式視頻生成,由于生產效率極大的提高,未來會受到更多商業場景的歡迎。

(文章來源:新京報)

Tags:
相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章