Pika放大招:今天起,視頻和音效可以“一鍋出”了!
就在剛剛,Pika發布了一項新功能:
生成的方式有兩種:
要么給一句Prompt,描述你想要的聲音;要么直接讓Pika根據視頻內容自動生成。
并且Pika非常自信地說到:“如果你覺得音效聽起來很棒,那是因為它確實如此”。
話不多說,我們直接來聽一下。
車鳴聲、廣播聲、鷹叫聲、刀劍聲、歡呼聲……可謂是聲聲不息,并且從效果上來看,也是高度與視頻畫面匹配。
不僅是發布的宣傳片,Pika官網現在也放出了多個demo。
例如無需任何prompt,AI只是看了眼烤培根的視頻,便可以配出毫無違和感的音效:
再如給一句prompt:
Pika便可以在生成視頻的同時配上聲音,從效果中不難看出,煙花綻放的瞬間,聲音卡點也是相當的精準:
大周末的發布這樣一個新功能,網友們在高呼Pika“夠卷、夠Awesome”的同時,也有人認為:
那么Pika的Sound Effects具體要如何操作,我們繼續往下看。
給視頻“make some noise”
Pika給視頻生成音效的操作也是極!其!簡!單!
例如只需一句prompt,視頻和音效就能“一鍋出”:
相比于此前生成視頻的操作,現在只需開啟下方“Sound effects”按鈕即可。
讓我們聽一下生成效果:
第二種操作方式,就是在生成了視頻過后,可以單獨給它配音。
例如在下面這個視頻,點擊下方的“Edit”,再選擇“Sound Effects”:
然后可以描述一下自己想要的聲音,例如:
然后短短幾秒后,Pika就可以根據描述和視頻生成音效,而且還是6種聲音可選的那種!
值得一提的是,Sound Effects功能目前只對超級合作者(Super Collaborator)和Pro用戶開放測試。
不過Pika也表示:“我們很快就會向所有用戶推出該功能!”
然后現在已經有一批網友在開始測試這個Beta版本了,并且表示:
再如“壁爐里火焰的聲音”,是這樣的:
這位網友還用了額外的工具,在Pika生成效果的基礎上,還讓視頻里的人物開口說話:
想要嘗鮮Pika新功能的小伙伴,可以蹲一波Sound Effects的全面開放了。
什么原理?
至于Sound Effects背后的原理,雖然Pika此次并沒有公開,但在此前Sora大火之后,語音初創公司ElevenLabs就出過類似的配音功能。
當時,英偉達高級科學家Jim Fan就對此做過較為深入的分析。
他認為,AI學習準確的視頻到音頻映射還需要對潛在空間中的一些“隱式”物理進行建模。
他詳細說明了端到端Transformer在模擬聲波時需要解決的問題:
識別每個物體的類別、材料和空間位置。識別物體間的高階互動:例如,是木棍、金屬或是鼓面?以什么速度擊打?識別環境:是餐廳、空間站、還是黃石公園?從模型的內部記憶中檢索物體和環境的典型聲音模式。使用“軟性”的、通過學習得到的物理規則來組合和調整聲音模式的參數,甚至即時創造全新的聲音。這有點像游戲引擎中的“程序化音頻”。如果場景很復雜,模型需要根據物體的空間位置疊加多個聲音軌道。
所有這些都不是顯式的模塊,而是通過大量的(視頻,音頻)對的梯度下降學習來實現的,這些視頻和音頻對在大多數互聯網視頻中自然地時間對齊。注意力層將在它們的權重中實現這些算法,以滿足擴散目標。
除此之外,Jim Fan當時表示英偉達的相關工作并沒有這樣高質量的AI音頻引擎,不過他推薦了一篇MIT五年前的論文The Sound of Pixels:
感興趣的小伙伴可以戳文末鏈接詳細了解一下。
One More Thing
在多模態這件事上,LeCun在最新訪談中的觀點也很火爆,他認為:
因此,LeCun總結到:
那么,你贊成這種觀點嗎?
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。