試了試Meta的最新語(yǔ)音生成器,逼真得有點(diǎn)毛骨悚然
機(jī)器之能報(bào)道
編輯:吳昕
《小紅帽》故事中的所有音頻都是 AI 生成的,你能聽(tīng)出來(lái)嗎?作品出自一個(gè)非常酷的語(yǔ)音生成工具 Audiobox Maker,你可以在 Meta 剛剛發(fā)布的一個(gè)新的交互式網(wǎng)站 audiobox.metademolab 上找到它。
有了它,僅用幾分鐘的時(shí)間,機(jī)器之心也隨意生成了關(guān)于五月天假唱熱搜的對(duì)話:
透過(guò) Audiobox Maker ,即使是小白用戶也可以設(shè)計(jì)、生成不同人物(比如小紅帽、大灰狼和外婆)的聲音文件,同時(shí)添加不同聲效,通過(guò)拖曳、排列組合各種文件(就像搭樂(lè)高),自編自導(dǎo)一出故事。
我們使用 Audiobox Maker 制作關(guān)于五月天假唱對(duì)話的語(yǔ)音作品示例,生成了兩個(gè)對(duì)話人物的音頻,還有背景聲效,通過(guò)拖曳不同模塊進(jìn)行編輯。
有學(xué)者說(shuō),2023 年是語(yǔ)音之年( Year of Sound Waves )。
確實(shí),從電影、游戲、播客到有聲讀物,聲音的魅力和地位可謂舉重輕重。然而,制作高質(zhì)量的音頻卻不是一件容易的事,特別是對(duì)無(wú)數(shù)業(yè)余愛(ài)好者來(lái)說(shuō)。
為了改變現(xiàn)狀,無(wú)論是 OpenAI、谷歌、微軟、Meta 、亞馬遜還是一眾初創(chuàng)公司,都在語(yǔ)音生成方面投入了大量資金。
6 月,Meta 曾推出全新的語(yǔ)音生成 AI 模型—— VoiceBox,能從文本直接生成高質(zhì)量語(yǔ)音,不需要任何語(yǔ)音樣本作為訓(xùn)練數(shù)據(jù)。
由于當(dāng)時(shí)對(duì)基于 AI 的深度偽造的擔(dān)憂日益加劇,Meta 并未向公眾開(kāi)放 Voicebox。
意外的是,本周一,Meta 發(fā)布了一個(gè)新的交互式網(wǎng)站,支持大眾免費(fèi)體驗(yàn) 「 Voicebox 的接班人」、最新的音頻生成器 AudioBox。
Audiobox Maker 只是 AudioBox 的一個(gè)體驗(yàn)內(nèi)容。
事實(shí)上,你可以將 Audiobox 看作一個(gè)匯聚了六個(gè) AI 工具的「模型系列」,包括克隆聲音、文本到聲音、文本到音效(比如掌聲、狗叫、汽車(chē)?yán)?、雷聲)、在指定地方添加音效或刪除指定部分等。
機(jī)器之心也立刻體驗(yàn)了一把幾個(gè) AI 功能,非常有意思。不過(guò),遺憾的是目前并不支持中文。
最讓人印象深刻的工具—— 從文本直接生成各種音效。
雖然 Audiobox 建立在 Voicebox 框架之上,但它可以生成更多種類的聲音,特別是不同環(huán)境的聲效。
只需給模型一個(gè)文本提示即可,例如「一條流淌的河流和鳥(niǎo)兒的鳴叫」:
Meta 聲稱,與之前最先進(jìn)的產(chǎn)品相比,Audiobox 將 FAD (Frechet Audio Distance 的縮寫(xiě),F(xiàn)AD 值越小越好)降低了 50% ,在質(zhì)量和保真度方面堪與真實(shí)音頻相媲美。
換一個(gè)聲效提示試試—— The sound of the brook accompanied the laughter of the young woman ,感覺(jué)后半段有點(diǎn)恐怖了。
克隆自己的聲音
先錄制一段自己的聲音,想聽(tīng)聽(tīng)克隆聲音朗讀葡萄牙著名詩(shī)人卡蒙斯的詩(shī)的感覺(jué),結(jié)果發(fā)現(xiàn),目前并不支持葡萄牙語(yǔ),只好更換為葉芝的詩(shī)歌 When you are old。
很快,就生成了兩個(gè)音頻供選擇。說(shuō)實(shí)話,本人很難分辨哪個(gè)更好,因?yàn)槎己芟瘛?/p>
Audiobox 使用了一種定制求解器,Meta 聲稱,這種求解器使生成過(guò)程比以前的模型快 25 倍以上,而不會(huì)損失性能。
不想用克隆的聲音?沒(méi)問(wèn)題,同樣是朗讀When you are old,你還可以直接通過(guò)文本提示,利用 AI 生成最適合的聲音:輸入提示,an old english man with a deep yet soft voice. He speaks with a slightly flat tone and his emotions are enthusiastic. The audio is high quality and it sounds like it was recorded by the sea。
oldman
值得注意的是,用戶還可以結(jié)合語(yǔ)音輸入與文本樣式提示,生成任何環(huán)境(例如,海邊)或任何情緒(例如,悲傷而緩慢地說(shuō)話)下的語(yǔ)音。
Meta 聲稱,Audiobox 是第一個(gè)支持該雙輸入(聲音樣本和文本描述提示)的語(yǔ)音生成大模型,最大限度提高了每個(gè)用例結(jié)果的可控性。
比如,我們想讓朗讀 When you are old的聲音變得更成熟一些,想象背景里還有淅淅瀝瀝的雨聲和遠(yuǎn)處的雷聲(是不是更有意境?)
我們用自己的聲音錄制了樣本,再加上文本提示:
A middle-aged person speaking with a relaxed, friendly voice. Background includes rain sound and distant thunder.
效果如下:
音頻和文本提示雙重控制生成
Audiobox 還支持聲音填充功能,根據(jù)文本描述將指定音頻的一部分替換為新聲音。
我們?cè)囍鴮偛派傻囊欢闻诵β暟殡S河流聲的部分音頻(紫色部分)更換為一陣狗吠,還有沉重的腳步聲。
效果還不錯(cuò):
填充聲效
除了上述功能,用戶還可擦除指定部分的音頻。
必須說(shuō)明的是,可能出于倫理安全方面的謹(jǐn)慎,系統(tǒng)約束過(guò)多。幾乎每次輸入都會(huì)碰到系統(tǒng)顯示無(wú)法處理的情況,要修改甚至放棄原來(lái)的表述,才可能成功,因此很難順利按照自己既定的腳本,完成音頻生成。
與 Voicebox 相比,Audiobox 的生成質(zhì)量更優(yōu)。通過(guò)「結(jié)合使用語(yǔ)音輸入和自然語(yǔ)言文本提示」生成語(yǔ)音和聲音效果,最大限度提高結(jié)果的可控性。
另外,和 Voicebox 不同,所有這些音頻生成、編輯等功能,都「建立在共享的自監(jiān)督模型 Audiobox SSL 之上?!?/p>
換句話說(shuō),通過(guò)統(tǒng)一語(yǔ)音和音景的生成和編輯功能,Audiobox 進(jìn)一步推進(jìn)了音頻的生成 AI 的進(jìn)步。
在安全性上,使用 Audiobox 創(chuàng)建的任何音頻都帶有自動(dòng)水印,可以準(zhǔn)確地追溯到其來(lái)源。
該技術(shù)目前不能用于任何賺錢(qián)/商業(yè)目的,奇怪的是也不能被美國(guó)人口最多兩個(gè)州的居民使用。但隨著 AI 的快速發(fā)展,預(yù)計(jì)這種情況會(huì)改變,在不久的將來(lái)會(huì)有商業(yè)版本,即使不是來(lái)自 Meta,也會(huì)來(lái)自其他人。
- 免責(zé)聲明
- 本文所包含的觀點(diǎn)僅代表作者個(gè)人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對(duì)本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險(xiǎn),讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前,請(qǐng)務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對(duì)因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢(qián)損失負(fù)任何責(zé)任。