不卡在线,黄色一级二级三级,91福利在线免费观看

首頁(yè) > AI資訊 > 行業(yè)動(dòng)態(tài) > 試了試Meta的最新語(yǔ)音生成器，逼真得有點(diǎn)毛骨悚然

試了試Meta的最新語(yǔ)音生成器，逼真得有點(diǎn)毛骨悚然

新火種 2023-12-19

機(jī)器之能報(bào)道

編輯：吳昕

《小紅帽》故事中的所有音頻都是 AI 生成的，你能聽(tīng)出來(lái)嗎？作品出自一個(gè)非常酷的語(yǔ)音生成工具 Audiobox Maker，你可以在 Meta 剛剛發(fā)布的一個(gè)新的交互式網(wǎng)站 audiobox.metademolab 上找到它。

有了它，僅用幾分鐘的時(shí)間，機(jī)器之心也隨意生成了關(guān)于五月天假唱熱搜的對(duì)話：

透過(guò) Audiobox Maker ，即使是小白用戶也可以設(shè)計(jì)、生成不同人物（比如小紅帽、大灰狼和外婆）的聲音文件，同時(shí)添加不同聲效，通過(guò)拖曳、排列組合各種文件（就像搭樂(lè)高），自編自導(dǎo)一出故事。

我們使用 Audiobox Maker 制作關(guān)于五月天假唱對(duì)話的語(yǔ)音作品示例，生成了兩個(gè)對(duì)話人物的音頻，還有背景聲效，通過(guò)拖曳不同模塊進(jìn)行編輯。

有學(xué)者說(shuō)，2023 年是語(yǔ)音之年（ Year of Sound Waves ）。

確實(shí)，從電影、游戲、播客到有聲讀物，聲音的魅力和地位可謂舉重輕重。然而，制作高質(zhì)量的音頻卻不是一件容易的事，特別是對(duì)無(wú)數(shù)業(yè)余愛(ài)好者來(lái)說(shuō)。

為了改變現(xiàn)狀，無(wú)論是 OpenAI、谷歌、微軟、Meta 、亞馬遜還是一眾初創(chuàng)公司，都在語(yǔ)音生成方面投入了大量資金。

6 月，Meta 曾推出全新的語(yǔ)音生成 AI 模型—— VoiceBox，能從文本直接生成高質(zhì)量語(yǔ)音，不需要任何語(yǔ)音樣本作為訓(xùn)練數(shù)據(jù)。

由于當(dāng)時(shí)對(duì)基于 AI 的深度偽造的擔(dān)憂日益加劇，Meta 并未向公眾開(kāi)放 Voicebox。

意外的是，本周一，Meta 發(fā)布了一個(gè)新的交互式網(wǎng)站，支持大眾免費(fèi)體驗(yàn) 「 Voicebox 的接班人」、最新的音頻生成器 AudioBox。

Audiobox Maker 只是 AudioBox 的一個(gè)體驗(yàn)內(nèi)容。

事實(shí)上，你可以將 Audiobox 看作一個(gè)匯聚了六個(gè) AI 工具的「模型系列」，包括克隆聲音、文本到聲音、文本到音效（比如掌聲、狗叫、汽車(chē)?yán)?、雷聲）、在指定地方添加音效或刪除指定部分等。

機(jī)器之心也立刻體驗(yàn)了一把幾個(gè) AI 功能，非常有意思。不過(guò)，遺憾的是目前并不支持中文。

最讓人印象深刻的工具—— 從文本直接生成各種音效。

雖然 Audiobox 建立在 Voicebox 框架之上，但它可以生成更多種類的聲音，特別是不同環(huán)境的聲效。

只需給模型一個(gè)文本提示即可，例如「一條流淌的河流和鳥(niǎo)兒的鳴叫」：

Meta 聲稱，與之前最先進(jìn)的產(chǎn)品相比，Audiobox 將 FAD （Frechet Audio Distance 的縮寫(xiě)，F(xiàn)AD 值越小越好）降低了 50% ，在質(zhì)量和保真度方面堪與真實(shí)音頻相媲美。

換一個(gè)聲效提示試試—— The sound of the brook accompanied the laughter of the young woman ，感覺(jué)后半段有點(diǎn)恐怖了。

克隆自己的聲音

先錄制一段自己的聲音，想聽(tīng)聽(tīng)克隆聲音朗讀葡萄牙著名詩(shī)人卡蒙斯的詩(shī)的感覺(jué)，結(jié)果發(fā)現(xiàn)，目前并不支持葡萄牙語(yǔ)，只好更換為葉芝的詩(shī)歌 When you are old。

很快，就生成了兩個(gè)音頻供選擇。說(shuō)實(shí)話，本人很難分辨哪個(gè)更好，因?yàn)槎己芟瘛?/p>

Audiobox 使用了一種定制求解器，Meta 聲稱，這種求解器使生成過(guò)程比以前的模型快 25 倍以上，而不會(huì)損失性能。

不想用克隆的聲音？沒(méi)問(wèn)題，同樣是朗讀When you are old，你還可以直接通過(guò)文本提示，利用 AI 生成最適合的聲音：輸入提示，an old english man with a deep yet soft voice. He speaks with a slightly flat tone and his emotions are enthusiastic. The audio is high quality and it sounds like it was recorded by the sea。

oldman

值得注意的是，用戶還可以結(jié)合語(yǔ)音輸入與文本樣式提示，生成任何環(huán)境（例如，海邊）或任何情緒（例如，悲傷而緩慢地說(shuō)話）下的語(yǔ)音。

Meta 聲稱，Audiobox 是第一個(gè)支持該雙輸入（聲音樣本和文本描述提示）的語(yǔ)音生成大模型，最大限度提高了每個(gè)用例結(jié)果的可控性。

比如，我們想讓朗讀 When you are old的聲音變得更成熟一些，想象背景里還有淅淅瀝瀝的雨聲和遠(yuǎn)處的雷聲（是不是更有意境？）

我們用自己的聲音錄制了樣本，再加上文本提示：

A middle-aged person speaking with a relaxed, friendly voice. Background includes rain sound and distant thunder.

效果如下：

音頻和文本提示雙重控制生成

Audiobox 還支持聲音填充功能，根據(jù)文本描述將指定音頻的一部分替換為新聲音。

我們?cè)囍鴮偛派傻囊欢闻诵β暟殡S河流聲的部分音頻（紫色部分）更換為一陣狗吠，還有沉重的腳步聲。

效果還不錯(cuò)：

填充聲效

除了上述功能，用戶還可擦除指定部分的音頻。

必須說(shuō)明的是，可能出于倫理安全方面的謹(jǐn)慎，系統(tǒng)約束過(guò)多。幾乎每次輸入都會(huì)碰到系統(tǒng)顯示無(wú)法處理的情況，要修改甚至放棄原來(lái)的表述，才可能成功，因此很難順利按照自己既定的腳本，完成音頻生成。

與 Voicebox 相比，Audiobox 的生成質(zhì)量更優(yōu)。通過(guò)「結(jié)合使用語(yǔ)音輸入和自然語(yǔ)言文本提示」生成語(yǔ)音和聲音效果，最大限度提高結(jié)果的可控性。

另外，和 Voicebox 不同，所有這些音頻生成、編輯等功能，都「建立在共享的自監(jiān)督模型 Audiobox SSL 之上?！?/p>

換句話說(shuō)，通過(guò)統(tǒng)一語(yǔ)音和音景的生成和編輯功能，Audiobox 進(jìn)一步推進(jìn)了音頻的生成 AI 的進(jìn)步。

在安全性上，使用 Audiobox 創(chuàng)建的任何音頻都帶有自動(dòng)水印，可以準(zhǔn)確地追溯到其來(lái)源。

該技術(shù)目前不能用于任何賺錢(qián)/商業(yè)目的，奇怪的是也不能被美國(guó)人口最多兩個(gè)州的居民使用。但隨著 AI 的快速發(fā)展，預(yù)計(jì)這種情況會(huì)改變，在不久的將來(lái)會(huì)有商業(yè)版本，即使不是來(lái)自 Meta，也會(huì)來(lái)自其他人。

Tags:

大模型生成器毛骨悚然

相關(guān)推薦

免責(zé)聲明: 本文所包含的觀點(diǎn)僅代表作者個(gè)人看法，不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對(duì)本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。交易和投資涉及高風(fēng)險(xiǎn)，讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前，請(qǐng)務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對(duì)因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢(qián)損失負(fù)任何責(zé)任。

試了試Meta的最新語(yǔ)音生成器，逼真得有點(diǎn)毛骨悚然

大模型公司紛紛被收編！創(chuàng)始人們逐漸變成了“最討厭的自己”？

大模型廠商“輸血”不斷，百川智能完成50億元A輪融資！

算力不足，小模型成AI模型發(fā)展下個(gè)方向？

字節(jié)“扣子”正式加AI戰(zhàn)場(chǎng)！2024年的大模型能否實(shí)現(xiàn)彎道超車(chē)？

ai音樂(lè)生成器是怎么用的？ai音樂(lè)生成器有哪些軟件？

熱門(mén)文章

試了試Meta的最新語(yǔ)音生成器，逼真得有點(diǎn)毛骨悚然

大模型公司紛紛被收編！創(chuàng)始人們逐漸變成了“最討厭的自己”？

大模型廠商“輸血”不斷，百川智能完成50億元A輪融資！

算力不足，小模型成AI模型發(fā)展下個(gè)方向？

字節(jié)“扣子”正式加AI戰(zhàn)場(chǎng)！2024年的大模型能否實(shí)現(xiàn)彎道超車(chē)？

ai音樂(lè)生成器是怎么用的？ai音樂(lè)生成器有哪些軟件？

熱門(mén)文章

試了試Meta的最新語(yǔ)音生成器，逼真得有點(diǎn)毛骨悚然

大模型廠商“輸血”不斷，百川智能完成50億元A輪融資！

算力不足，小模型成AI模型發(fā)展下個(gè)方向？

字節(jié)“扣子”正式加AI戰(zhàn)場(chǎng)！2024年的大模型能否實(shí)現(xiàn)彎道超車(chē)？

ai音樂(lè)生成器是怎么用的？ai音樂(lè)生成器有哪些軟件？