OpenAI藏了1年多的技術(shù)公開!15秒素材克隆聲音,HeyGen也在用
OpenAI雪藏的新產(chǎn)品——語音合成引擎Voice Engine,終于被正式揭幕。
有了它,只需15秒的語音樣本,就能克隆出一個人的聲音,而且還能跨越語言!
APP版ChatGPT中的語音對話功能,也正是由這項技術(shù)所驅(qū)動。
效果如何?先來聽段DEMO:
【音頻效果請移步公眾號】
而OpenAI通告顯示,他們在2022年底就已經(jīng)開發(fā)出了這項技術(shù),但出于安全考慮一直沒有正式發(fā)布。
這次,OpenAI終于官宣了Voice Engine,并展示了小規(guī)模測試中的幾個應(yīng)用案例。
比如,一家非營利醫(yī)療機構(gòu)就利用這項技術(shù),為一名年輕的病人恢復(fù)了她的聲音。
另外值得一提的是,去年爆火的視頻翻譯軟件HeyGen,采用的語音引擎也正是Voice Engine。
那么,這次OpenAI還展現(xiàn)了哪些效果,下面就來一睹為快。
用AI幫助病患恢復(fù)聲音
首先是利用基礎(chǔ)的語音合成能力,為兒童等不具備文字閱讀能力的群體提供閱讀輔助。
比如一家兒童教育技術(shù)公司,就一直在使用Voice Engine來給編寫好的畫外音內(nèi)容配音。
DEMO中生成的大段內(nèi)容,都是基于這樣一段15秒的樣本:
【音頻效果請移步公眾號】
然后,就可以合成相同音色的長段語音:
【音頻效果請移步公眾號】
再來看看HeyGen中用到的的語音翻譯技術(shù),原始素材是一段英語的音頻:
【音頻效果請移步公眾號】
它被用原始的音色,翻譯成了普通話、法語、德語等多種語言。
忽略譯文的質(zhì)量,只聽聲音,中文的效果是這樣的:
【音頻效果請移步公眾號】
音色保持的還算不錯,不過腔調(diào)很明顯一聽就是外國人在說中文。
至于這到底是個bug還是個feature,就見仁見智了(手動狗頭)。
此外,一款名為Livox的殘障人士輔助應(yīng)用,也利用Voice Engine為不能說話的殘障人士“發(fā)出聲音”——
在有了Voice Engine之后,TA們可以選擇專屬的真人音色,而不再是機械感明顯的合成音,并且在各種語言之間都能保持音色的一致性。
不只是幫助殘障人士擁有自己的聲音,Voice Engine還可以為因疾病導(dǎo)致聲音發(fā)生在重大改變的人群,恢復(fù)患病之前聲音,只要有以前的聲音樣本就能實現(xiàn)。
一名年輕的患者因罹患血管性腦腫瘤,失去了流利講話的能力,說話變成了這樣:
【音頻效果請移步公眾號】
醫(yī)生從她所在學(xué)校錄制的視頻中提取到了她患病前的聲音作為樣本,在Voice Engine的幫助下為她恢復(fù)了此前的音色。
【音頻效果請移步公眾號】
此次發(fā)布的案例,特別是為不便人士提供幫助的場景受到了不少好評,但也有網(wǎng)友對這項技術(shù)的濫用表達了擔(dān)憂。
安全問題需要全社會共同關(guān)注
實際上,安全問題也是OpenAI遲遲未將這項技術(shù)公之于眾的主要考量。
出于安全考慮,前面案例的開發(fā)者都經(jīng)過了OpenAI的嚴(yán)格篩選,并且需要承諾遵守使用協(xié)議。
這些開發(fā)者被要求必須明確說明聲音是合成的,并且設(shè)定了黑名單以防止克隆公眾人物聲音。
此外,OpenAI還向合成的聲音中添加了水印,以便出現(xiàn)問題時可以進行檢測監(jiān)控,同時呼吁人們采取措施共同應(yīng)對這一問題:
在銀行等敏感信息的安全驗證措施中逐步淘汰語音驗證方式探索AI時代下個人聲音的保護措施教育公眾理解AI的局限性,并了解其被用于欺詐的可能加速開發(fā)跟蹤溯源技術(shù),讓人們能夠清晰辨別出真人和AI
- 免責(zé)聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認(rèn)可。 交易和投資涉及高風(fēng)險,讀者在采取與本文內(nèi)容相關(guān)的任何行動之前,請務(wù)必進行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。