首頁(yè) > AI資訊 > 最新資訊 > OpenAI推出語(yǔ)音模型全家桶:AI將說(shuō)得更動(dòng)情、聽(tīng)寫(xiě)更準(zhǔn)確…

OpenAI推出語(yǔ)音模型全家桶:AI將說(shuō)得更動(dòng)情、聽(tīng)寫(xiě)更準(zhǔn)確…

財(cái)聯(lián)社    2025-03-22

財(cái)聯(lián)社3月21日訊(編輯 劉蕊)美東時(shí)間周四,OpenAI舉行了一場(chǎng)重磅的技術(shù)直播,發(fā)布了三款全新語(yǔ)音模型:語(yǔ)音轉(zhuǎn)文本模型GPT-4o Transcribe和GPT-4o MiniTranscribe,以及文本轉(zhuǎn)語(yǔ)音模型GPT-4o MiniTTS。

OpenAI聲稱(chēng),這些模型在之前版本的基礎(chǔ)上取得了明顯的進(jìn)步,也標(biāo)志著OpenAI距離其“AI智能體(AI AGENT)”的愿景更進(jìn)一步。

更逼真的語(yǔ)音生成模型

OpenAI聲稱(chēng),其新的文本到語(yǔ)音模型GPT-4o MiniTTS不僅能提供更細(xì)致入微、聽(tīng)起來(lái)更逼真的語(yǔ)音,而且比前一代語(yǔ)音合成模型更“可操控”。

開(kāi)發(fā)人員可以指導(dǎo)該模型如何用自然語(yǔ)言說(shuō)話(huà)——例如,“像一個(gè)瘋狂的科學(xué)家一樣說(shuō)話(huà)”、“像一個(gè)富有同理心的客服一樣說(shuō)話(huà)”或“像一個(gè)正念老師一樣使用平靜的聲音”。

OpenAI在其官網(wǎng)給出了六種不同的語(yǔ)氣示例

OpenAI產(chǎn)品人員杰夫哈里斯 (Jeff Harris) 表示,他們的目標(biāo)是讓開(kāi)發(fā)者能夠定制語(yǔ)音“體驗(yàn)”和“環(huán)境”。

哈里斯表示:“在不同的情況下,你想要的不會(huì)僅僅是一個(gè)平淡、單調(diào)的聲音…如果你在客戶(hù)支持體驗(yàn)中,你希望這個(gè)聲音表達(dá)出犯錯(cuò)后的歉意,你可以讓聲音表達(dá)出那種情感……我們的信念是,開(kāi)發(fā)者和用戶(hù)不僅想要真正控制說(shuō)什么,還想要控制怎么說(shuō)。”

語(yǔ)音轉(zhuǎn)文字模型準(zhǔn)確率大幅提升

至于OpenAI的新語(yǔ)音轉(zhuǎn)文本模型“GPT-4o-transcript”和“GPT-4o-mini- transcript”,它們的準(zhǔn)確度明顯高于 OpenAI之前發(fā)布的語(yǔ)音轉(zhuǎn)文本模型Whisper,并在多種語(yǔ)言中實(shí)現(xiàn)更低的詞錯(cuò)誤率 (WER)。

新模型在多種語(yǔ)言中的錯(cuò)誤率都明顯更低

OpenAI聲稱(chēng),經(jīng)過(guò)“多樣化、高質(zhì)量音頻數(shù)據(jù)集”的訓(xùn)練,新模型可以更好地捕捉口音和不同的語(yǔ)音,即使在混亂的環(huán)境中也是如此。

OpenAI還表示,新模型在工作中產(chǎn)生幻覺(jué)的概率也降低了。哈里斯補(bǔ)充道。眾所周知,Whisper喜歡在談話(huà)中編造詞匯,甚至整段文字,而“新模型在這方面比Whisper有了很大的改進(jìn)。”

哈里斯表示:“確保模型的準(zhǔn)確性對(duì)于獲得可靠的語(yǔ)音體驗(yàn)至關(guān)重要,(在這種情況下)準(zhǔn)確性意味著模型準(zhǔn)確地聽(tīng)到了單詞,(并且)沒(méi)有填寫(xiě)他們沒(méi)有聽(tīng)到的細(xì)節(jié)。”

當(dāng)然,模型的準(zhǔn)確率和其被轉(zhuǎn)錄的語(yǔ)言有較大關(guān)系。

根據(jù)OpenAI的內(nèi)部基準(zhǔn)測(cè)試,GPT-4o-transcribe是兩種新轉(zhuǎn)錄模型中更準(zhǔn)確的一種,其在英語(yǔ)、西班牙語(yǔ)中的單詞錯(cuò)誤率僅有2%左右,在普通話(huà)中的錯(cuò)誤率為7%左右,而在印度語(yǔ)和達(dá)羅毗荼語(yǔ)系(如泰米爾語(yǔ)、泰盧固語(yǔ)等)中,其“單詞錯(cuò)誤率”仍接近30%,這意味著模型中每10個(gè)單詞中就有3個(gè)與這些語(yǔ)言的人類(lèi)轉(zhuǎn)錄不同。

距離AI智能體更進(jìn)一步

OpenAI聲稱(chēng),這些模型符合其更廣泛的“AI智能體(AI AGENT)”的愿景:構(gòu)建能夠代表用戶(hù)獨(dú)立完成任務(wù)的自動(dòng)化系統(tǒng)。

盡管“智能體(Agent)”的定義可能存在爭(zhēng)議,但OpenAI的產(chǎn)品主管奧利維爾·戈德曼(Olivier Godement)將一種解釋描述為可以與企業(yè)客戶(hù)交談的聊天機(jī)器人。

“在接下來(lái)的幾個(gè)月里,我們會(huì)看到越來(lái)越多的AI智能體出現(xiàn),”戈德蒙德表示,“因此,總的主題是幫助客戶(hù)和開(kāi)發(fā)者利用有用、可用和準(zhǔn)確的智能體。”

與傳統(tǒng)不同的是,OpenAI并不打算公開(kāi)其新的轉(zhuǎn)錄模型。該公司此前在麻省理工學(xué)院的許可下發(fā)布了用于商業(yè)用途的新版Whisper。

哈里斯表示,GPT- 4o -transcribe和GPT- 4o -mini-transcribe“比Whisper大得多”,因此不適合公開(kāi)發(fā)布。

“它們不是那種能在筆記本電腦上本地運(yùn)行的模式,比如Whisper那種,”他繼續(xù)說(shuō)道,“我們想確保,如果我們以開(kāi)源方式發(fā)布東西,我們是經(jīng)過(guò)深思熟慮的,我們有一個(gè)真正針對(duì)特定需求的模型。”

相關(guān)推薦
免責(zé)聲明
本文所包含的觀(guān)點(diǎn)僅代表作者個(gè)人看法,不代表新火種的觀(guān)點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對(duì)本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險(xiǎn),讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前,請(qǐng)務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對(duì)因依賴(lài)本文觀(guān)點(diǎn)而產(chǎn)生的任何金錢(qián)損失負(fù)任何責(zé)任。

熱門(mén)文章