日日射影院,成人精品一区日本无码网站,一级片黄色免费

首頁(yè) > AI資訊 > 最新資訊 > OpenAI推出語(yǔ)音模型全家桶：AI將說(shuō)得更動(dòng)情、聽(tīng)寫(xiě)更準(zhǔn)確…

OpenAI推出語(yǔ)音模型全家桶：AI將說(shuō)得更動(dòng)情、聽(tīng)寫(xiě)更準(zhǔn)確…

財(cái)聯(lián)社 2025-03-22

財(cái)聯(lián)社3月21日訊（編輯劉蕊）美東時(shí)間周四，OpenAI舉行了一場(chǎng)重磅的技術(shù)直播，發(fā)布了三款全新語(yǔ)音模型：語(yǔ)音轉(zhuǎn)文本模型GPT-4o Transcribe和GPT-4o MiniTranscribe，以及文本轉(zhuǎn)語(yǔ)音模型GPT-4o MiniTTS。

OpenAI聲稱(chēng)，這些模型在之前版本的基礎(chǔ)上取得了明顯的進(jìn)步，也標(biāo)志著OpenAI距離其“AI智能體（AI AGENT）”的愿景更進(jìn)一步。

更逼真的語(yǔ)音生成模型

OpenAI聲稱(chēng)，其新的文本到語(yǔ)音模型GPT-4o MiniTTS不僅能提供更細(xì)致入微、聽(tīng)起來(lái)更逼真的語(yǔ)音，而且比前一代語(yǔ)音合成模型更“可操控”。

開(kāi)發(fā)人員可以指導(dǎo)該模型如何用自然語(yǔ)言說(shuō)話(huà)——例如，“像一個(gè)瘋狂的科學(xué)家一樣說(shuō)話(huà)”、“像一個(gè)富有同理心的客服一樣說(shuō)話(huà)”或“像一個(gè)正念老師一樣使用平靜的聲音”。

OpenAI在其官網(wǎng)給出了六種不同的語(yǔ)氣示例

OpenAI產(chǎn)品人員杰夫哈里斯 (Jeff Harris) 表示，他們的目標(biāo)是讓開(kāi)發(fā)者能夠定制語(yǔ)音“體驗(yàn)”和“環(huán)境”。

哈里斯表示：“在不同的情況下，你想要的不會(huì)僅僅是一個(gè)平淡、單調(diào)的聲音…如果你在客戶(hù)支持體驗(yàn)中，你希望這個(gè)聲音表達(dá)出犯錯(cuò)后的歉意，你可以讓聲音表達(dá)出那種情感……我們的信念是，開(kāi)發(fā)者和用戶(hù)不僅想要真正控制說(shuō)什么，還想要控制怎么說(shuō)。”

語(yǔ)音轉(zhuǎn)文字模型準(zhǔn)確率大幅提升

至于OpenAI的新語(yǔ)音轉(zhuǎn)文本模型“GPT-4o-transcript”和“GPT-4o-mini- transcript”，它們的準(zhǔn)確度明顯高于 OpenAI之前發(fā)布的語(yǔ)音轉(zhuǎn)文本模型Whisper，并在多種語(yǔ)言中實(shí)現(xiàn)更低的詞錯(cuò)誤率 (WER)。

新模型在多種語(yǔ)言中的錯(cuò)誤率都明顯更低

OpenAI聲稱(chēng)，經(jīng)過(guò)“多樣化、高質(zhì)量音頻數(shù)據(jù)集”的訓(xùn)練，新模型可以更好地捕捉口音和不同的語(yǔ)音，即使在混亂的環(huán)境中也是如此。

OpenAI還表示，新模型在工作中產(chǎn)生幻覺(jué)的概率也降低了。哈里斯補(bǔ)充道。眾所周知，Whisper喜歡在談話(huà)中編造詞匯，甚至整段文字，而“新模型在這方面比Whisper有了很大的改進(jìn)。”

哈里斯表示：“確保模型的準(zhǔn)確性對(duì)于獲得可靠的語(yǔ)音體驗(yàn)至關(guān)重要，（在這種情況下）準(zhǔn)確性意味著模型準(zhǔn)確地聽(tīng)到了單詞，（并且）沒(méi)有填寫(xiě)他們沒(méi)有聽(tīng)到的細(xì)節(jié)。”

當(dāng)然，模型的準(zhǔn)確率和其被轉(zhuǎn)錄的語(yǔ)言有較大關(guān)系。

根據(jù)OpenAI的內(nèi)部基準(zhǔn)測(cè)試，GPT-4o-transcribe是兩種新轉(zhuǎn)錄模型中更準(zhǔn)確的一種，其在英語(yǔ)、西班牙語(yǔ)中的單詞錯(cuò)誤率僅有2%左右，在普通話(huà)中的錯(cuò)誤率為7%左右，而在印度語(yǔ)和達(dá)羅毗荼語(yǔ)系（如泰米爾語(yǔ)、泰盧固語(yǔ)等）中，其“單詞錯(cuò)誤率”仍接近30%，這意味著模型中每10個(gè)單詞中就有3個(gè)與這些語(yǔ)言的人類(lèi)轉(zhuǎn)錄不同。

距離AI智能體更進(jìn)一步

OpenAI聲稱(chēng)，這些模型符合其更廣泛的“AI智能體（AI AGENT）”的愿景：構(gòu)建能夠代表用戶(hù)獨(dú)立完成任務(wù)的自動(dòng)化系統(tǒng)。

盡管“智能體（Agent）”的定義可能存在爭(zhēng)議，但OpenAI的產(chǎn)品主管奧利維爾·戈德曼（Olivier Godement）將一種解釋描述為可以與企業(yè)客戶(hù)交談的聊天機(jī)器人。

“在接下來(lái)的幾個(gè)月里，我們會(huì)看到越來(lái)越多的AI智能體出現(xiàn)，”戈德蒙德表示，“因此，總的主題是幫助客戶(hù)和開(kāi)發(fā)者利用有用、可用和準(zhǔn)確的智能體。”

與傳統(tǒng)不同的是，OpenAI并不打算公開(kāi)其新的轉(zhuǎn)錄模型。該公司此前在麻省理工學(xué)院的許可下發(fā)布了用于商業(yè)用途的新版Whisper。

哈里斯表示，GPT- 4o -transcribe和GPT- 4o -mini-transcribe“比Whisper大得多”，因此不適合公開(kāi)發(fā)布。

“它們不是那種能在筆記本電腦上本地運(yùn)行的模式，比如Whisper那種，”他繼續(xù)說(shuō)道，“我們想確保，如果我們以開(kāi)源方式發(fā)布東西，我們是經(jīng)過(guò)深思熟慮的，我們有一個(gè)真正針對(duì)特定需求的模型。”

Tags:

機(jī)器人動(dòng)情全家

相關(guān)推薦

免責(zé)聲明: 本文所包含的觀(guān)點(diǎn)僅代表作者個(gè)人看法，不代表新火種的觀(guān)點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對(duì)本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。交易和投資涉及高風(fēng)險(xiǎn)，讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前，請(qǐng)務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對(duì)因依賴(lài)本文觀(guān)點(diǎn)而產(chǎn)生的任何金錢(qián)損失負(fù)任何責(zé)任。

OpenAI推出語(yǔ)音模型全家桶：AI將說(shuō)得更動(dòng)情、聽(tīng)寫(xiě)更準(zhǔn)確…

GPT-4o的P圖全家桶有多強(qiáng)？連MidjourneyCEO都坐不住了

加力擴(kuò)崗！國(guó)家出臺(tái)方案支持重點(diǎn)群體就業(yè)

【焦點(diǎn)復(fù)盤(pán)】半導(dǎo)體、創(chuàng)新藥賽道強(qiáng)勢(shì)做多，科創(chuàng)50指數(shù)放量漲逾1%，深海科技概念再遭重創(chuàng)

AI眼鏡有潛力復(fù)刻TWS耳機(jī)MicroOLED成AR顯示終極方案|直擊SEMICONChina

微型磁性機(jī)器人可在人體內(nèi)“虛擬活檢”

熱門(mén)文章