豆包App更新實(shí)時(shí)語(yǔ)音通話功能,中文對(duì)話“人機(jī)難辨”
1月20日,豆包App更新實(shí)時(shí)語(yǔ)音通話功能,面向所有用戶開(kāi)放。
該功能基于最新豆包實(shí)時(shí)語(yǔ)音大模型(Doubao Realtime Voice Model)。更新后,豆包中文場(chǎng)景的對(duì)話能力在語(yǔ)音真實(shí)感和“喜怒哀樂(lè)”的情緒表現(xiàn)上近乎達(dá)到“人機(jī)難辨”的AI交互效果,可以模仿不同聲線,并且在“邏輯思考”和“情緒感知”上有明顯提升。
記者測(cè)試發(fā)現(xiàn),產(chǎn)品表現(xiàn)上,豆包App全新實(shí)時(shí)語(yǔ)音通話做到了“人機(jī)難辨”的真人級(jí)交互程度,其語(yǔ)音表現(xiàn)和智力的擬人性方面有了質(zhì)的提升。相比大多數(shù)語(yǔ)音系統(tǒng)還在語(yǔ)氣層面進(jìn)行粗線條變化,豆包全新實(shí)時(shí)語(yǔ)音通話功能可以根據(jù)場(chǎng)景自動(dòng)對(duì)節(jié)奏、兒化音、音量、氣音等細(xì)節(jié)精準(zhǔn)把控,甚至能跟你“說(shuō)”悄悄話。
此外,豆包在喜怒哀樂(lè)情緒表現(xiàn)方面也頗為亮眼,還掌握了部分方言與英語(yǔ)對(duì)話、多角色模仿,甚至部分歌曲演唱能力。在日常使用中,它既可以是英語(yǔ)陪練老師、講故事高手,也可以是一位即興唱作者。
過(guò)去,傳統(tǒng)語(yǔ)音對(duì)話任務(wù)系統(tǒng)采用ASR+LLM+TTS的級(jí)聯(lián)模式,無(wú)法滿足真人級(jí)語(yǔ)音對(duì)話對(duì)理解的完整度、生成的自然度、交互的低延時(shí)等各維度的要求。而豆包全新語(yǔ)音能力基于創(chuàng)新的端到端框架,使用原生方法深度融合語(yǔ)音與文本模態(tài)進(jìn)行統(tǒng)一建模。最終可實(shí)現(xiàn)從多模態(tài)輸入直接到多模態(tài)輸出的效果,賦予AI語(yǔ)音對(duì)話“靈魂”。
豆包全新實(shí)時(shí)語(yǔ)音通話功能與同類產(chǎn)品拉開(kāi)明顯差距,中文對(duì)話斷崖式領(lǐng)先,同時(shí),情商智商雙雙在線。據(jù)外部真實(shí)反饋,用戶對(duì)豆包此次上線的全新語(yǔ)音通話功能整體滿意度為4.36/5,對(duì)GPT-4o語(yǔ)音對(duì)話滿意度則為3.18/5,尤其語(yǔ)音語(yǔ)氣自然度和情緒飽滿度方面,豆包有明顯優(yōu)勢(shì)。
(文章來(lái)源:金羊網(wǎng))
- 免責(zé)聲明
- 本文所包含的觀點(diǎn)僅代表作者個(gè)人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對(duì)本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險(xiǎn),讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前,請(qǐng)務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對(duì)因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。