首頁 > AI資訊 > 最新資訊 > 豆包全新端到端語音功能上線!智商情商雙在線,中文語音對(duì)話斷崖式領(lǐng)先

豆包全新端到端語音功能上線!智商情商雙在線,中文語音對(duì)話斷崖式領(lǐng)先

新火種    2025-01-21
一旦按下通話鍵,我們就很難再放下手機(jī)了。

大年底的,豆包又轟動(dòng)了一把。

今天,豆包 APP 宣布全新端到端實(shí)時(shí)語音通話功能正式上線,不玩「預(yù)發(fā)布」,直接全量開放、人人免費(fèi)使用,迎接每一個(gè)用戶的檢驗(yàn)。

豆包實(shí)時(shí)語音大模型網(wǎng)址:https://team.doubao.com/realtime_voice

看完后,我們發(fā)現(xiàn)有幾個(gè)很妙的點(diǎn):

首先,豆包真的很像人,遣詞造句、語氣和呼吸節(jié)奏都高度擬人化。你壓低音量說話時(shí),豆包也會(huì)使出「悄悄話」技能,完全消除了以往 AI 語音通話的人機(jī)感。

其次,不管中文對(duì)話的復(fù)雜度如何,豆包都能頂?shù)米?。?jīng)過我們一系列實(shí)測(cè)體驗(yàn),豆包在中文能力方面可以說是斷層式領(lǐng)先。這個(gè)優(yōu)勢(shì)不只是相比于 ChatGPT 等海外選手,對(duì)比一系列國(guó)產(chǎn) AI 對(duì)話類應(yīng)用也是這樣。

此外,豆包是一個(gè)上知天文下知地理的「聊天搭子」。它是認(rèn)真在聽用戶說的話以及想要表達(dá)的深層含義,會(huì)迅速給出有趣又有用的回復(fù),而且有聯(lián)網(wǎng)查詢能力。

要想體驗(yàn)這項(xiàng)功能,需要將豆包 APP 升級(jí)至 7.2.0 新春版本。上線后,大量用戶第一時(shí)間更新、涌入,和豆包煲起了電話粥:

圖片圖片

還記得在 2024 年 5 月 14 日凌晨那場(chǎng)直播中,GPT-4o 橫空出世,帶給 ChatGPT 全新的實(shí)時(shí)語音通話能力,業(yè)內(nèi)稱之為「震撼全球的發(fā)布」。遺憾的是,這項(xiàng)功能在 ChatGPT 全面上線后,我們的實(shí)際感受卻并不像發(fā)布會(huì)演示那樣印象深刻。

現(xiàn)在,輪到豆包震撼世界了。上線之前,內(nèi)部團(tuán)隊(duì)已經(jīng)圍繞擬人度、有用性、情商、通話穩(wěn)定性、對(duì)話流暢度等多個(gè)維度,對(duì)這項(xiàng)功能背后的豆包實(shí)時(shí)語音大模型和 GPT-4o 進(jìn)行了考評(píng)。整體滿意度(以 5 分為滿分)方面,豆包實(shí)時(shí)語音大模型評(píng)分為 4.36,GPT-4o 為 3.18。其中,50% 的測(cè)試者對(duì)豆包實(shí)時(shí)語音大模型表現(xiàn)打出滿分。

圖片

此外,在模型優(yōu)點(diǎn)評(píng)測(cè)中,豆包實(shí)時(shí)語音大模型在情緒理解和情感表達(dá)方面優(yōu)勢(shì)明顯。尤其是「一聽就是 AI 與否」評(píng)測(cè)中,超過 30% 的反饋表示 GPT-4o 「過于 AI 」,而豆包實(shí)時(shí)語音大模型相應(yīng)比例僅為 2% 以內(nèi)。

接下來的部分是機(jī)器之心的實(shí)測(cè),如果你看完感興趣,建議趕快打開自己的豆包 App,將版本升級(jí)至 7.2.0 新春版即可體驗(yàn)。畢竟從目前的火爆程度來說,去晚了可能有擠不上車的概率。

一手實(shí)測(cè):有點(diǎn)震撼,科幻電影走進(jìn)現(xiàn)實(shí)

在 2024 年底,豆包大模型團(tuán)隊(duì)就透露了會(huì)很快上線豆包 APP 的全新端到端實(shí)時(shí)語音功能,引發(fā)了一大波用戶的期待。

真正用上之后,我們的感覺是:它的擬人程度和自然程度的確超出想象。

非常擅長(zhǎng)感知、承接人類用戶的情緒,是豆包的一大亮點(diǎn)。不妨聽?zhēng)锥挝覀兒投拱膶?duì)話,感受一下它的擬人程度。

比如情緒表現(xiàn)能力,讓它在聲音中表現(xiàn)出復(fù)雜情感,可做到「人機(jī)難辨」的程度。

豆包仿佛是一位演技精湛的演員,面對(duì) 500 萬元彩票的不同場(chǎng)景,時(shí)而欣喜若狂,時(shí)而悲痛欲絕。

指令遵循能力也很強(qiáng)。我們?cè)趺?PUA 豆包用各種語速去背詩都能做到,而且還會(huì)自己感受詩文中的情緒,有感情的背誦。

共情能力也是拿捏了。我們第一句話是帶著沮喪的情緒講述壞消息,豆包就會(huì)用比較平靜溫暖的語氣來安慰你。但當(dāng)你恢復(fù)了積極心態(tài),轉(zhuǎn)換為輕松的語氣夸獎(jiǎng)它,豆包就會(huì)切換為活潑的語調(diào)。它也會(huì)有類人的副語言特征,包括語氣詞、遲疑、停頓等。

注:部分回復(fù)有延遲,源于聯(lián)網(wǎng)查詢。

與此同時(shí),我們能感受到,豆包不只是提供情緒陪伴,比如在第一場(chǎng)對(duì)話測(cè)試中,它給出的搶票建議、行程推薦也是非常實(shí)用,關(guān)于天氣等即時(shí)信息,也能迅速檢索到準(zhǔn)確的結(jié)果。

是的,豆包侃侃而談的背后是基于豆包實(shí)時(shí)語音大模型強(qiáng)大的語義理解能力和信息檢索能力。在用戶語音輸入時(shí),豆包馬上開始對(duì)各維度信息進(jìn)行深度理解,保證輸出信息的有用性與真實(shí)性。通俗地說,就是既有「情緒價(jià)值」,也有「實(shí)用價(jià)值」。(不過我們也發(fā)現(xiàn),豆包實(shí)時(shí)語音大模型目前只支持中英文,期待未來多語種能力可以強(qiáng)化一波。)

既然豆包長(zhǎng)期「混跡」互聯(lián)網(wǎng),玩抽象的水平一定不會(huì)差。

注:部分回復(fù)有延遲,源于聯(lián)網(wǎng)查詢。

當(dāng)然,和豆包對(duì)話,你擁有的不只是一個(gè)搭子,而是無數(shù)個(gè)戲精朋友。

在「百變大咖」模式下,從孫悟空到林黛玉,從灰太狼到懶羊羊,對(duì)聲音的控制和對(duì)情感的演繹,讓豆包的用戶體驗(yàn)更上了一層樓。

既然角色扮演不在話下,講故事能力也手拿把掐。在恐怖與搞笑之間,自由切換。

有意思的是,豆包 APP 推出了 GPT-4o 沒有的唱歌功能,這是一個(gè)老少皆宜的玩法,爆火指日可待。

年底了,我們就讓它來一些拜年歌曲吧,作為這次測(cè)評(píng)的收官之作:

遙遙領(lǐng)先的通話體驗(yàn),背后是哪些技術(shù)?

如此絲滑、自然的實(shí)時(shí)語音通話,豆包背后的團(tuán)隊(duì)是如何實(shí)現(xiàn)的?

為這項(xiàng)功能提供核心能力支持的是近期推出的豆包實(shí)時(shí)語音大模型。

據(jù)豆包大模型語音團(tuán)隊(duì)介紹,這是一個(gè)真正實(shí)現(xiàn)端到端語音對(duì)話的語音理解和生成一體化模型,比傳統(tǒng)級(jí)聯(lián)模式,在語音表現(xiàn)力、控制力、情緒承接方面的表現(xiàn)更驚艷,并具備低時(shí)延、對(duì)話中可隨時(shí)打斷等優(yōu)點(diǎn)。

放眼語音 AI 相關(guān)領(lǐng)域,面向真人級(jí)的實(shí)時(shí)語音大模型,技術(shù)難點(diǎn)有二。

其一是,情商與智商之間難以平衡。

語音領(lǐng)域不少從業(yè)者都知道,模型自身在對(duì)話自然度、有用性及安全性維度經(jīng)常存在著此消彼長(zhǎng)的矛盾關(guān)系。換而言之,就是如何能讓模型既是邏輯推理能力在線的 「學(xué)霸」,也能表現(xiàn)力、共情力、理解力在線,情商水平拉滿。

據(jù)團(tuán)隊(duì)介紹,他們面向上述問題,在數(shù)據(jù)和后訓(xùn)練算法方面,確保了多模態(tài)語音對(duì)話數(shù)據(jù)兼具語義正確性與表現(xiàn)力的自然性。同時(shí),依靠多輪數(shù)據(jù)合成方法,生產(chǎn)高質(zhì)量、高表現(xiàn)力的語音數(shù)據(jù),確保生成語音表達(dá)自然且一致。

此外,團(tuán)隊(duì)還定期對(duì)模型進(jìn)行多維度評(píng)測(cè),依托結(jié)果及時(shí)調(diào)整訓(xùn)練策略和數(shù)據(jù)使用方式,確保模型在智商和表現(xiàn)力之間始終保持良好平衡。

其二是落地門檻高,欲讓語音功能不止步于 Toy,對(duì)團(tuán)隊(duì)綜合能力是一大挑戰(zhàn)。

在以往,包括 GPT-4o 在內(nèi)的一眾端到端語音發(fā)布只是展示 Demo,即便后續(xù)能力公開,實(shí)際能力也未必被大眾認(rèn)可。原因在于:功能研發(fā)過程中需要算法、工程、產(chǎn)品、測(cè)試等團(tuán)隊(duì)參與,既要明確用戶需求、又要?jiǎng)澐趾眉夹g(shù)測(cè)評(píng)維度和指標(biāo),此后在模型訓(xùn)練、微調(diào)等過程中,同樣需要多個(gè)團(tuán)隊(duì)密切配合。最后,當(dāng)產(chǎn)品若想上線服務(wù)億萬用戶,還面臨極大工程落地、安全方面挑戰(zhàn)。

前文提及,本次豆包官宣的全新實(shí)時(shí)語音功能上線即開放,直接服務(wù)于萬千用戶,團(tuán)隊(duì)也盡可能尋找交付體驗(yàn)方面的最佳平衡點(diǎn),在保障安全性的基礎(chǔ)上,讓模型擁有前所未有的語音高表現(xiàn)力、控制力和亮眼的情緒承接能力,同時(shí),確保其既具備強(qiáng)大的理解和邏輯能力,又能聯(lián)網(wǎng)回答時(shí)效性問題。

在語音生成、理解與文本大模型聯(lián)合建模的框架下,團(tuán)隊(duì)實(shí)現(xiàn)了模型多樣輸入輸出能力,同時(shí),保證了生成側(cè)模型在更低系統(tǒng)時(shí)延情況下的生成準(zhǔn)確性、自然度,同時(shí)在理解側(cè),該框架讓模型實(shí)現(xiàn)了敏銳的語音打斷與用戶對(duì)話判停能力。

當(dāng)然,團(tuán)隊(duì)也非常重視模型能力提升帶來的安全問題。據(jù)相關(guān)技術(shù)人員分享,他們?cè)诼?lián)合建模的過程中,于后訓(xùn)練階段,引入多種安全機(jī)制,通過對(duì)潛在非安全內(nèi)容進(jìn)行有效壓制和過濾,降低安全風(fēng)險(xiǎn)。

技術(shù)團(tuán)隊(duì)還向我們透露,經(jīng)由聯(lián)合建模,模型令人驚喜地涌現(xiàn)出指令理解、聲音扮演和聲音控制等新能力。舉例來說,目前模型部分方言和口音,主要源自于 Pretrain 階段數(shù)據(jù)泛化,而非針對(duì)性訓(xùn)練。在這一點(diǎn)上,語音模型和語言模型非常相似。

驚喜之外,豆包「顛覆」了什么?

在目前已有的同類產(chǎn)品功能中,我們能感受到:豆包的擬人度、情感化體驗(yàn)是最好的,十八般武藝樣樣精通,在中文能力上更是遠(yuǎn)超 ChatGPT 等「舶來品」。

看到最后,可能有人想問:除了驚喜的用戶體驗(yàn)之外,為什么豆包更新的端到端實(shí)時(shí)語音收獲了如此多的關(guān)注?

關(guān)鍵答案是:它是第一個(gè)服務(wù)于億萬用戶且真正 Work 的端到端中文語音系統(tǒng) —— 好用,且免費(fèi)用。

曾幾何時(shí),與 AI 進(jìn)行實(shí)時(shí)語音對(duì)話只是一種科幻電影的場(chǎng)景,也是我們對(duì)高級(jí)人工智能的一種具體想象。但現(xiàn)在,這樣的神奇功能就存在于你我手機(jī)中的豆包 APP,從「遙遙相望」變得「觸手可及」。

圖片 圖源:電影《Her》

簡(jiǎn)單總結(jié),豆包的全新端到端實(shí)時(shí)語音開創(chuàng)了兩個(gè)先河:

從技術(shù)變革的層面看,豆包業(yè)內(nèi)首次地給 AI 注入了「靈魂」,做到了「情商」和「智商」的雙商在線。這似乎意味著傳統(tǒng)語音助手時(shí)代的結(jié)束。我們已經(jīng)不再下意識(shí)覺得自己是與一個(gè)被海量數(shù)據(jù)訓(xùn)練的模型說話,人和 AI 開始產(chǎn)生了微妙的情感連接,包括信任、依賴,科幻電影的情節(jié)正走進(jìn)大眾生活。

正如《Her》等經(jīng)典作品中,人類之所以愛上 AI,從來不是因?yàn)樗芴峁o限的知識(shí),而是因?yàn)樗軒砬〉胶锰幍那楦袃r(jià)值。

從大模型技術(shù)落地的層面看,端到端實(shí)時(shí)語音通話補(bǔ)齊了多模態(tài)交互方式中為數(shù)不多的空白。大模型應(yīng)用的玩法正在不斷升級(jí) —— 未來的產(chǎn)品可能是接收文本、音頻和圖像的任意組合作為輸入,并實(shí)時(shí)生成文本、音頻和圖像的任意組合輸出。人和機(jī)器的交互方式正在被顛覆,進(jìn)而變革人與人的交互方式。

至少對(duì)于當(dāng)前的中文用戶來說,豆包端到端實(shí)時(shí)語音功能的上線提供了一種以人類自然語言為媒介的交互方式,真正打破了人們獲取、體驗(yàn)高級(jí)人工智能的門檻。

回到半年前,我們能想象到是豆包率先創(chuàng)造了歷史嗎?

從 2023 年的大語言模型開始,到 2024 年結(jié)束,豆包大模型家族在圖像、語音、音樂、視頻、3D 等多模態(tài)層面均已補(bǔ)全,不僅在國(guó)內(nèi)躋身第一梯隊(duì),也在短短幾個(gè)月的時(shí)間里完成了從「初出茅廬」到「震撼世界」的蛻變。

而在百舸爭(zhēng)流的大模型賽道上,誰先抵達(dá)這一里程碑,或許就決定了其未來十年在領(lǐng)域內(nèi)的排位。

接下來一年里,關(guān)于大模型、關(guān)于豆包和國(guó)產(chǎn) AI 將以怎樣的速度前進(jìn),更加值得我們期待。

相關(guān)推薦
免責(zé)聲明
本文所包含的觀點(diǎn)僅代表作者個(gè)人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對(duì)本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險(xiǎn),讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前,請(qǐng)務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對(duì)因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。

熱門文章