人妻无码中文久久久久专区,99热国产在线手机精品,国产群p视频

首頁 > AI資訊 > 最新資訊 > 豆包全新端到端語音功能上線！智商情商雙在線，中文語音對(duì)話斷崖式領(lǐng)先

豆包全新端到端語音功能上線！智商情商雙在線，中文語音對(duì)話斷崖式領(lǐng)先

新火種 2025-01-21

一旦按下通話鍵，我們就很難再放下手機(jī)了。

大年底的，豆包又轟動(dòng)了一把。

今天，豆包 APP 宣布全新端到端實(shí)時(shí)語音通話功能正式上線，不玩「預(yù)發(fā)布」，直接全量開放、人人免費(fèi)使用，迎接每一個(gè)用戶的檢驗(yàn)。

豆包實(shí)時(shí)語音大模型網(wǎng)址：https://team.doubao.com/realtime_voice

看完后，我們發(fā)現(xiàn)有幾個(gè)很妙的點(diǎn)：

首先，豆包真的很像人，遣詞造句、語氣和呼吸節(jié)奏都高度擬人化。你壓低音量說話時(shí)，豆包也會(huì)使出「悄悄話」技能，完全消除了以往 AI 語音通話的人機(jī)感。

其次，不管中文對(duì)話的復(fù)雜度如何，豆包都能頂?shù)米?。?jīng)過我們一系列實(shí)測(cè)體驗(yàn)，豆包在中文能力方面可以說是斷層式領(lǐng)先。這個(gè)優(yōu)勢(shì)不只是相比于 ChatGPT 等海外選手，對(duì)比一系列國(guó)產(chǎn) AI 對(duì)話類應(yīng)用也是這樣。

此外，豆包是一個(gè)上知天文下知地理的「聊天搭子」。它是認(rèn)真在聽用戶說的話以及想要表達(dá)的深層含義，會(huì)迅速給出有趣又有用的回復(fù)，而且有聯(lián)網(wǎng)查詢能力。

要想體驗(yàn)這項(xiàng)功能，需要將豆包 APP 升級(jí)至 7.2.0 新春版本。上線后，大量用戶第一時(shí)間更新、涌入，和豆包煲起了電話粥：

還記得在 2024 年 5 月 14 日凌晨那場(chǎng)直播中，GPT-4o 橫空出世，帶給 ChatGPT 全新的實(shí)時(shí)語音通話能力，業(yè)內(nèi)稱之為「震撼全球的發(fā)布」。遺憾的是，這項(xiàng)功能在 ChatGPT 全面上線后，我們的實(shí)際感受卻并不像發(fā)布會(huì)演示那樣印象深刻。

現(xiàn)在，輪到豆包震撼世界了。上線之前，內(nèi)部團(tuán)隊(duì)已經(jīng)圍繞擬人度、有用性、情商、通話穩(wěn)定性、對(duì)話流暢度等多個(gè)維度，對(duì)這項(xiàng)功能背后的豆包實(shí)時(shí)語音大模型和 GPT-4o 進(jìn)行了考評(píng)。整體滿意度（以 5 分為滿分）方面，豆包實(shí)時(shí)語音大模型評(píng)分為 4.36，GPT-4o 為 3.18。其中，50% 的測(cè)試者對(duì)豆包實(shí)時(shí)語音大模型表現(xiàn)打出滿分。

此外，在模型優(yōu)點(diǎn)評(píng)測(cè)中，豆包實(shí)時(shí)語音大模型在情緒理解和情感表達(dá)方面優(yōu)勢(shì)明顯。尤其是「一聽就是 AI 與否」評(píng)測(cè)中，超過 30% 的反饋表示 GPT-4o 「過于 AI 」，而豆包實(shí)時(shí)語音大模型相應(yīng)比例僅為 2% 以內(nèi)。

接下來的部分是機(jī)器之心的實(shí)測(cè)，如果你看完感興趣，建議趕快打開自己的豆包 App，將版本升級(jí)至 7.2.0 新春版即可體驗(yàn)。畢竟從目前的火爆程度來說，去晚了可能有擠不上車的概率。

一手實(shí)測(cè)：有點(diǎn)震撼，科幻電影走進(jìn)現(xiàn)實(shí)

在 2024 年底，豆包大模型團(tuán)隊(duì)就透露了會(huì)很快上線豆包 APP 的全新端到端實(shí)時(shí)語音功能，引發(fā)了一大波用戶的期待。

真正用上之后，我們的感覺是：它的擬人程度和自然程度的確超出想象。

非常擅長(zhǎng)感知、承接人類用戶的情緒，是豆包的一大亮點(diǎn)。不妨聽?zhēng)锥挝覀兒投拱膶?duì)話，感受一下它的擬人程度。

比如情緒表現(xiàn)能力，讓它在聲音中表現(xiàn)出復(fù)雜情感，可做到「人機(jī)難辨」的程度。

豆包仿佛是一位演技精湛的演員，面對(duì) 500 萬元彩票的不同場(chǎng)景，時(shí)而欣喜若狂，時(shí)而悲痛欲絕。

指令遵循能力也很強(qiáng)。我們?cè)趺?PUA 豆包用各種語速去背詩都能做到，而且還會(huì)自己感受詩文中的情緒，有感情的背誦。

共情能力也是拿捏了。我們第一句話是帶著沮喪的情緒講述壞消息，豆包就會(huì)用比較平靜溫暖的語氣來安慰你。但當(dāng)你恢復(fù)了積極心態(tài)，轉(zhuǎn)換為輕松的語氣夸獎(jiǎng)它，豆包就會(huì)切換為活潑的語調(diào)。它也會(huì)有類人的副語言特征，包括語氣詞、遲疑、停頓等。

注：部分回復(fù)有延遲，源于聯(lián)網(wǎng)查詢。

與此同時(shí)，我們能感受到，豆包不只是提供情緒陪伴，比如在第一場(chǎng)對(duì)話測(cè)試中，它給出的搶票建議、行程推薦也是非常實(shí)用，關(guān)于天氣等即時(shí)信息，也能迅速檢索到準(zhǔn)確的結(jié)果。

是的，豆包侃侃而談的背后是基于豆包實(shí)時(shí)語音大模型強(qiáng)大的語義理解能力和信息檢索能力。在用戶語音輸入時(shí)，豆包馬上開始對(duì)各維度信息進(jìn)行深度理解，保證輸出信息的有用性與真實(shí)性。通俗地說，就是既有「情緒價(jià)值」，也有「實(shí)用價(jià)值」。（不過我們也發(fā)現(xiàn)，豆包實(shí)時(shí)語音大模型目前只支持中英文，期待未來多語種能力可以強(qiáng)化一波。）

既然豆包長(zhǎng)期「混跡」互聯(lián)網(wǎng)，玩抽象的水平一定不會(huì)差。

注：部分回復(fù)有延遲，源于聯(lián)網(wǎng)查詢。

當(dāng)然，和豆包對(duì)話，你擁有的不只是一個(gè)搭子，而是無數(shù)個(gè)戲精朋友。

在「百變大咖」模式下，從孫悟空到林黛玉，從灰太狼到懶羊羊，對(duì)聲音的控制和對(duì)情感的演繹，讓豆包的用戶體驗(yàn)更上了一層樓。

既然角色扮演不在話下，講故事能力也手拿把掐。在恐怖與搞笑之間，自由切換。

有意思的是，豆包 APP 推出了 GPT-4o 沒有的唱歌功能，這是一個(gè)老少皆宜的玩法，爆火指日可待。

年底了，我們就讓它來一些拜年歌曲吧，作為這次測(cè)評(píng)的收官之作：

遙遙領(lǐng)先的通話體驗(yàn)，背后是哪些技術(shù)？

如此絲滑、自然的實(shí)時(shí)語音通話，豆包背后的團(tuán)隊(duì)是如何實(shí)現(xiàn)的？

為這項(xiàng)功能提供核心能力支持的是近期推出的豆包實(shí)時(shí)語音大模型。

據(jù)豆包大模型語音團(tuán)隊(duì)介紹，這是一個(gè)真正實(shí)現(xiàn)端到端語音對(duì)話的語音理解和生成一體化模型，比傳統(tǒng)級(jí)聯(lián)模式，在語音表現(xiàn)力、控制力、情緒承接方面的表現(xiàn)更驚艷，并具備低時(shí)延、對(duì)話中可隨時(shí)打斷等優(yōu)點(diǎn)。

放眼語音 AI 相關(guān)領(lǐng)域，面向真人級(jí)的實(shí)時(shí)語音大模型，技術(shù)難點(diǎn)有二。

其一是，情商與智商之間難以平衡。

語音領(lǐng)域不少從業(yè)者都知道，模型自身在對(duì)話自然度、有用性及安全性維度經(jīng)常存在著此消彼長(zhǎng)的矛盾關(guān)系。換而言之，就是如何能讓模型既是邏輯推理能力在線的「學(xué)霸」，也能表現(xiàn)力、共情力、理解力在線，情商水平拉滿。

據(jù)團(tuán)隊(duì)介紹，他們面向上述問題，在數(shù)據(jù)和后訓(xùn)練算法方面，確保了多模態(tài)語音對(duì)話數(shù)據(jù)兼具語義正確性與表現(xiàn)力的自然性。同時(shí)，依靠多輪數(shù)據(jù)合成方法，生產(chǎn)高質(zhì)量、高表現(xiàn)力的語音數(shù)據(jù)，確保生成語音表達(dá)自然且一致。

此外，團(tuán)隊(duì)還定期對(duì)模型進(jìn)行多維度評(píng)測(cè)，依托結(jié)果及時(shí)調(diào)整訓(xùn)練策略和數(shù)據(jù)使用方式，確保模型在智商和表現(xiàn)力之間始終保持良好平衡。

其二是落地門檻高，欲讓語音功能不止步于 Toy，對(duì)團(tuán)隊(duì)綜合能力是一大挑戰(zhàn)。

在以往，包括 GPT-4o 在內(nèi)的一眾端到端語音發(fā)布只是展示 Demo，即便后續(xù)能力公開，實(shí)際能力也未必被大眾認(rèn)可。原因在于：功能研發(fā)過程中需要算法、工程、產(chǎn)品、測(cè)試等團(tuán)隊(duì)參與，既要明確用戶需求、又要?jiǎng)澐趾眉夹g(shù)測(cè)評(píng)維度和指標(biāo)，此后在模型訓(xùn)練、微調(diào)等過程中，同樣需要多個(gè)團(tuán)隊(duì)密切配合。最后，當(dāng)產(chǎn)品若想上線服務(wù)億萬用戶，還面臨極大工程落地、安全方面挑戰(zhàn)。

前文提及，本次豆包官宣的全新實(shí)時(shí)語音功能上線即開放，直接服務(wù)于萬千用戶，團(tuán)隊(duì)也盡可能尋找交付體驗(yàn)方面的最佳平衡點(diǎn)，在保障安全性的基礎(chǔ)上，讓模型擁有前所未有的語音高表現(xiàn)力、控制力和亮眼的情緒承接能力，同時(shí)，確保其既具備強(qiáng)大的理解和邏輯能力，又能聯(lián)網(wǎng)回答時(shí)效性問題。

在語音生成、理解與文本大模型聯(lián)合建模的框架下，團(tuán)隊(duì)實(shí)現(xiàn)了模型多樣輸入輸出能力，同時(shí)，保證了生成側(cè)模型在更低系統(tǒng)時(shí)延情況下的生成準(zhǔn)確性、自然度，同時(shí)在理解側(cè)，該框架讓模型實(shí)現(xiàn)了敏銳的語音打斷與用戶對(duì)話判停能力。

當(dāng)然，團(tuán)隊(duì)也非常重視模型能力提升帶來的安全問題。據(jù)相關(guān)技術(shù)人員分享，他們?cè)诼?lián)合建模的過程中，于后訓(xùn)練階段，引入多種安全機(jī)制，通過對(duì)潛在非安全內(nèi)容進(jìn)行有效壓制和過濾，降低安全風(fēng)險(xiǎn)。

技術(shù)團(tuán)隊(duì)還向我們透露，經(jīng)由聯(lián)合建模，模型令人驚喜地涌現(xiàn)出指令理解、聲音扮演和聲音控制等新能力。舉例來說，目前模型部分方言和口音，主要源自于 Pretrain 階段數(shù)據(jù)泛化，而非針對(duì)性訓(xùn)練。在這一點(diǎn)上，語音模型和語言模型非常相似。

驚喜之外，豆包「顛覆」了什么？

在目前已有的同類產(chǎn)品功能中，我們能感受到：豆包的擬人度、情感化體驗(yàn)是最好的，十八般武藝樣樣精通，在中文能力上更是遠(yuǎn)超 ChatGPT 等「舶來品」。

看到最后，可能有人想問：除了驚喜的用戶體驗(yàn)之外，為什么豆包更新的端到端實(shí)時(shí)語音收獲了如此多的關(guān)注？

關(guān)鍵答案是：它是第一個(gè)服務(wù)于億萬用戶且真正 Work 的端到端中文語音系統(tǒng) —— 好用，且免費(fèi)用。

曾幾何時(shí)，與 AI 進(jìn)行實(shí)時(shí)語音對(duì)話只是一種科幻電影的場(chǎng)景，也是我們對(duì)高級(jí)人工智能的一種具體想象。但現(xiàn)在，這樣的神奇功能就存在于你我手機(jī)中的豆包 APP，從「遙遙相望」變得「觸手可及」。

圖源：電影《Her》

簡(jiǎn)單總結(jié)，豆包的全新端到端實(shí)時(shí)語音開創(chuàng)了兩個(gè)先河：

從技術(shù)變革的層面看，豆包業(yè)內(nèi)首次地給 AI 注入了「靈魂」，做到了「情商」和「智商」的雙商在線。這似乎意味著傳統(tǒng)語音助手時(shí)代的結(jié)束。我們已經(jīng)不再下意識(shí)覺得自己是與一個(gè)被海量數(shù)據(jù)訓(xùn)練的模型說話，人和 AI 開始產(chǎn)生了微妙的情感連接，包括信任、依賴，科幻電影的情節(jié)正走進(jìn)大眾生活。

正如《Her》等經(jīng)典作品中，人類之所以愛上 AI，從來不是因?yàn)樗芴峁o限的知識(shí)，而是因?yàn)樗軒砬〉胶锰幍那楦袃r(jià)值。

從大模型技術(shù)落地的層面看，端到端實(shí)時(shí)語音通話補(bǔ)齊了多模態(tài)交互方式中為數(shù)不多的空白。大模型應(yīng)用的玩法正在不斷升級(jí) —— 未來的產(chǎn)品可能是接收文本、音頻和圖像的任意組合作為輸入，并實(shí)時(shí)生成文本、音頻和圖像的任意組合輸出。人和機(jī)器的交互方式正在被顛覆，進(jìn)而變革人與人的交互方式。

至少對(duì)于當(dāng)前的中文用戶來說，豆包端到端實(shí)時(shí)語音功能的上線提供了一種以人類自然語言為媒介的交互方式，真正打破了人們獲取、體驗(yàn)高級(jí)人工智能的門檻。

回到半年前，我們能想象到是豆包率先創(chuàng)造了歷史嗎？

從 2023 年的大語言模型開始，到 2024 年結(jié)束，豆包大模型家族在圖像、語音、音樂、視頻、3D 等多模態(tài)層面均已補(bǔ)全，不僅在國(guó)內(nèi)躋身第一梯隊(duì)，也在短短幾個(gè)月的時(shí)間里完成了從「初出茅廬」到「震撼世界」的蛻變。

而在百舸爭(zhēng)流的大模型賽道上，誰先抵達(dá)這一里程碑，或許就決定了其未來十年在領(lǐng)域內(nèi)的排位。

接下來一年里，關(guān)于大模型、關(guān)于豆包和國(guó)產(chǎn) AI 將以怎樣的速度前進(jìn)，更加值得我們期待。

Tags:

計(jì)算機(jī)視覺在線語音

相關(guān)推薦

免責(zé)聲明: 本文所包含的觀點(diǎn)僅代表作者個(gè)人看法，不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對(duì)本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。交易和投資涉及高風(fēng)險(xiǎn)，讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前，請(qǐng)務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對(duì)因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。

豆包全新端到端語音功能上線！智商情商雙在線，中文語音對(duì)話斷崖式領(lǐng)先

豆包全新端到端語音功能上線！智商情商雙在線，中文語音對(duì)話斷崖式領(lǐng)先

豆包App更新實(shí)時(shí)語音通話功能，中文對(duì)話斷崖式領(lǐng)先，人機(jī)難辨！

豆包語音大模型首家引領(lǐng)級(jí)通過中國(guó)信通院語音大模型評(píng)估

豆包實(shí)時(shí)語音大模型正式上線！端到端語音對(duì)話情商智商雙高

科創(chuàng)城市觀察

熱門文章

豆包全新端到端語音功能上線！智商情商雙在線，中文語音對(duì)話斷崖式領(lǐng)先

豆包全新端到端語音功能上線！智商情商雙在線，中文語音對(duì)話斷崖式領(lǐng)先

豆包App更新實(shí)時(shí)語音通話功能，中文對(duì)話斷崖式領(lǐng)先，人機(jī)難辨！

豆包語音大模型首家引領(lǐng)級(jí)通過中國(guó)信通院語音大模型評(píng)估

豆包實(shí)時(shí)語音大模型正式上線！端到端語音對(duì)話情商智商雙高

科創(chuàng)城市觀察

熱門文章

豆包全新端到端語音功能上線！智商情商雙在線，中文語音對(duì)話斷崖式領(lǐng)先

豆包全新端到端語音功能上線！智商情商雙在線，中文語音對(duì)話斷崖式領(lǐng)先

豆包App更新實(shí)時(shí)語音通話功能，中文對(duì)話斷崖式領(lǐng)先，人機(jī)難辨！