俺也去综合网,99久久精品免费,国产精品久久嫩一区二区免费

首頁 > AI資訊 > 最新資訊 > 豆包版《Her》升級上新！隨時打斷，交流自然，還是開箱即用的那種

豆包版《Her》升級上新！隨時打斷，交流自然，還是開箱即用的那種

新火種 2024-08-21

豆包大模型應用落地，又有新進展。

8月21日，火山引擎在AI創(chuàng)新巡展活動上發(fā)布了豆包大模型的一系列產品升級。

據(jù)活動現(xiàn)場披露，最新版豆包大語言模型的綜合能力相比三個月前首次發(fā)布時提升了20.3%：

在六項關鍵能力評測中，角色扮演能力提升38.3%，具備了更強的上下文感知，讓對話情境更連貫、角色更擬人化；語言理解提升33.3%，包括信息分類和抽取、總結摘要、閱讀理解和問答等能力增強。此外，模型在長文任務、數(shù)學、專業(yè)知識、代碼能力上也有不同程度提升。

值得關注的是，此次活動還發(fā)布了豆包大模型的一系列語音能力升級。豆包大模型團隊的Seed-ASR、Seed-TTS研究成果（論文見文末），已成功應用于豆包語音識別模型和語音合成模型。在此基礎上，火山引擎整合了RTC技術（實時音視頻），全新發(fā)布對話式AI實時交互解決方案。

此方案讓用戶不僅能用語音與AI進行交談，還能像平時說話一樣、在對話過程中適時打斷或插話，整體對話質量不受影響。經過升級后的AI聲音相較以往而言更具表現(xiàn)力和感情色彩，對話也因此更自然、更真實、更流暢，讓大模型交互體驗更強。

現(xiàn)場，火山引擎還攜手多點DMALL成立零售大模型生態(tài)聯(lián)盟，基于豆包大模型打造零售AI解決方案。首批聯(lián)盟成員包括物美集團、抖音電商、抖音生活服務、百勝、麥當勞、中國飛鶴、海底撈、居然之家、南7-11、重慶百貨、百果園、波司登、天虹、三得利、絕味、名創(chuàng)優(yōu)品、NielsenIQ、電通等。

自然流暢的AI實時語音應用，一站式搞定

搭載火山方舟大模型服務平臺，通過火山引擎RTC實現(xiàn)語音數(shù)據(jù)的高效采集、處理和傳輸，并深度整合豆包·語音識別模型和豆包·語音合成模型，簡化語音到文本和文本到語音的轉換過程，火山引擎對話式AI實時交互解決方案，提供優(yōu)秀的智能對話和自然語言處理能力，幫助應用快速實現(xiàn)用戶和云端大模型的實時語音通話。

豆包·語音識別模型：更高的準確率及靈敏度，更低的語音識別延遲，支持多語種的正確識別。豆包·語音合成模型：解鎖「豆包」同款音色，提供自然生動的語音合成能力，善于表達多種情緒，演繹多種場景。火山方舟：提供模型精調、推理、評測等全方位功能與服務，提供豐富的插件生態(tài)和AI原生應用開發(fā)服務，全方位保障企業(yè)級AI應用落地。豆包版《Her》升級上新！隨時打斷，交流自然，還是開箱即用的那種

△對話式AI實時交互服務方案架構

開箱即用快速搭建，只需調用標準的OpenAPI接口即可配置所需的語音識別（ASR）、大語言模型（LLM）、語音合成（TTS）類型和參數(shù)。而火山引擎AIGC RTC-Server負責邊緣用戶接入、云端資源調度、文本與語音轉換處理以及數(shù)據(jù)訂閱傳輸?shù)拳h(huán)節(jié)。整體簡化開發(fā)流程，讓企業(yè)應用更專注在對大模型核心能力的訓練及調試，加速AI實時語音場景創(chuàng)新。

隨時打斷，交流自然

要讓與AI的交流像和朋友一樣自然，隨時打斷甚至直接插話，關鍵在于：當用戶和AI同時說話時，如何解決互相干擾的音頻“雙講”現(xiàn)象。

火山引擎RTC基于成熟的音頻3A處理技術，針對“雙講”通過傳統(tǒng)回聲消除算法和深度學習算法的結合，不僅有效去除回聲，還能避免用戶語音被過度處理，確保云端語音識別（ASR）能準確捕捉和識別用戶的語音信息。

此外，火山引擎RTC通過簡化算法提高處理速度，避免因算法復雜性帶來的額外延時。

實時秒回，全球暢聊

火山引擎RTC依托于WebRTC傳輸網絡（WTN），優(yōu)選全球海量優(yōu)質節(jié)點，實現(xiàn)全球用戶智能接入和音視頻數(shù)據(jù)超低延時傳輸，在復雜的網絡環(huán)境下具有強大的抗弱網能力，即使在高達80%的數(shù)據(jù)包丟失率下，也能確保音頻傳輸?shù)姆€(wěn)定和質量。

同時，火山引擎RTC結合云端語音識別流式處理，優(yōu)化鏈路延遲，端到端響應延時可低至1秒。此外，火山引擎實時信令RTS可提供穩(wěn)定可靠、低延時、高并發(fā)的信令收發(fā)能力，可對文字信令高效傳輸。

不受限于AI服務部署區(qū)域，用戶無論身處何地，是語音交流還是文字對話，都可以享受極低延遲、流暢的AI交互體驗。

產品融合，高效架構

在方案中，客戶端提供音頻幀級別的語音活動性檢測（VAD），可以精準檢測出音頻信號中何時有人正在說話，何時是靜默狀態(tài)。幫助整體語音系統(tǒng)更有效地處理語音輸入，更準確地識別和理解用戶的指令或話語，減少誤識別。同時，避免對無意義的背景聲進行處理，從而節(jié)省計算資源，提高系統(tǒng)的整體效率。

當前人工智能領域創(chuàng)新和突破正以前所未有的速度發(fā)生，幾乎每周都有新的進展。AIGC交互形態(tài)和規(guī)模也在快速發(fā)展中，如從文字到語音再到視頻等多模態(tài)，從1對1到多人多Agent互動。火山引擎對話式AI實時交互服務在支持實時語音基礎上，也在探索拓展多模態(tài)視頻對話和多人群聊等場景，幫助開發(fā)者能夠快速迭代和創(chuàng)新，不斷推出新的應用場景和玩法。

靈活、多樣化的接入方案

對于追求快速部署AI實時語音功能的企業(yè)來說，火山引擎提供的一站式解決方案，讓企業(yè)能夠專注于打造核心功能和創(chuàng)新，而不必深陷底層技術的細節(jié)。此外，火山引擎也提供多樣化的接入方案，以滿足不同企業(yè)在開發(fā)應用時的具體需求。以下是另外兩種接入方案：

自集成方案：企業(yè)可以利用火山引擎RTC的音視頻采集處理能力、云端媒體服務和音視頻數(shù)據(jù)傳輸技術，結合ASR、LLM以及TTS等技術構建一個完整大模型語音處理流程，實現(xiàn)更自主、靈活的架構設計。WebRTC傳輸網絡（WTN）方案：對于在客戶端擁有自主研發(fā)音視頻技術的企業(yè)，火山引擎提供了基于WebRTC標準協(xié)議構建的傳輸網絡（WTN）。通過接入WTN，企業(yè)能夠輕松獲得全球范圍內的超低延遲、穩(wěn)定可靠的實時音視頻傳輸服務，提升端到端多模態(tài)大模型的響應效率。

通過這些方案，企業(yè)可以根據(jù)自己的技術棧和業(yè)務場景，選擇最合適的接入方式，實現(xiàn)高質量的AI實時語音場景。目前，火山引擎提供的AI實時語音能力已在國內TOP級的AI虛擬人物聊天產品中應用落地，為眾多用戶帶來全新的互動體驗。

Seed-TTS及Seed-ASR技術詳情：

Seed-TTS: A Family of High-Quality Versatile Speech Generation Models論文鏈接：https://arxiv.org/pdf/2406.02430Demo展示：https://bytedancespeech.github.io/seedtts_tech_report/

Seed-ASR: Understanding Diverse Speech and Contexts with LLM-based Speech Recognition論文鏈接：https://team.doubao.com/zh/publication/seed-asr-understanding-diverse-speech-and-contexts-with-llm-based-speech-recognition?view_from=researchDemo展示：https://bytedancespeech.github.io/seedasr_tech_report/

*本文系新火種獲授權刊載，觀點僅為作者所有。

— 完 —

Tags:

豆包自然

免責聲明: 本文所包含的觀點僅代表作者個人看法，不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。交易和投資涉及高風險，讀者在采取與本文內容相關的任何行動之前，請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

豆包版《Her》升級上新！隨時打斷，交流自然，還是開箱即用的那種

字節(jié)跳動旗下AI教育App河馬愛學并入豆包

全球首搭字節(jié)豆包AI大模型！全新smart精靈#5發(fā)布

大模型2024高考發(fā)榜，豆包等三款國產AI考上文科一本線

領克汽車直營銷售系統(tǒng)全面接入豆包大模型

三星中國GalaxyZ系列新品接入豆包大模型

熱門文章