豆包版《Her》升級上新!隨時打斷,交流自然,還是開箱即用的那種
豆包大模型應用落地,又有新進展。
8月21日,火山引擎在AI創(chuàng)新巡展活動上發(fā)布了豆包大模型的一系列產品升級。
據(jù)活動現(xiàn)場披露,最新版豆包大語言模型的綜合能力相比三個月前首次發(fā)布時提升了20.3%:
在六項關鍵能力評測中,角色扮演能力提升38.3%,具備了更強的上下文感知,讓對話情境更連貫、角色更擬人化;語言理解提升33.3%,包括信息分類和抽取、總結摘要、閱讀理解和問答等能力增強。此外,模型在長文任務、數(shù)學、專業(yè)知識、代碼能力上也有不同程度提升。

值得關注的是,此次活動還發(fā)布了豆包大模型的一系列語音能力升級。豆包大模型團隊的Seed-ASR、Seed-TTS研究成果(論文見文末),已成功應用于豆包語音識別模型和語音合成模型。在此基礎上,火山引擎整合了RTC技術(實時音視頻),全新發(fā)布對話式AI實時交互解決方案。
此方案讓用戶不僅能用語音與AI進行交談,還能像平時說話一樣、在對話過程中適時打斷或插話,整體對話質量不受影響。經過升級后的AI聲音相較以往而言更具表現(xiàn)力和感情色彩,對話也因此更自然、更真實、更流暢,讓大模型交互體驗更強。

現(xiàn)場,火山引擎還攜手多點DMALL成立零售大模型生態(tài)聯(lián)盟,基于豆包大模型打造零售AI解決方案。首批聯(lián)盟成員包括物美集團、抖音電商、抖音生活服務、百勝、麥當勞、中國飛鶴、海底撈、居然之家、南7-11、重慶百貨、百果園、波司登、天虹、三得利、絕味、名創(chuàng)優(yōu)品、NielsenIQ、電通等。
自然流暢的AI實時語音應用,一站式搞定搭載火山方舟大模型服務平臺,通過火山引擎RTC實現(xiàn)語音數(shù)據(jù)的高效采集、處理和傳輸,并深度整合豆包·語音識別模型和豆包·語音合成模型,簡化語音到文本和文本到語音的轉換過程,火山引擎對話式AI實時交互解決方案,提供優(yōu)秀的智能對話和自然語言處理能力,幫助應用快速實現(xiàn)用戶和云端大模型的實時語音通話。
豆包·語音識別模型:更高的準確率及靈敏度,更低的語音識別延遲,支持多語種的正確識別。豆包·語音合成模型:解鎖「豆包」同款音色,提供自然生動的語音合成能力,善于表達多種情緒,演繹多種場景。火山方舟:提供模型精調、推理、評測等全方位功能與服務,提供豐富的插件生態(tài)和AI原生應用開發(fā)服務,全方位保障企業(yè)級AI應用落地。
△對話式AI實時交互服務方案架構
開箱即用快速搭建,只需調用標準的OpenAPI接口即可配置所需的語音識別(ASR)、大語言模型(LLM)、語音合成(TTS)類型和參數(shù)。而火山引擎AIGC RTC-Server負責邊緣用戶接入、云端資源調度、文本與語音轉換處理以及數(shù)據(jù)訂閱傳輸?shù)拳h(huán)節(jié)。整體簡化開發(fā)流程,讓企業(yè)應用更專注在對大模型核心能力的訓練及調試,加速AI實時語音場景創(chuàng)新。
隨時打斷,交流自然要讓與AI的交流像和朋友一樣自然,隨時打斷甚至直接插話,關鍵在于:當用戶和AI同時說話時,如何解決互相干擾的音頻“雙講”現(xiàn)象。
火山引擎RTC基于成熟的音頻3A處理技術,針對“雙講”通過傳統(tǒng)回聲消除算法和深度學習算法的結合,不僅有效去除回聲,還能避免用戶語音被過度處理,確保云端語音識別(ASR)能準確捕捉和識別用戶的語音信息。
此外,火山引擎RTC通過簡化算法提高處理速度,避免因算法復雜性帶來的額外延時。
實時秒回,全球暢聊火山引擎RTC依托于WebRTC傳輸網絡(WTN),優(yōu)選全球海量優(yōu)質節(jié)點,實現(xiàn)全球用戶智能接入和音視頻數(shù)據(jù)超低延時傳輸,在復雜的網絡環(huán)境下具有強大的抗弱網能力,即使在高達80%的數(shù)據(jù)包丟失率下,也能確保音頻傳輸?shù)姆€(wěn)定和質量。
同時,火山引擎RTC結合云端語音識別流式處理,優(yōu)化鏈路延遲,端到端響應延時可低至1秒。此外,火山引擎實時信令RTS可提供穩(wěn)定可靠、低延時、高并發(fā)的信令收發(fā)能力,可對文字信令高效傳輸。
不受限于AI服務部署區(qū)域,用戶無論身處何地,是語音交流還是文字對話,都可以享受極低延遲、流暢的AI交互體驗。
產品融合,高效架構在方案中,客戶端提供音頻幀級別的語音活動性檢測(VAD),可以精準檢測出音頻信號中何時有人正在說話,何時是靜默狀態(tài)。幫助整體語音系統(tǒng)更有效地處理語音輸入,更準確地識別和理解用戶的指令或話語,減少誤識別。同時,避免對無意義的背景聲進行處理,從而節(jié)省計算資源,提高系統(tǒng)的整體效率。
當前人工智能領域創(chuàng)新和突破正以前所未有的速度發(fā)生,幾乎每周都有新的進展。AIGC交互形態(tài)和規(guī)模也在快速發(fā)展中,如從文字到語音再到視頻等多模態(tài),從1對1到多人多Agent互動。火山引擎對話式AI實時交互服務在支持實時語音基礎上,也在探索拓展多模態(tài)視頻對話和多人群聊等場景,幫助開發(fā)者能夠快速迭代和創(chuàng)新,不斷推出新的應用場景和玩法。
靈活、多樣化的接入方案對于追求快速部署AI實時語音功能的企業(yè)來說,火山引擎提供的一站式解決方案,讓企業(yè)能夠專注于打造核心功能和創(chuàng)新,而不必深陷底層技術的細節(jié)。此外,火山引擎也提供多樣化的接入方案,以滿足不同企業(yè)在開發(fā)應用時的具體需求。以下是另外兩種接入方案:
自集成方案:企業(yè)可以利用火山引擎RTC的音視頻采集處理能力、云端媒體服務和音視頻數(shù)據(jù)傳輸技術,結合ASR、LLM以及TTS等技術構建一個完整大模型語音處理流程,實現(xiàn)更自主、靈活的架構設計。WebRTC傳輸網絡(WTN)方案:對于在客戶端擁有自主研發(fā)音視頻技術的企業(yè),火山引擎提供了基于WebRTC標準協(xié)議構建的傳輸網絡(WTN)。通過接入WTN,企業(yè)能夠輕松獲得全球范圍內的超低延遲、穩(wěn)定可靠的實時音視頻傳輸服務,提升端到端多模態(tài)大模型的響應效率。通過這些方案,企業(yè)可以根據(jù)自己的技術棧和業(yè)務場景,選擇最合適的接入方式,實現(xiàn)高質量的AI實時語音場景。目前,火山引擎提供的AI實時語音能力已在國內TOP級的AI虛擬人物聊天產品中應用落地,為眾多用戶帶來全新的互動體驗。
Seed-TTS及Seed-ASR技術詳情:
Seed-TTS: A Family of High-Quality Versatile Speech Generation Models論文鏈接:https://arxiv.org/pdf/2406.02430Demo展示:https://bytedancespeech.github.io/seedtts_tech_report/
Seed-ASR: Understanding Diverse Speech and Contexts with LLM-based Speech Recognition論文鏈接:https://team.doubao.com/zh/publication/seed-asr-understanding-diverse-speech-and-contexts-with-llm-based-speech-recognition?view_from=researchDemo展示:https://bytedancespeech.github.io/seedasr_tech_report/
*本文系新火種獲授權刊載,觀點僅為作者所有。
— 完 —
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。