国产福利视频,东北女人啪啪ⅹxx对白,亚洲国产成人一区二区在线

首頁 > AI資訊 > 行業動態 > 百度端到端語音語言大模型破局出圈，對話超逼真、成本最高降90%，1秒極速響應

百度端到端語音語言大模型破局出圈，對話超逼真、成本最高降90%，1秒極速響應

新火種 2025-05-27

作者 | 程茜

編輯 | 漠影

語音交互又被玩出新花樣？！

智東西4月2日報道，本周一，百度發布業界首個基于全新互相關注意力（Cross-Attention）的端到端語音語言大模型，已首發上線文小言，可免費體驗。

螞蟻數科CTO王維：可信智能體是產業AI規模化落地”必選項”

用幾個關鍵詞概括新升級的文小言就是：語音交互超逼真、超低時延、超低成本。

超逼真指的是，搭載語音語言大模型的文小言，既能聽得懂重慶、廣西、河南、廣東、山東等特色方言，還能實現情感飽滿對話；超低時延是其對話中可將用戶等待時長從行業常見的3-5秒降低至1秒左右，幾乎與真人對話無異；超低成本指在電話語音頻道的語音問答場景中，調用成本較行業均值下降約50%-90%。

百度語音首席架構師賈磊透露，該模型可以部署到L20卡上，在滿足語音交互延遲要求的情況下，雙L20卡的并發可以做到幾百以上。目前，語音語言大模型的訓練流程便捷，基本上基于文心大模型幾百片卡優化一周就可以實現，且本身的優化工作也并不復雜。

相比于大模型在語音交互場景的應用，這一語音語言大模型的獨特之處是什么？又是如何做到最高降低達到90%的調用成本？其背后的創新點該如何解讀？智東西與百度語音首席架構師賈磊進行了深入交流，試圖找到這些問題的答案。

一、真人對話體驗，升級版文小言語音交互更絲滑

大模型在語音交互場景的發展，正朝著更自然、低延遲、高擬真的語音交互體驗演進。而這一更為擬人化的交互體驗，我們在新升級的文小言上窺到了雛形，搭載了端到端語音語言大模型的文小言，已經化身情感陪伴、全能助手。

首先，文小言已經集成了包含天氣查詢、日歷查詢、單位換算、股票股價等信息查詢的38個垂類助手，可以看出這些特殊場景下，語音交互的效率要遠高于文本交互。

其次，文小言對于時效性和非時效性問題均能應對，百科查詢、時政知識類時效性問答內容，文小言可以進行實時檢索，并做到精準的指令跟隨，降低幻覺；常識問答等非時效性問題也不在話下。

最后，也是語音交互與文本最大的區別所在，文小言可以與用戶進行情感自然充沛的交流，并能做到快速響應反饋，實現逼真擬人的交互效果。

話不多說，來看看文小言的實際效果。

語音識別的一大難點莫過于方言識別。方言的發音特點豐富多樣，同一方言在不同地區可能存在發音差異，甚至同一個字在不同語境下發音也有所不同。這使得語音識別系統難以準確捕捉和解析所有的發音變體，增加了識別的難度。當下的文小言，已經可以應對重慶、廣西、河南、廣東、山東各地特色方言，其不僅聽得懂，還能使用對應的方言進行回復。

Tags:

機器學習語音模型

免責聲明: 本文所包含的觀點僅代表作者個人看法，不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。交易和投資涉及高風險，讀者在采取與本文內容相關的任何行動之前，請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

百度端到端語音語言大模型破局出圈，對話超逼真、成本最高降90%，1秒極速響應

豆包全新端到端語音功能上線！智商情商雙在線，中文語音對話斷崖式領先

豆包語音大模型首家引領級通過中國信通院語音大模型評估

重慶將積極布局AI大模型公共服務平臺

5天3城黃仁勛低調現身深圳、臺中、北京談及液冷、硅光技術微妙時機傳遞何種信號？

AI工具識別虛假新聞準確率達99%

熱門文章