百度端到端語音語言大模型破局出圈,對話超逼真、成本最高降90%,1秒極速響應
作者 | 程茜
編輯 | 漠影
語音交互又被玩出新花樣?!
智東西4月2日報道,本周一,百度發布業界首個基于全新互相關注意力(Cross-Attention)的端到端語音語言大模型,已首發上線文小言,可免費體驗。
用幾個關鍵詞概括新升級的文小言就是:語音交互超逼真、超低時延、超低成本。
超逼真指的是,搭載語音語言大模型的文小言,既能聽得懂重慶、廣西、河南、廣東、山東等特色方言,還能實現情感飽滿對話;超低時延是其對話中可將用戶等待時長從行業常見的3-5秒降低至1秒左右,幾乎與真人對話無異;超低成本指在電話語音頻道的語音問答場景中,調用成本較行業均值下降約50%-90%。
百度語音首席架構師賈磊透露,該模型可以部署到L20卡上,在滿足語音交互延遲要求的情況下,雙L20卡的并發可以做到幾百以上。目前,語音語言大模型的訓練流程便捷,基本上基于文心大模型幾百片卡優化一周就可以實現,且本身的優化工作也并不復雜。
相比于大模型在語音交互場景的應用,這一語音語言大模型的獨特之處是什么?又是如何做到最高降低達到90%的調用成本?其背后的創新點該如何解讀?智東西與百度語音首席架構師賈磊進行了深入交流,試圖找到這些問題的答案。
一、真人對話體驗,升級版文小言語音交互更絲滑
大模型在語音交互場景的發展,正朝著更自然、低延遲、高擬真的語音交互體驗演進。而這一更為擬人化的交互體驗,我們在新升級的文小言上窺到了雛形,搭載了端到端語音語言大模型的文小言,已經化身情感陪伴、全能助手。
首先,文小言已經集成了包含天氣查詢、日歷查詢、單位換算、股票股價等信息查詢的38個垂類助手,可以看出這些特殊場景下,語音交互的效率要遠高于文本交互。
其次,文小言對于時效性和非時效性問題均能應對,百科查詢、時政知識類時效性問答內容,文小言可以進行實時檢索,并做到精準的指令跟隨,降低幻覺;常識問答等非時效性問題也不在話下。
最后,也是語音交互與文本最大的區別所在,文小言可以與用戶進行情感自然充沛的交流,并能做到快速響應反饋,實現逼真擬人的交互效果。
話不多說,來看看文小言的實際效果。
語音識別的一大難點莫過于方言識別。方言的發音特點豐富多樣,同一方言在不同地區可能存在發音差異,甚至同一個字在不同語境下發音也有所不同。這使得語音識別系統難以準確捕捉和解析所有的發音變體,增加了識別的難度。當下的文小言,已經可以應對重慶、廣西、河南、廣東、山東各地特色方言,其不僅聽得懂,還能使用對應的方言進行回復。
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。