大模型時代的ASR就是不一樣!豆包“聽力”水平現場評測,方言&小朋友口音直接拿捏!
8 月 21 日,2024 火山引擎 AI 創新巡展﹒上海站帶來了豆包大模型最新進展。
公開及內部測評集顯示,最新版本豆包大模型對比 5 月 15 日發布版本綜合能力提升 20.3% ,其中,角色扮演能力提升 38.3% ,語言理解能力提升 33.3% ,數學能力提升 13.5% 。根據 QuestMobile 報告,基于豆包大模型打造的豆包 APP 月活用戶數在上半年已達 2752 萬,為同類 APP 第一,是第二名的 2.43 倍。
語音能力是本次活動的發布重點。其中,語音識別和語音合成模型進一步升級,對話式 AI 實時交互功能也最新上線。
具體來說,豆包﹒語音合成模型升級了流式語音合成能力,能夠實時響應、精準斷句,支持“邊想邊說”。豆包﹒語音識別模型,可基于更強上下文感知能力,推理得出更準確的識別結果,并支持一個模型識別普通話和粵語、上海話、四川話、西安話、閩南語等多種中國方言。
基于語音合成、語音識別等成果,火山引擎整合了云服務的實時音視頻技術,使 AI 語音交互能像人類說話一樣打斷和插話,端到端延時可低至 1 秒以內。即使在弱網環境,丟包 80% 依然可保持清晰流暢。
上述發布中,語音合成能力依托于 Seed-TTS 。而語音識別能力依托于豆包大模型團隊另一成果—— Seed-ASR 。
Seed-ASR 能力展示
Seed-ASR 基于大語言模型,可將各種語音轉化為文本信息,使機器能“聽懂”用戶說話,“聰明”地識別各類信息。
通過下面幾個 Demo ,可感知其能力。
(1)基于人名的上下文推理
給到歷史人物介紹,模型能從語音中識別相關信息。
(2)基于專業名詞的上下文推理
模型能根據用戶對字幕的編輯歷史,關聯并自動識別后續語音中的專業名詞——比如滑雪中的“立刃”、“雪板”、“搓雪”等表達。
視頻鏈接:https://mp.weixin.qq.com/s/N9oLmISKyINRPQ9Fm3SkFg
(3)方言識別
即便是 5 種方言夾雜的語音聊天,模型同樣能夠識別并展示出較為準確的結果。如果將聊天相關信息作為提示詞,事先提供給模型,識別效果則會進一步提升。
視頻鏈接:https://mp.weixin.qq.com/s/N9oLmISKyINRPQ9Fm3SkFg
Seed-ASR 已在豆包 APP 中應用,被網友用在英語會話、虛擬聊天伴侶、復刻親友聲音等多個場景。面向更多企業客戶,Seed-ASR 依托火山引擎, 在語音交互、內容審核、會議訪談轉寫、音視頻字幕等場景也有落地。
目前, Seed-ASR 技術報告已經公開,在多個領域、多種語言、方言、口音綜合評估集上,它比其他端到端模型表現出顯著改進。
對比此前發布的大型 ASR 模型,Seed-ASR 在中英文公開測試集上,單詞錯誤率(面向中文以單個字計算)降低 10%-40% ,展現出一定優勢。
有網友在試用后表示,這個模型的表現確實超出預期,家里小朋友說話也能聽懂。
技術詳情及更多 Demo 展示,可通過下方鏈接了解:
論文標題:Seed-ASR: Understanding Diverse Speech and Contexts with LLM-based Speech Recognition
論文鏈接:https://team.doubao.com/zh/publication/seed-asr-understanding-diverse-speech-and-contexts-with-llm-based-speech-recognition?view_from=research
Demo展示:https://bytedancespeech.github.io/seedasr_tech_report/
技術亮點與原理
Seed-ASR 的立項始于 2023 年初,隨著 ChatGPT 橫空出世,Scaling Laws 成為顯學,各領域研究者都意識到,參數量和數據量的大幅增長使得模型同時擁有強大的理解和生成能力。
此前,語音一直與 NLP 結合緊密,語音與文字的相互轉換在人類大腦內本就是一項“不假思索便執行”的任務,對機器也類似。
基于上述背景,研究團隊希望讓 ASR 模型能夠利用 LLM 豐富的知識,整體提升 ASR 識別結果的準確性,由此,開啟了 Seed-ASR 的相關工作。
從技術角度看,Seed-ASR 核心亮點在于兩方面:
其一,基于大模型,為 ASR 引入了上下文理解能力。
Seed-ASR 有 LLM 加持,可利用豐富的上下文理解語音信號。具體實現上,通過構建有效且多樣的訓練數據,團隊激發了模型的語音模態,使得模型可以結合文本,捕捉語音中的相關信息,再在推理中,設計一些解碼策略,以緩解上下文引入造成的幻覺及誤轉寫問題。
上述工作使得與 AI 對話時,模型能夠理解特定術語,也能在會議紀要中,“聽懂”新加入參會者的人名。且溝通越多,上下文信息越多,后續轉錄的正確率就越高。
其二, All-in-One 理念帶來強大的泛化效果。
傳統 ASR 屬于小模型,每個領域需要特定模型解決細分問題,另有與之配套的融合方法,脫離特定場景,表現便會下降。Seed-ASR 基于 All-in-One 思路,強大的泛化性使它能被用于各類場景,更為簡潔。
除卻上述兩方面,Seed-ASR 還擁有識別準確率高、支持多種語言等特性,其中 CN 版支持 13 種中文方言,多語言版支持英語和其他 7 種語言,同時正在拓展支持 40 種語言。
這些能力中,高精度識別與多種語言支持能力源于 Scaling Laws 理念。模型容量擴大,更多樣更廣泛數據的引入,提供了模型更好的泛化性和能力涌現。正如 GPT 系列每一代的進化一樣。此外,分階段的訓練方式既賦予模型高精度識別能力,也提供模型利用上下文推理的能力。
訓練方法
Seed-ASR 的開發加入了分階段訓練過程,這種基于音頻條件 LLM 框架被稱為 AcLLM 。
整個流程包括:編碼器的自監督學習(SSL)、監督微調(SFT)、上下文微調(Context SFT)、強化學習(RL)。其中,預訓練的大量文本數據訓練使模型存儲大量知識,在后續微調中,LLM 在更高質量的任務導向數據上進一步微調,增強了上下文推理和理解任務指令的能力。RLHF 階段中,LLM 得以與人類偏好進一步保持一致。
注:Seed-ASR 訓練過程
下面具體拆解各個階段:
音頻編碼器的自監督學習
該步驟使編碼器能從語音中捕獲豐富信息,參考了基于 BERT 的語音 SSL 框架,團隊開發了一種基于一致性的模型,可在音頻信號中可捕捉并存儲語音信號中的全局及局部信息。團隊將訓練后的音頻編碼成稱為“ LUISE ”,它是大規模無監督迭代語音編碼器(Large-scale Unsupervised Iterative Speech Encoder)的英文縮寫。
繼承 BERT 的理念,LUISE 采用掩碼語言預測的學習范式,即:先將波形提取的特征序列輸入到 Token 化模塊,得到每個幀的離散標簽,再使用交叉熵準則對 LUISE 進行訓練,損失函數僅對掩碼幀進行計算,訓練完成后,移除 softmax 層,用 LUISE 的 Encoder 部分進行后續有監督微調。
下面是該編碼器的訓練過程:
團隊還利用了迭代固定分詞器方法,從連續數據中提取離散標簽,重復迭代過程,逐步優化了分詞結果。
在選擇中間層過程中,團隊凍結了第一次迭代訓練的編碼器參數,添加映射層并利用 CTC(Connectionist Temporal Classification)算法進行貪婪搜索,從而得到詞錯誤率結果(WER)。
下圖展示了針對 LUISE 語義表示最優化層的探索實驗結果,對于 20 億參數的LUISE,第 25 層(總共 30 層)的輸出展示了最佳語義表示,并在后續迭代中,用于生成離散標簽。
SFT
大規模純語音數據訓練已讓 LUISE 具備強大的語音表征能力,能夠以 40ms 幀率輸出豐富語音和語義信息的連續表征。
為了讓模型能理解語音中對應文本內容,需要將編碼表征的語義信息映射到 LLM 語義空間去。團隊為此采用 2 種方法:
在模型結構上,引入一個轉換器模塊將音頻編碼器 LUISE 與 LLM 連接起來。當提供上下文時,模型會識別相關語音信息,結合上下文,提供準確文本,否則將語音直接轉錄為文本。
訓練方式上,團隊采用了“可學習編碼器 + 可學習轉化器+固定 LLM ”策略,這樣可保持 LLM 豐富的語義知識和推理能力,通過編碼器和轉換器參數訓練,使得語音中的語義信息與 LLM 的語義空間對齊。
Context SFT
Context SFT ,不止關乎語音對話中的背景信息理解,對于語音識別中的模糊信息,比如口音、發音不清、同音異義詞、生僻詞等理解也有很大意義。為此,團隊引入了上下文感知訓練以及聯合波束搜索方法來增強相關能力。
首先團隊使用自研的語言模型來生成語音轉錄有關的上下文,并構建了“上下文,語音,文本”三種元素的數據集,將其與一定比例的一般 ASR 數據混合訓練,并在訓練中將上下文和語音表征輸入 LLM 中。
為了解決原生波束搜索的幻覺問題,團隊還提出一種聯合波束搜索的解碼策略以緩解幻覺,找到最優得分 P(y|x,c) ,其中,y 表示預測的假設,x 是語音信息,c 是給定上下文信息,超參數 α 用于平衡解碼過程中語音信息和上下文信息的權重,并且,團隊還引入了一種修剪策略,過濾掉語義方面不合理的候選詞。
下圖展示了“有上下文”和“無上下文”轉錄語音的示例情況,從第二行輸出結果可見,有上下文情況下,模型輸出與此前出現的單詞“ ceaseth ” 、 “ sufficeth ”進行了對齊。
RL
強化學習(RL)的引入,使模型在序列建模任務中學習到相對最優的決策策略。通過構建基于 ASR 指標的獎勵函數,團隊將其引入 Seed-ASR 中。不僅于此,團隊還將加權單詞錯誤率(WER)作為額外獎勵函數,這樣可使模型更多關注關鍵詞的錯誤問題。
具體到訓練過程中,團隊使用前一階段訓練的上下文 SFT 初始化模型參數,利用高質量數據進行數千小時的強化學習訓練,為保證上下文感知能力,訓練數據還包括一定比例的“上下文,語音,文本”三種元素數據。
在消融研究中,將加權 WER 作為獎勵函數的模型(最后 2 行)在 3 個評估集的表現優異,最后一行訓練進一步加入三種元素的數據集,其上下文能力表現得以保持。
實驗結果與技術展望
下圖展示了 Seed-ASR 與其他同類模型的平均單詞錯誤率,在中文領域,Seed-ASR 對比主流模型無論是普通話在多領域的識別錯誤率,還是 6 個普通話測試集上,其平均錯誤率都低于其他模型。
面向英文表現也很好,無論面向多領域英語識別評測,還是 MLS 公共評測集,其表現同樣突出。
除卻客觀評價外,團隊還引入主觀評價,選擇 3 名轉錄員進行人工識別,將文本與 Seed-ASR 進行對比。
結果顯示,在語音搜索和語音助手領域,兩者旗鼓相當,而在直播、視頻、會議場景,Seed-ASR( CN 版本)表現出比人類更好的主觀可理解性。
在研究測試過程中,團隊還觀察到,更大模型可以通過增加訓練數據量級,不斷降低損失值。
據團隊所了解,目前尚無基于 LLM 框架的音頻編碼器 Scaling Laws 的研究,團隊在訓練階段選取了 5 個量級的模型,通過 770 萬小時無監督多領域純語音數據訓練,觀察 Loss 值、單詞錯誤率(WER)。
從下圖能看出,隨著模型規模提升(在橫軸取 2 為底的對數值),交叉熵預訓練 Loss 值與單詞錯誤率均會降低,且預訓練 Loss 值與單詞錯誤率呈正相關關系。
為探索長語音數據在模型表現上的影響,團隊還構建了一系列數據集,分別直接用長語音數據進行微調,對照組使用切分后的短語音微調,并且比對了其他 ASR 模型。
結果顯示,長語音 SFT 效果更佳。團隊認為,分段操作可能導致了邊界信息丟失,降低識別準確率,且影響了全局上下文的一致性,進而降低了識別結果的準確性和一致性。
林同學是該項目的主要參與者之一,展望 Seed-ASR 將釋放的潛力,他認為,語音內容理解作為交互入口,準確率的進一步提升將推動人機交互更為“智能化”。ASR 對于小眾語言、口音、發音的更強兼容性,可促使技術進一步普惠不同文化背景或溝通障礙的小眾群體。
對于技術發展的展望,林同學頗為樂觀:“目前 Scaling Laws 的潛力尚未被窮盡,我們在數據和模型結構的升級工作仍收益可觀,我們將繼續探索”。
“務實”、“重視技術”是團隊的底色
事實上,Seed-ASR 早已被應用于豆包 APP 實際場景中,從立項到上線,只歷經不到半年時間。此后,模型歷經不斷調優,性能繼續提升。
“項目推進效率非常高”,這是讓林同學印象最深的事。
據他回憶,快速推進一方面得益于技術路線選取的前瞻性。Seed-ASR 的框架連續性很好,一開始選擇了連續語音表示的方向,后續也沒有切換大方向,使得團隊少走“彎路”,還能做進一步深入研究和優化。
另一方面也源于高效的跨團隊協同。
這當中,算法同學發起前期驗證和技術方向規劃,當模型展現出對應能力,更多同學加入進來。其中,工程同學提供了訓練穩定性和推理加速方面的支持,數據同學快速支持了要素生產,評測同學構建了一套六邊形的評價維度。Leader 們會身居一線,緊密跟蹤前沿工作和技術推進,與各職能同學緊密溝通技術細節,以更好協調資源和指導項目推進。在大家緊密配合下,模型得以快速迭代。
“所有人都一心撲在實際效果優化上,反而在公開集上沒來得及測試,導致技術報告遲遲沒有公開”,林同學補充道。
最后,團隊氛圍也是促成項目高效推進的因素之一。
“我們團隊的關鍵詞,一個是務實,另一個是非常重視技術”,林同學說道,而正是這種氛圍,促使大家更加自驅,更加積極去推進項目。
“每個同學都有機會做適合自己的事情,又能收獲成就感。當看到技術實際落地,釋放價值,也給同行提供新的視角,這給了我們動力把技術做得更扎實”,他認真地補充道。
截至目前,豆包大模型團隊語音方向已發布 Seed-TTS 、Seed-ASR 等多項技術成果,團隊希望吸引自驅、務實、有志于“用科技改變世界”的頂尖人才加入,點擊閱讀原文了解更多信息。
注:本文受訪同學采用化名。
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。