首頁 > AI資訊 > 最新資訊 > 語音識別技術

語音識別技術

新火種    2023-12-25

語音識別技術

1. 基礎知識

1.1 語音識別概念

語音識別是將人類的聲音信號轉化為文字或者指令的過程([1])。語音識別以語音為研究對象,它是語音信號處理的一個重要研究方向,是模式識別的一個分支,其研究涉及微機技術、人工智能、數字信號處理、模式識別、聲學、語言學和認知科學等許多學科領域,是一個多學科綜合性研究領域([2])。

1.2語音識別分類

語音識別系統根據對說話人說話方式的要求,可以分為孤立字(詞)語音識別系統、連接字語音識別系統和連續語音識別系統;根據對說話人的依賴程度可以分為特定人和非特定人語音識別系統;根據詞匯量大小可以分為小詞匯量、中等詞匯量、大詞匯量以及無限詞匯量語音識別系統([3])。

2. 發展趨勢

20世紀50年代:語音識別的研究從上個世紀50年代開始,1952年,三位貝爾實驗室的研究人員研究出了世界上第一個能識別10個英文數字發音的系統——Audry系統。該系統被普遍認為是自動語音識別系統的開端。20世紀60年代:60年代計算機的應用推動了語音識別的發展。其中動態規劃(DP)和線性預測分析技術(LP)等技術的提出和運用對語音識別的發展產生了深遠影響。20世紀70年代:70年代LP技術得到進一步發展,動態時間歸正技術(DTW)基本成熟。特別是矢量量化(VQ)和隱馬爾可夫模型(HMM)理論在實踐上的運用初步實現了基于線性預測倒譜和DTW技術的特定人孤立語音識別系統。20世紀80年代:20世紀80年代隨著HMM模型和人工神經元網絡(ANN)等技術在語音識別中的成功應用人們終于在實驗室突破了大詞匯量、連續語音和非特定人這三大語音識別障礙。首次把這三個特性都集成在一個系統中,比較有代表性的是卡耐基梅隆大學研發的Sphinx系統。20世紀90年代:90年代之后語音識別與自然語言處理相結合發展到基于自然口語識別和理解的人機對話系統。與機器翻譯技術相結合逐步發展出面向不同語種人類之間交流的直接語音翻譯技術。

語言識別技術在中國的發展

我國的語音識別研究工作一直緊跟國際水平國家也很重視并把大詞匯量語音識別的研究列入“863”計劃由中科院聲學所、自動化所及北京大學等單位組織研究開發。目前國內也涌現出了諸如科大訊飛和北京捷通等專業研究和開發語音識別產品的高科技公司([3])。

3. 主流工具

語言轉寫:

字幕生成:

3.1 具體案例應用

工具1:AppTek

描述:

為人類語言技術提供了前沿的機器學習、生成式人工智能支持,覆蓋超過80種語言和方言。

主要功能:

自動語音識別 (Automatic speech recognition ASR) 文段切分字幕生成1) Automatic captioning 實時生成字幕2) Post-editing transcription 后期編輯3) Digital Assent Management 數字資產管理4) Accessibility Solutions for Deaf/Hard of Hearing 對聽力障礙者友好3. 自然語言理解 (Natural Language Understanding NLU)

具體實例:

We should meet tomorrow at the booth at 2 pm.

Step 1: Named Entity Recognition

We (person) should meet tomorrow (date) at the booth (location) at 2 pm (time).

Step 2: Intent Classification

We (person) should (modifier) meet (action) tomorrow (date) at the booth (location) at 2 pm (time).

Step 3: Inverse Text Normalization

We (person) should (modifier) meet (action) tomorrow (date) at the booth (location) at 2 pm (time—13:00:00 UTC).

Step 4: ReasoningStep 5: Dialog

We should meet tomorrow at the booth at 2 pm.

How about Tuesday?

Step 6: Knowledge Graph

How about Tuesday? (Tuesday=Nov.21)

Step 7: Sentiment Analysis

We should meet tomorrow at the booth at 2 pm.

How about Tuesday?

You know that’s not possible! (sentiment: negative)

工具2:IFlytek(科大訊飛)

操作步驟:

1. 導入音頻/智能硬件:來自手機文件的音頻連接錄音筆使用(有免費的轉寫權益)

2. 懸浮字幕3. 轉文字(付費/錄音筆免費):支持多語種、多個說話人、轉寫后編輯

注:科大訊飛轉寫準確度也有待加強,在上下文語境充分的情況下,也會出現“識別錯誤”“語法錯誤”等基礎錯誤。如圖中的:COVID-19被識別成了Covey 19;If compared to the developed countries around the world被轉寫成了It compared to the developed countries

在軟件轉寫準確性有待提高的情況下,人工后續的編輯成本就會上升。

4. 總結與啟發

語音識別技術未來市場潛力巨大。目前已廣泛應用在日常生活中的語音操作、人機交流等領域。對于翻譯從業者來說,語音識別技術的發展可以實現口語識別技術、翻譯技術和語音合成技術等([4]),幫助譯者降低部分認知和輸出負荷,進而提升翻譯的效益和整體質量。參考文獻:[1] 中華人民共和國國家質量監督檢驗檢疫總局.GB/T21023 ? 2007 中文語音識別系統通用技術規范[S].北京:中國標準出 版社,2007.[2] 王文慧.基于ARM的嵌入式語音識別系統研究[D].天津:天津 大學,2008.[3] 馬志欣,王宏,李鑫.語音識別技術綜述[J].昌吉。學院學報,2006(3):93?97.[4] 禹琳琳.語音識別技術及應用綜述.現代電子技術 36.13(2013):43-45.

特別說明:本文僅供學習交流,如有不妥歡迎后臺聯系小編。

- END -

原創來源:北外CAT課程展示-張瑩玥

推文


相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章