首頁 > AI資訊 > 最新資訊 > 四川第一例“自貢話語音識別系統”投用準確率達80%

四川第一例“自貢話語音識別系統”投用準確率達80%

新火種    2023-11-20

大家好,我shi自貢勒。走!門招 (明天)即(去)看燈會。嘗試一下用自貢話念念以上語句,然后把方言轉換成文字。作為四川最難學的方言之一,智能語音系統能識別出來嗎?3月2日,成都商報記者了解到,由自貢市貢井區人民檢察院(以下簡稱:貢井檢察院)與一家科技公司合作研發的自貢話智能語音識別系統投入試運行階段。該系統是在智能語音識別系統中載入自貢話語言包基礎上創建而成,使用者對著麥克風,用正常語速的自貢話念完需要輸入的內容,經處理,電腦便可同步生成文字,供編輯保存。目前,該系統的準確率可達80%,待進一步升級后,準確率可提高到85%。頭一家檢察院使用“方言語言識別”3月2日下午,在貢井檢察院,楊寧向成都商報記者演示了這套“自貢話智能語音識別系統”。楊寧是貢井檢察院檢察委員會專職委員,他先是坐在辦公桌前,嘴巴對準辦公桌上的一個黑色麥克風,說了一段自貢話。“自貢市貢井區人民檢察院辦公室”、“本次對你的詢問,有沒有刑訊逼供誘供或者其他方法?”話音剛落,大約1秒鐘時間,電腦上新建的Word文檔里,便將其用語音表述的內容轉化成了文字顯示出來,并且還標注了標點符號。“語音識別并不稀奇,運用已經比較普遍。”楊寧告訴記者,但是用地方方言進行語音識別輸入,在全省檢察機關,貢井檢察院還是頭一家。當然,這個“頭一家”嘗試肯定不是為嘗稀奇,而是提高工作效率。楊寧說,檢察院在會議記錄、文書起草、案件記錄等工作時,往常都是通過鍵盤錄入信息,比較耗費時間。去年5月,貢井檢察院組織工作人員到山東等地考察,擬組織實施智能語音識別系統建設。隨后的去年10月,四川省檢察院正式確定貢井檢察院為全省檢察機關人工智能語音識別系統應用試點院。經過前期的籌建,2017年11月,貢井檢察院與一家名為“科大訊飛”的公司合作開發了這套“自貢話智能語音識別系統”,同年12月正式進入試運行階段。找亮點“審訊時發揮的效果最明顯”“能講本地方言,就可以把需要記錄的內容記錄到電腦上,可以極大地提高工作效率。”楊寧告訴記者,智能語音識別系統在實際運用中,普通話或者四川話(成都音為主)錄入都是比較常見和成熟的,前者準確率可達95%,后者準確率可達85%。但是,對于檢察院的實際工作來說,要求隨時使用普通話開會和辦案,適用性不強、使用率不高。貢井檢察院也決定,開發自貢話語言包,創建自貢話智能語音識別系統。這套“智能語音識別系統”,主要分為三大板塊。第一是智能語音會議系統。成都商報記者在貢井檢察院的智能語音會議室看到,會議桌上放置有麥克風、電腦和打印機。

楊寧模擬了一個場景,比如檢察官在討論案件時,誰發言,誰就開啟麥克風,發言內容便同步記錄到電腦里。會后,只需對錄入內容的層次或錯別字稍作修改,便可當即打印成紙質材料,供現場確認和保存。楊寧告訴記者,以前采用人工鍵盤輸入,除了記錄速度慢,還會或多或少地存在記錄不完整、記錄內容與發言內容表達意思不一致等情況。使用語音會議系統后,可以解決記錄速度的問題,還可以真實完整地記錄下發言人的意思表達,提高案件討論的精準性。“智能語音識別系統”的第二板塊是“智能語音輸入法”。以楊寧的辦公桌為例,除了原有的電腦、打印機等辦公工具,現在還多了一個麥克風。“一份審查報告,少則二三十頁,多則上百頁,用鍵盤輸入 需要2至5個工作日。”楊寧說,用智能語音輸入法,檢察官在電腦上開啟該輸入法,對準麥克風,用自貢話說出需要輸入的內容,相對應的文字信息會幾乎同步地出現在預定的Word文檔里,1個工作日就能完成一份審查報告。更大的亮點在于第三個板塊:智能語音訊(詢)問系統。這一系統安裝在審訊室里,有一個圓形收音器和一個麥克風連接電腦、打印機組織。楊寧介紹,自貢語言包在審訊時發揮的效果最明顯。檢察官不可能要求每一名被審訊人都用普通話。使用自貢方言語言包后的訊(詢)問系統,審訊人和被審訊人可自然地使用自貢方言對話,其對話內容同步形成文字錄入電腦,最終形成紙質材料。“鍵盤錄入,每分鐘只有60到80個字,語音錄入,每分鐘最高可達400字”楊寧說,還能解決鍵盤錄入與被審訊人所述內容存在偏差的問題。黑科技400小時自貢話聊天形成語言包準確率已達80%投入語音識別系統的語言包又從何而來?楊寧介紹,建設智能語音識別系統本身并不復雜,復雜的是自貢話語言包的創建。自貢話語言包總共包含了400個小時的自貢話語音聊天內容,這些內容全部從平日里的檢務工作中采集,然后送到合作公司,由公司的技術人員進行加工,最終形成語言包。楊寧告訴成都商報記者,該院的智能語音識別系統自去年11月開始建設,同年12月份投入試運行。試運行期間,自貢話語言包僅包含了80個小時的語聊內容,還有300多個小時的內容正在有序的錄入。目前,自貢方言語音識別的準確率已達80%;再做進一步完善,最終準確率可達85%。成都商報記者了解到,做方言識別技術,困難在于方言種類實在是太多了,需要建立不同的識別模型,而且一些方言缺乏足夠多的語料,訓練不足,導致識別準確性不高。科技公司的解決辦法是,通過深度神經網絡等技術,做出一個方言語音識別引擎,用于方言口音適配。同時征集足夠多的方言語音數據來訓練識別引擎,通過大量的預料訓練,提升方言識別的準確性。 

成都商報客戶端記者 袁偉 攝影報道編輯 余孟祥

相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章