首頁 > AI資訊 > 最新資訊 > 口音識別難倒AI:“人機交互”的未來還有多遠?

口音識別難倒AI:“人機交互”的未來還有多遠?

新火種    2024-12-06
讓機器“聽懂”人類語言,是“語音識別”技術自誕生起,就一直致力的目標。自20世紀中葉以來,經過近70年的發展,特別是隨著深度學習技術的引入,自動語音識別已取得突破性進展——在標準口音、常見詞匯、安靜環境的應用場景下,機器已然具備接近人類的“聽覺”能力。然而,一旦面臨口音、方言等情境,AI便顯得有些“力不從心”,哪怕你一字一句盡力向智能設備發出清晰的指令,得到的回答仍可能是:“對不起,我好像不明白你在說什么……”語音識別技術發展的終極目標,是實現自然、順暢的“人機交互”,正如同人與人的交互。如何解決橫亙在當下的這道難題,抵達人類暢想的智能未來,已成為全球智能語音技術公司共同面對的挑戰。全世界的AI,都栽在了“口音”上?口音、方言等問題,困擾著幾乎全世界所有的智能語音助手。2018年,《華盛頓郵報》曾與Globalme、Pulse Labs兩家語言研究公司合作,研究智能音箱的口音識別問題,結果顯示,谷歌智能音箱Google Home更容易“聽懂”美國西岸口音,對南部口音的識別準確率則要低3%;而亞馬遜Echo搭載的語音助手Alexa,識別東岸口音的準確率要比中西部口音高2%。更大的問題還在于對非本土口音的識別。研究顯示,對于非英語母語者,比如以西班牙語或漢語作為第一語言的人所說的英文,不論是Google Home還是Amazon Echo,其識別準確率都要比美國本土口音低30%,而拉丁裔和華裔是美國的兩大移民族群。這項研究結果引起了人們對智能語音助手“地域歧視”問題的廣泛關注。實際上,不只是Google Home和Amazon Echo,市場上主流的智能語音設備,在應對方言、口音等非標準語言場景時,表現都差強人意。在中國市場,這個問題同樣凸顯。所謂“十里不同音,百里不同俗”。作為一個幅員遼闊的多民族國家,我國56個民族使用的語言分屬五大語系,共有80種以上語言。其中,漢語的使用人數最多,分為標準語(普通話)和方言。根據教育部2019年發布的《中國語言文字概況》,漢語方言通常分為十大方言,各方言區內,又分布著若干次方言和許多種土語。部分方言之間差異很大,無法通話。為了消除語言隔閡,國家在全社會大力推廣普通話。然而,來自天南海北的人們,又賦予普通話五花八門的口音。帶有鮮明地域特色的口音,雖然對于人們的日常交流無傷大雅,有時還帶來些“塑料普通話”的樂趣,但你的智能語音助手就樂不起來了,甚至在它聽來,你說的極有可能是另一門語言……與此同時,用戶也很惱火:“難道普通話不過一級乙等,我就不配擁有智能音箱?!”口音、方言識別,到底難在哪兒?從理論上來說,只要有足夠的數據供機器進行訓練,那么讓AI識別任何一種語言或口音,都不是問題。以人機交互為目的的語音識別,是一個把聲學信號轉化為文本信息的過程。目前主流的語音識別框架主要由三個部分組成:聲學模型(AM)、語言模型(LM)和解碼器。可以形象地理解為:聲學模型負責找到對應的拼音,語言模型負責找到對應的句子。要得到一個出色的語音識別模型,需要有大量標注數據的訓練,簡單來說:首先,要進行語音內容的采集;其次,需要人工對這些語音進行標注,將語音內容轉寫成文本,讓算法能夠識別它;之后,算法再將識別后的文本內容與對應的音頻進行邏輯關聯。經過這樣大量、反復的學習訓練之后,機器就能實現語音識別了。“對于方言、口音的識別來說,最難的部分是在于語音數據的采集。”百度智能云數據眾包項目專家曹靜文表示。2019年9月,百度數據眾包團隊曾執行過一個藏語方言語音采集的項目。客戶為了提升藏語方言的識別和翻譯準確率,與百度團隊合作,招募870位藏民,整體采集87萬條藏語語音,覆蓋安多、康巴、衛藏等三個藏語方言區。藏語與漢語同屬漢藏語系,但與漢語這樣資源豐富的語言不同,藏語屬于低資源語言,目前全世界約有800萬人使用藏語,訓練數據稀少。曹靜文介紹,藏區采集工作面臨安全風險大、質檢難度高等挑戰。整個項目過程涉及諸多環節,從按需定制采集方案,到采集布點、人員招募、培訓、隱私授權,再到對采集流程、進度和項目風險進行把控,最后經過多輪質檢,在數據核驗通過后,才能最終交付確認。百度團隊在第一時間聯系到當地的資源布點,并派遣項目經理前往西藏、青海等地指導采集。最終該項目用時一個半月,實際交付數據92萬條,驗收合格率高于95%,滿足交付要求。“這個過程往往成本高昂、流程繁瑣,還存在諸多門檻。”曹靜文表示。應對“數據稀缺”,眾包模式受青睞語料庫的質量越高,語言模型越豐富,語音識別的準確率就越高。如何獲取大量訓練數據,就成為AI在口音、方言及低資源語言的識別上,面臨的關鍵問題。全球各大AI巨頭和前沿的科技公司,都在積極致力于解決這個問題。一方面,對于投入市場的智能語音產品來說,隨著越來越多擁有不同口音的用戶與其進行交流,訓練數據持續積累,語音助手的識別能力會不斷提升。另一方面,在自身語音數據集的擴充上,一些公司也在嘗試采取各種“眾包模式”。“眾包”是一種分布式的問題解決和生產模式,企業通過互聯網,以自由自愿的形式,將工作分配給外部的大眾群體。比如,谷歌、亞馬遜等科技巨頭,以游戲的形式鼓勵用戶使用不同地區的方言進行交談;國內智能語音企業科大訊飛推出“方言保護計劃”,鼓勵用戶“留下鄉音”,共建“中國方言庫”;一些機構和企業呼吁齊力“獻聲”,打破巨頭公司的數據壟斷,建立開源開放的語音數據集等。這些方式實際上都是以眾包模式,獲取大量的語音訓練數據。“眾包模式的優勢在于,可以低成本、高效率地整合資源。”曹靜文表示。2019年底,百度數據眾包團隊承接了一項海外英文語音采集項目。某手機廠商為了提升海外各國英文喚醒詞的識別率,需要采集海外不同地域用戶的英文語音,包括亞太地區口音、英式口音、美式口音、印式口音及阿拉伯口音,需招募2000人,總數據量為20萬條。“這個項目的難點在于,要求采集的用戶口音遍布多國,交付時間短,且對用戶的性別、年齡段要求嚴格。”曹靜文說,“但我們通過百度覆蓋全國及全球22個國家的資源池,在短時間內招募到了全球多種口音用戶參與采集。”項目執行期間,恰逢春節假期和突發的新冠疫情,百度團隊通過國內線上和國外線下的采集方式,執行布點覆蓋9個國家,用時45天,按照客戶要求完成了全部數據交付。實踐證明,眾包模式的確是完善語音數據庫的一條有效路徑。但光有數據庫的支持還不夠。要提高某種語言的識別準確率,還需要對該語言的文化、語素、音素等有相當的研究。因此,要實現方言、口音的準確識別,也需要方言學者、音韻學者等專業人士的深度參與。此外,另一個現實情況是,一些方言和低資源語言,很難提供充足的數據資源以供采集。這種情況下,探索如何通過遷移學習,用較少數據量得到一個好的聲學模型,就成為當前一個熱門且極具價值的研究方向。
相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章