国产性xxx,六十熟妇乱子伦视频,国产不卡免费视频

首頁 > AI資訊 > 最新資訊 > 口音識別難倒AI：“人機交互”的未來還有多遠？

口音識別難倒AI：“人機交互”的未來還有多遠？

新火種 2024-12-06

讓機器“聽懂”人類語言，是“語音識別”技術自誕生起，就一直致力的目標。自20世紀中葉以來，經過近70年的發展，特別是隨著深度學習技術的引入，自動語音識別已取得突破性進展——在標準口音、常見詞匯、安靜環境的應用場景下，機器已然具備接近人類的“聽覺”能力。然而，一旦面臨口音、方言等情境，AI便顯得有些“力不從心”，哪怕你一字一句盡力向智能設備發出清晰的指令，得到的回答仍可能是：“對不起，我好像不明白你在說什么……”語音識別技術發展的終極目標，是實現自然、順暢的“人機交互”，正如同人與人的交互。如何解決橫亙在當下的這道難題，抵達人類暢想的智能未來，已成為全球智能語音技術公司共同面對的挑戰。全世界的AI，都栽在了“口音”上？口音、方言等問題，困擾著幾乎全世界所有的智能語音助手。2018年，《華盛頓郵報》曾與Globalme、Pulse Labs兩家語言研究公司合作，研究智能音箱的口音識別問題，結果顯示，谷歌智能音箱Google Home更容易“聽懂”美國西岸口音，對南部口音的識別準確率則要低3%；而亞馬遜Echo搭載的語音助手Alexa，識別東岸口音的準確率要比中西部口音高2%。更大的問題還在于對非本土口音的識別。研究顯示，對于非英語母語者，比如以西班牙語或漢語作為第一語言的人所說的英文，不論是Google Home還是Amazon Echo，其識別準確率都要比美國本土口音低30%，而拉丁裔和華裔是美國的兩大移民族群。這項研究結果引起了人們對智能語音助手“地域歧視”問題的廣泛關注。實際上，不只是Google Home和Amazon Echo，市場上主流的智能語音設備，在應對方言、口音等非標準語言場景時，表現都差強人意。在中國市場，這個問題同樣凸顯。所謂“十里不同音，百里不同俗”。作為一個幅員遼闊的多民族國家，我國56個民族使用的語言分屬五大語系，共有80種以上語言。其中，漢語的使用人數最多，分為標準語（普通話）和方言。根據教育部2019年發布的《中國語言文字概況》，漢語方言通常分為十大方言，各方言區內，又分布著若干次方言和許多種土語。部分方言之間差異很大，無法通話。為了消除語言隔閡，國家在全社會大力推廣普通話。然而，來自天南海北的人們，又賦予普通話五花八門的口音。帶有鮮明地域特色的口音，雖然對于人們的日常交流無傷大雅，有時還帶來些“塑料普通話”的樂趣，但你的智能語音助手就樂不起來了，甚至在它聽來，你說的極有可能是另一門語言……與此同時，用戶也很惱火：“難道普通話不過一級乙等，我就不配擁有智能音箱？！”口音、方言識別，到底難在哪兒？從理論上來說，只要有足夠的數據供機器進行訓練，那么讓AI識別任何一種語言或口音，都不是問題。以人機交互為目的的語音識別，是一個把聲學信號轉化為文本信息的過程。目前主流的語音識別框架主要由三個部分組成：聲學模型（AM）、語言模型（LM）和解碼器。可以形象地理解為：聲學模型負責找到對應的拼音，語言模型負責找到對應的句子。要得到一個出色的語音識別模型，需要有大量標注數據的訓練，簡單來說：首先，要進行語音內容的采集；其次，需要人工對這些語音進行標注，將語音內容轉寫成文本，讓算法能夠識別它；之后，算法再將識別后的文本內容與對應的音頻進行邏輯關聯。經過這樣大量、反復的學習訓練之后，機器就能實現語音識別了。“對于方言、口音的識別來說，最難的部分是在于語音數據的采集。”百度智能云數據眾包項目專家曹靜文表示。2019年9月，百度數據眾包團隊曾執行過一個藏語方言語音采集的項目。客戶為了提升藏語方言的識別和翻譯準確率，與百度團隊合作，招募870位藏民，整體采集87萬條藏語語音，覆蓋安多、康巴、衛藏等三個藏語方言區。藏語與漢語同屬漢藏語系，但與漢語這樣資源豐富的語言不同，藏語屬于低資源語言，目前全世界約有800萬人使用藏語，訓練數據稀少。曹靜文介紹，藏區采集工作面臨安全風險大、質檢難度高等挑戰。整個項目過程涉及諸多環節，從按需定制采集方案，到采集布點、人員招募、培訓、隱私授權，再到對采集流程、進度和項目風險進行把控，最后經過多輪質檢，在數據核驗通過后，才能最終交付確認。百度團隊在第一時間聯系到當地的資源布點，并派遣項目經理前往西藏、青海等地指導采集。最終該項目用時一個半月，實際交付數據92萬條，驗收合格率高于95%，滿足交付要求。“這個過程往往成本高昂、流程繁瑣，還存在諸多門檻。”曹靜文表示。應對“數據稀缺”，眾包模式受青睞語料庫的質量越高，語言模型越豐富，語音識別的準確率就越高。如何獲取大量訓練數據，就成為AI在口音、方言及低資源語言的識別上，面臨的關鍵問題。全球各大AI巨頭和前沿的科技公司，都在積極致力于解決這個問題。一方面，對于投入市場的智能語音產品來說，隨著越來越多擁有不同口音的用戶與其進行交流，訓練數據持續積累，語音助手的識別能力會不斷提升。另一方面，在自身語音數據集的擴充上，一些公司也在嘗試采取各種“眾包模式”。“眾包”是一種分布式的問題解決和生產模式，企業通過互聯網，以自由自愿的形式，將工作分配給外部的大眾群體。比如，谷歌、亞馬遜等科技巨頭，以游戲的形式鼓勵用戶使用不同地區的方言進行交談；國內智能語音企業科大訊飛推出“方言保護計劃”，鼓勵用戶“留下鄉音”，共建“中國方言庫”；一些機構和企業呼吁齊力“獻聲”，打破巨頭公司的數據壟斷，建立開源開放的語音數據集等。這些方式實際上都是以眾包模式，獲取大量的語音訓練數據。“眾包模式的優勢在于，可以低成本、高效率地整合資源。”曹靜文表示。2019年底，百度數據眾包團隊承接了一項海外英文語音采集項目。某手機廠商為了提升海外各國英文喚醒詞的識別率，需要采集海外不同地域用戶的英文語音，包括亞太地區口音、英式口音、美式口音、印式口音及阿拉伯口音，需招募2000人，總數據量為20萬條。“這個項目的難點在于，要求采集的用戶口音遍布多國，交付時間短，且對用戶的性別、年齡段要求嚴格。”曹靜文說，“但我們通過百度覆蓋全國及全球22個國家的資源池，在短時間內招募到了全球多種口音用戶參與采集。”項目執行期間，恰逢春節假期和突發的新冠疫情，百度團隊通過國內線上和國外線下的采集方式，執行布點覆蓋9個國家，用時45天，按照客戶要求完成了全部數據交付。實踐證明，眾包模式的確是完善語音數據庫的一條有效路徑。但光有數據庫的支持還不夠。要提高某種語言的識別準確率，還需要對該語言的文化、語素、音素等有相當的研究。因此，要實現方言、口音的準確識別，也需要方言學者、音韻學者等專業人士的深度參與。此外，另一個現實情況是，一些方言和低資源語言，很難提供充足的數據資源以供采集。這種情況下，探索如何通過遷移學習，用較少數據量得到一個好的聲學模型，就成為當前一個熱門且極具價值的研究方向。

Tags:

人工智能人機口音

免責聲明: 本文所包含的觀點僅代表作者個人看法，不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。交易和投資涉及高風險，讀者在采取與本文內容相關的任何行動之前，請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

口音識別難倒AI：“人機交互”的未來還有多遠？

財聯社12月6日電，國家知識產權局就《人工智能相關發明專利申請指引（征求意見稿）》公開征求意見。

國家信息中心發布《人工智能行業應用建設發展參考架構》

2024全國通用人工智能創新應用大賽總決賽暨頒獎典禮在安徽合肥圓滿舉辦

矢志不渝打好關鍵核心技術攻堅戰

美國近日再次宣布向中國臺灣地區出售武器，中方決定反制

熱門文章