首頁 > AI資訊 > 最新資訊 > AI識別方言困難!專家探索用算法度量方言差距,提議構(gòu)建統(tǒng)一框架

AI識別方言困難!專家探索用算法度量方言差距,提議構(gòu)建統(tǒng)一框架

新火種    2023-11-02

·確定一系列核心方言并為其建立自動語音識別(ASR)模型,當(dāng)一種未知方言出現(xiàn)時,分析它距離這一系列核心方言中的哪些方言較近,就可以用合適的核心方言ASR模型識別出這種未知方言的內(nèi)容。

·方言應(yīng)用的窗口期大約是二三十年。AI識別方言的實際困難大,我國方言體系之間甚至每一類方言內(nèi)部的地域差異都普遍存在,各地方言常以口語形式流傳,缺乏對應(yīng)文字,并且難以收集,可用于模型訓(xùn)練的方言語料數(shù)據(jù)偏少。

信也科技算法科學(xué)家倪博溢。

10月24日,第八屆信也科技杯算法大賽總決賽上,9支人工智能隊伍角逐,探索利用AI技術(shù)識別和還原語音數(shù)據(jù)中的方言信息,衡量不同方言之間的距離,推動智能語音識別技術(shù)發(fā)展。

方言距離是一個開放問題,例如人們通常在直覺上認(rèn)為上海話與杭州話之間的距離比上海話和北京話之間的距離更近。從實用性來講,距離越接近的兩種方言,其自動語音識別引擎在交叉使用時也可以得到更好的效果。如此一來,利用少數(shù)核心方言的自動語音識別引擎來轉(zhuǎn)寫鄰近的各種未知方言,就是方言ASR識別問題的潛在解決方案之一。

金融科技集團(tuán)信也科技(NYSE:FINV)首席科學(xué)家王春平表示,本次大賽的目的是尋找數(shù)據(jù)驅(qū)動的最佳算法和模型,更好地理解方言和口音特征,提升用戶體驗;長期來講,以核心方言來支持所有方言轉(zhuǎn)寫,找到最優(yōu)的核心方言布局。

度量方言間的距離

我國幅員遼闊,人口眾多,方言情況十分復(fù)雜,方言體系之間甚至每一類方言內(nèi)部的地域差異都普遍存在。這導(dǎo)致在客戶服務(wù)中,語音交流常常會遇到方言或口音挑戰(zhàn)。

要將客服人員和客戶溝通的過程中產(chǎn)生的大量語音數(shù)據(jù)進(jìn)行完善的分析質(zhì)檢,就需要語音、NLP(自然語言處理)算法進(jìn)行批量的處理、分析、質(zhì)檢。通常質(zhì)檢任務(wù)的第一步算法就是ASR轉(zhuǎn)寫。

但信也科技算法科學(xué)家倪博溢表示,ASR轉(zhuǎn)寫存在的一個實際問題是,通用ASR模型建立在普通話數(shù)據(jù)基礎(chǔ)上,無法對方言進(jìn)行準(zhǔn)確轉(zhuǎn)寫。目前,商業(yè)解決方案還不能滿足大部分方言的轉(zhuǎn)寫,大多數(shù)可用的漢語ASR模型要么不支持方言,要么只覆蓋數(shù)量有限的方言。

理論上,最理想的解決方案是為每一種方言建立ASR引擎,只要有語音和對應(yīng)的文字,就可以訓(xùn)練出每一種方言的模型,但這種方式成本高昂、耗時耗力。為一種方言單獨建模,往往需要考慮該地區(qū)的方言是否較為統(tǒng)一、地區(qū)經(jīng)濟(jì)和科研實力是否允許。

倪博溢認(rèn)為,工程上可行的方式是,首先確定一系列核心方言并為其建立ASR模型,當(dāng)一種從未被AI識別過的方言出現(xiàn)時,分析它距離這一系列核心方言中的哪些方言較近,就可以用合適的核心方言ASR模型識別出這種未知方言。但是,“一種方言跟另一種核心方言究竟要多相似,才能用這種核心方言作為對照去識別其他方言,這是需要抉擇的?!币虼硕攘坎煌窖灾g的距離是解決問題的關(guān)鍵。倪博溢表示,研究方言距離問題有助于進(jìn)一步探索如何從語音層面建模方言、抽取方言特征、分析方言形成和演化機(jī)理,其結(jié)果也可以和傳統(tǒng)方言分類方法做合理性的相互印證,并服務(wù)于更廣泛的研究目標(biāo)。

第八屆信也科技杯算法大賽總決賽現(xiàn)場,選手在答辯。

那么方言之間距離的遠(yuǎn)近究竟要如何衡量?倪博溢表示,目前他們對方言的讀音進(jìn)行加權(quán)計算,得出兩種方言在0-100之間的數(shù)值,代表距離遠(yuǎn)近,這是一個相對客觀的指標(biāo)。但判斷不同方言的距離還有其他方式,此次信也科技杯算法大賽也是為了在思想碰撞中尋找衡量方言距離的優(yōu)秀算法方案,拓展商用ASR接口的模型適用范圍,推動核心方言引擎的布局,提高方言識別準(zhǔn)確率。

方言底層邏輯+大模型

今年5月,Meta推出大規(guī)模多語言語音 (MMS) 模型,將文本轉(zhuǎn)語音和語音轉(zhuǎn)文本技術(shù)從大約100種語言擴(kuò)展到1100多種,還可以識別4000多種口頭語言。在國內(nèi),抖音上線了地方方言自動翻譯功能,“一鍵”可將粵語、閩語、吳語、西南官話、中原官話等方言視頻轉(zhuǎn)化出普通話字幕??拼笥嶏w的方言識別語種擴(kuò)充至23種,探索智能語音助力方言保護(hù)的路徑。

語言是人類的特有屬性,也是文化的載體。有的語言甚至只有少數(shù)幾人掌握,一旦這些老人去世,這種語言也就消失了。語言一旦消失,文化無處可尋。

“方言是一個寶庫,里邊蘊含的東西太多了。如果只剩下普通話,就缺乏了語言的樂趣。但目前方言正在消失,方言應(yīng)用的窗口期大約是二三十年,AI識別方言的實際困難很大,經(jīng)濟(jì)價值不大,所以很少有人愿意推動做這件事。”倪博溢表示,各地方言常以口語形式流傳,缺乏對應(yīng)文字,并且難以收集,可用于模型訓(xùn)練的方言語料數(shù)據(jù)偏少。今天已經(jīng)擁有了互聯(lián)網(wǎng)數(shù)據(jù),如果能夠取消數(shù)據(jù)獲取的壁壘,將語音數(shù)據(jù)開放成公共資產(chǎn),對研究者而言是一大利好。

盡管信也科技金融業(yè)務(wù)帶來的客服語音積累了方言語料,但從大量語音中提取方言數(shù)據(jù)又是另一個挑戰(zhàn),從10000小時的語音數(shù)據(jù)中找出100小時的方言猶如大海撈針。倪博溢表示,識別方言的距離有助于解決這一難題,但這只是AI識別方言的解決方案之一,仍有其他解決方案可以探索。

在倪博溢看來,AI識別繁多的方言,不能依靠逐個擊破,而是要研究方言的底層邏輯和特點,構(gòu)建統(tǒng)一識別框架。同時大模型的預(yù)訓(xùn)練可以自我學(xué)習(xí),探索借助大模型技術(shù)提高識別準(zhǔn)確性。倪博溢提出一種設(shè)想,由于音標(biāo)是固定的,能否利用國際音標(biāo)序列標(biāo)注各種方言,構(gòu)建語言模型識別方言,他認(rèn)為這或?qū)⒔鉀Q絕大多數(shù)方言沒有對應(yīng)文字的問題。他也期待通過這次比賽建設(shè)長榜賽題(即持續(xù)性常態(tài)賽題,參賽者可長期打擂臺),支持社區(qū)共建語音語料和模型算法,以較低成本服務(wù)于方言保護(hù)。

相關(guān)推薦
免責(zé)聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認(rèn)可。 交易和投資涉及高風(fēng)險,讀者在采取與本文內(nèi)容相關(guān)的任何行動之前,請務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。

熱門文章