AI能讀懂40種語言,15個語種拿22項第一,背后是中國團隊22年堅守
編輯:好困 桃子
【新智元導讀】怎樣才叫打破語言界的天花板?一次拿下15個語種22項第一,還讓機器讀懂40多種語言。能夠在多語種語音語言領域制霸的背后是中國團隊22年對頂天立地這一理念的堅守。一次拿下15個語種22項第一!
不,還有更厲害的:40多種語言全能讀懂,簡直打破語言界的天花板。
2次獲獎,科大訊飛在多語種方向上取得了大滿貫成績。

先是在世界權威多語言理解評測XTREME中,哈工大訊飛聯合實驗室(HFL)團隊以總平均分84.1分位列榜首,刷新世界紀錄。
后是在國際低資源多語種語音識別競賽OpenASR中,科大訊飛-中科大聯合團隊參加了所有15個語種受限賽道和7個語種非受限賽道,全部拿下了第一。
這一切得益于訊飛背后深深扎根的技術,還有其始終如一堅持頂天立地的初心,才能讓訊飛在多語種語音語言領域制霸。
第一的背后那么,現在機器的多語種理解能做到什么程度了?
就比如下面這段夾雜著英語、德語、西班牙語的句子吧。
The heat required for boiling the water and supplying the steam can be derived from various sources, most commonly from burning combustible materials with an appropriate supply of air in a closed space (called variously combustion chamber, firebox). In manchen Fllen ist die Wrmequelle ein Atomreaktor, Erdwrme, Solarenergie oder Abwrme von einem Verbrennungsmotor oder einem Industrieprozess. En el caso de modelos o motores de vapor de juguete, la fuente de calor puede ser un calentador eléctrico.
翻譯過來就是:
讓水沸騰以提供蒸汽所需熱量有多種來源,最常見的是在封閉空間(別稱有 燃燒室 、火箱)中供應適量空氣來燃燒可燃材料 。在某些情況下,熱源是核反應堆、地熱能、 太陽能或來自內燃機或工業過程的廢氣。如果是模型或玩具蒸汽發動機,還可以將電加熱元件作為熱源。
說到多語種的自然語言理解,谷歌舉辦的XTREME(Cross-Lingual Transfer Evaluation of Multilingual Encoders)評測可謂是十分具有代表性的。

/uploads/pic/20231101/pp.pdf data-track="32">與以往單語言自然語言理解評測任務不同的是,XTREME中的每一個任務都覆蓋了多種語言,其中許多都缺乏相關研究,如達羅毗荼語系的泰米爾語、泰盧固語系和馬拉雅拉姆語,以及非洲的尼日爾-剛果語系的斯瓦希里語和約魯巴語。
而評測的成績則是模型在多種語言上的理解能力平均指標,因此對系統模型的多語言理解與跨語言遷移能力要求大大提高。
具體而言,XTREME涵蓋了12個語系的40種語言,包括對不同層次的語法或語義進行推理的4大類9個任務:
句對分類:XNLI、PAWS-X(自然語言推斷)序列標注:UDPOS(詞性標注)、PANX (命名實體識別)閱讀理解:XQuAD、MLQA、TyDiQA(片段抽取型閱讀理解)句子檢索:BUCC、Tatoeba(跨語言文本檢索)
今年9月,微軟憑借最新的圖靈通用語言表示模型(T-ULRv5),成功刷新了XTREME榜單總分和4個單項任務的SOTA。
為了達到這一最新成就,微軟在大規模的多語言數據集上對模型進行了平行文本語料的訓練,并同時結合了最新的XLM-E研究和XTune微調技術。
由此誕生的T-ULRv5 XL有48個transformer層,隱藏維度大小為1536,24個注意力頭,多語言詞匯量為50萬個,總參數量達到22億,并且能夠處理94種不同的語言。

不過,在上個月的最新排名中,哈工大訊飛聯合實驗室(HFL)團隊以總平均分84.1分的成績再次刷新了這個記錄。
HFL的CoFe模型在四項任務中,有三項都超過了微軟T-ULRv5 XL模型創造的記錄,另外一項則與其持平。

對此,哈工大訊飛聯合實驗室提出了三項技術,從而讓模型具有多語言理解與跨語言遷移能力。
第一,加入了自主研發的跨語言對比學習技術,鼓勵模型學習不同語言中的語義相似性。
CoFe利用多語言的同義句對作為正樣本,易混淆與反義句對作為高難度負樣本,以對比學習和分類任務為訓練目標,讓模型比較與學習不同語言文本背后的語義。

在上圖的例子中,對于源語言(中文)中的句子A「所有人都看著他」,以英文中的同義句B「All eyes turned to him」為正樣本,法語中的反義句C「Il n'a pas attiré l'attention」為高難度負樣本,其他句子作為普通負樣本訓練模型,達到讓模型習得跨語言理解句子語義的目的。
第二,利用知識蒸餾技術進行自監督學習和知識遷移,進一步提升了模型在各個語言上效果的穩定性。
知識蒸餾技術除了可以用于模型壓縮與加速,對提升模型的性能與穩定性也有很大幫助。因此,CoFe從多個角度對其進行了開發利用:
通過自監督訓練,讓模型自我蒸餾,提升穩定性;多語-單語的多到一知識遷移。所謂三人行必有我師,讓多語言學生模型從多個單語言教師模型學習知識,博采眾長;多語言多模型蒸餾。將多個多語言教師蒸餾至單一模型,從而提供更優的教師指導信號。
第三,融入細粒度的語言學特征,幫助模型克服訓練不足的困難,解決低資源語言學習不充分的問題,同時使之適應不同語言的形態學特點。
例如對于一些書寫系統比較特殊的低資源語言,CoFe中引入了額外的分詞系統,以幫助模型在少量數據精調下更迅速地掌握理解該語言的能力。
從而讓機器可以在少量其他語言語料的情況下,通過「類比」學會這門語言,減少了收集語料、語音標注等大量工作。

在另一個更加關注小語種語音技術的OpenASR比賽中,科大訊飛-中科大語音及語言信息處理國家工程實驗室(USTC-NELSLIP)聯合團隊參加了所有15個語種受限賽道和7個語種非受限賽道,并全部取得第一名的成績。

小語種語音數據難以獲取不僅表現在語音的數據量上,更表現在語料豐富性,發音詞典大小以及標注準確度上。對于許多低資源語種,姑且不說上萬小時語音數據,就連100小時標注數據的獲取也舉步維艱。
為此,世界語音學術領域的權威組織美國國家標準與技術研究院NIST(National Institute of Standards and Technology)在2020年底,舉辦了OpenASR (Open Automatic Speech Recognition) 比賽。
今年更是將語言增加到了15個語種,涵蓋受限賽道(Constrained condition)、受限附加賽道(Constrained Plus)和非受限賽道(Unconstrained Condition)。
此外,比賽中各個語種數據主要來自電話信道,口語化特征十分明顯,對話風格非常自由,也使得語音識別難上加難。

團隊在比賽中提出了基于語音和文本統一空間表達的半監督語音識別框架(Unified Spatial Representation Semi-supervised ASR,USRS-ASR),獲此佳績也驗證了該算法良好的推廣性。

受限賽道15個語種的成績
在受限賽道上,由于每個語種只有10小時語音數據,如何使用少量文本數據,利用無監督的方法增加語音訓練數據的多樣性至關重要。
團隊運用Flow-TTS語音合成進行訓練數據擴增,并使用語音屬性解耦技術保證合成語音的多樣性。
結果顯示,使用上述無監督數據擴增方案,能夠穩定、顯著地提升低資源語音識別任務的效果。

非受限賽道7個語種的成績
而在非受限賽道上,雖然可以利用公開的語音數據,但數據總量仍只有數百小時,而且語音數據和文本數據的量級差距十分明顯,這對于端到端識別框架來說,弊端更為明顯。
為了在端到端統一框架下,充分使用少量語音數據和海量文本數據,團隊提出了基于語音和文本統一空間表達的半監督語音識別框架USRS-ASR:
文本掩碼語言模型任務、合成數據語音識別兩個目標,兩個任務聯合訓練以充分利用海量無監督文本;共享語言解碼模塊,實現了語音和文本隱層表達空間的統一,大大緩解了低資源語種的數據稀疏問題。
讓機器能聽會說,能理解會思考的這條路上,科大訊飛一直攀登22年之久。
一次拿下15個語種22項第一,讓機器可以讀懂40種語言等重大成果,都體現了訊飛在人工智能領域一直有著頂天立地的追求和堅守。
那么,科大訊飛為什么擔起這個角色?
人工智能的發展不在僅限于如何讓AI的一項技能訓練到爐火純青的境界,而在于如何讓其更智能,也就是能夠抵達通用人工智能。

而當前,人機交互是大勢所趨。萬物互聯,語音便成為人機交互關鍵入口,包括語音輸入、語音搜索、語音交互等技術已經成為手機、車載、玩具等智能產品的標配。
據統計,2020年即便在疫情情況下,我國電子及汽車類出口總額也超過了3000億美元,這些出口的智能設備對多語種技術有著強烈的需求。
此外,「一帶一路」的建設依賴語言互通,多語種翻譯技術價值凸顯。
近年來,多語種語音語言技術涉及國家安全信心等重大方向,成為Nuance、谷歌等科技巨頭競相布局的關鍵技術方向。
再加上國際形勢不確定,技術競爭十分激烈,因此亟待解決國內自主研發問題,打破多語種技術被卡脖子問題。
在這樣背景下,科大訊飛擔起了這個重任,在大規模多語種語音語言技術的研發上投入大量精力,期望能夠破解多語種技術難題。
近一年來,訊飛在重點語種上進行不斷的迭代演進,并在語音識別,語音合成,圖文識別,機器翻譯這些方面取得了一系列新的進展。
比如,24個語種的合成自然度MOS分超過4.0,35個語種聽寫場景語音識別正確率超過90%,18個語種文檔拍照場景正確率大于90%,36個語種口語場景人工分忠實度大于4.0。
領先的多語種語音語言技術有力支撐了科大訊飛智能硬件產品創新及應用。
就拿多語種翻譯來說,2016年發布的訊飛翻譯機開創了AI翻譯機新品類,先后推出了4代,覆蓋全球近200個國家和地區,2019年提供的翻譯服務超過5億人次。
今年5月份又發布了雙屏翻譯機,可以做到精準實時的翻譯,而且有很多語種選擇。
它光是中外互譯就多達60種,還有5種中文方言與英語互譯,2種難懂的民族語言(藏語和維吾爾語)也能與普通話互譯。

用戶可以一邊說另一邊就能翻譯,只需按下時說話,松開即可翻譯,能做到0.5秒疾速響應。
此外,訊飛的智能錄音筆,也可以支持10個語種的語音轉寫和分離。
就拿SR302來說,不僅支持粵語、重慶話、貴州話等12種方言轉寫,同時還可進行英語、日語、法語等10大語種的轉寫。

在多語種語言服務方面,訊飛聽見同傳系統已經能夠支持9個語種的實時轉寫和翻譯字幕上屏。
前段時間,在中國駐歐盟使團與歐盟農業總司共同舉辦中歐地理標志產品推廣視頻交流會上,訊飛聽見同傳全程提供轉寫技術服務,展現了其不俗實力。
目前,科大訊飛在多語種技術及應用,也獲得國家領導和社會業界的廣泛認可。
并成為北京2022年冬奧會和冬殘奧會官方自動語音轉換與翻譯獨家供應商,助力打造人類歷史上首個信息溝通無障礙的奧運會。
一路走來,正是對源頭技術的不懈攻堅,讓訊飛在語音合成、語音識別、機器閱讀理解等多項國際核心技術賽事上獲得冠軍,并樹立了人工智能發展史上的多個里程碑。
正如科大訊飛董事長劉慶峰所說,人工智能發展要頂天立地。
現在,訊飛不斷踐行這一「頂天立地」理念,未來還有很長的路要走,還有更高的山峰等著攀登。
參考資料:
/uploads/pic/20231101/pgv_ref=apub style="text-align: left" data-track="189">https://www.microsoft.com/en-us/research/blog/microsoft-turing-universal-language-representation-model-t-ulrv5-tops-xtreme-leaderboard-and-trains-100x-faster/?mc_cid=3d43a11ddd
https://sites.research.google/xtreme
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。