首頁 > AI資訊 > 最新資訊 > 最難方言溫州話被攻克!中國電信語音大模型支持30種方言,這題GPT-4o可不會做啊

最難方言溫州話被攻克!中國電信語音大模型支持30種方言,這題GPT-4o可不會做啊

新火種    2024-05-29

更適配中文的語音大模型來了——

來自中國電信人工智能研究院,AI領域Fellow大滿貫科學家李學龍帶隊,發布首個能聽懂30多種多方言混說的大模型。

號稱最難方言、“魔鬼的語言”的溫州話,也不在話下。

還有超自然的語音生成能力。

在2024智算云生態大會上,星辰語音大模型被官宣發布并開源。

最難方言溫州話被攻克!中國電信語音大模型支持30種方言,這題GPT-4o可不會做啊

要知道,當前語音模型開源開放本來就少,而針對方言更是特定方言特定模型。

開源且支持30種方言,有且只有星辰這么一個。

作為首個完成大語言模型的研發且開源的央企,中國電信現在又在語音模態領域秀起了肌肉。

首個支持30種方言混說語音大模型

那就來說道此次發布的能支持最多方言的語音大模型,核心功能主要體現在識別上——

它打破了單一模型只能識別特定單一方言的困境,可同時識別理解粵語、上海話、四川話、溫州話等30多種方言。

實際上,它早已獲得國際權威賽事的能力認證,以及多個實際場景中落地。

它在國際語音頂會INTERSPEECH2024離散語音單元建模挑戰賽上,星辰語音識別大模型斬獲了語音識別賽道冠軍。

同時在NIST(美國國家標準與技術研究院)舉辦的低資源粵語電話Babel語音識別任務上,取得業內最優結果。

并且已經在智能客服、12345熱線等場景中落地。

據介紹,星辰語音大模型已在北京、福建、江西、廣西等地萬號智能客服系統試點應用。它能秒懂方言然后服務用戶,日均處理約200萬通電話。

智能客服翼聲平臺也接入了星辰大模型的語音理解和分析能力,實現31省全覆蓋,每天處理125萬通客服電話。

傳統語音識別模型的處理方式,是針對一種方言單獨訓練一個模型。

這樣一方面對運營維護提出了不小的挑戰。這就意味著通用語音客服場景下, 需要維護多個方言模型。

另一方面,很難觸達更小眾的方言,他們數據量本身比較少,標注成本非常高,增強合成挑戰大,很難單獨訓練出比較好的識別效果。

但中國電信不僅發布并開源,性能水平位于業內前列,而且還十分落地,那么星辰語音大模型又是如何煉成的。

我們知道,這背后不僅是大模型訓練,還有前期數據準備,后期推理加速等等一整套系統工程,對于企業是技術工程以及資源等綜合能力體現。

在官方披露中,我們看到這些信息。

首先在大模型訓練上,采用了這兩個關鍵技術:超大規模語音預訓練和多方言聯合建模。

超大規模語音預訓練。

Scaling Law成為共識,那么在大規模參數以及多樣性數據集情下,很可能就會出現模型預訓練坍縮問題,即輸出生成質量下降,變得重復、無意義以及缺乏多樣性。

為了解決這一問題,他們提出了“蒸餾+膨脹”聯合訓練算法,最終實現80層模型穩定訓練。據介紹,這一算法是業內首創。

多方言聯合建模。

基于離散語音表征,語音識別大模型通過“從語音到token再到文本”的建模新范式,將推理時語音傳輸比特率降低數十倍。

另外,聯合建模使得模型學習到了各個方言之間的共性,顯著降低了對新方言標注數據的需求。實驗顯示,有標注數據需求量降低為1%。

這是星辰語音大模型能率先實現單一模型識別30種方言混說的關鍵。

這直接解決了部分方言語音難獲得、標注成本高昂的難題。傳統那種只針對單一方言的識別方言,可能需要十萬小時的標注數據量才能實現比較好的效果。但這顯然并不適合那些小眾方言的識別場景。

而在數據準備上,中國電信AI研究院透露,他們已構建超30種、超30萬小時的高質量方言數據庫。

在算力基礎設施上面,在官宣首個大模型開源時就曾披露過,中國電信作為國內最早進入云計算領域的運營商,積累了大量算力建設和算力調度的核心技術。

有數據算力資源、有技術能力和場景積累,再加上大佬把持,中國電信語音大模型由此得以煉成。

但是大模型多模態,視覺模型正熱門的當下,中國電信為何選擇方言這個看似“冷門”的賽道發力語音大模型呢?

為什么專為方言推出語音大模型?

在公開采訪中,中國電信對這一問題做出了回應。

首先,技術價值驅動。

宏觀上看,我國是當前世界上語言資源更豐富的國家之一,擁有五大語系130多種語言。但是當下很多方言正面臨著瀕危或消亡,有數據統計,有25種使用人口不足千人,有的語言只剩下十幾個人甚至幾個人會說,這對方言的保護、文化的傳承提出更大挑戰。

在具體到我們日常的溝通。有這樣一組數據值得關注。當前全國仍有約20%的人口尚未普及普通話,溝通效率比較低。這當中甚至還更多聚集在老年人群體,他們還面臨著無法觸及信息化服務困境。

最難方言溫州話被攻克!中國電信語音大模型支持30種方言,這題GPT-4o可不會做啊

大模型的技術范式,面對這兩大剛需場景,提供了天然的解決出口。

大模型本身就是數據驅動,它能夠更高效、系統地對方言進行整理歸納,是方言保護和傳承的天然容器,以及極強的泛化能力。一個通用語音模型能同時實現多個任務,比如多語言/多方言語音識別、跨語言語音翻譯、語種/情緒識別等,能夠輕松覆蓋多語種溝通交流。

為了進一步讓技術普惠的加速,電信選擇了開源的方式。

中國電信人工智能研究院語音大模型負責人李杰進一步解釋了這方面的原因。

其次,業務需求導向。

作為頭部運營商,中國電信最核心的業務場景就是智能客服。“每天都能接到幾百萬通電話,其中很大比例是方言或者有方言口音的普通話。”真正實踐中他們發現,人們都還是更喜歡用方言來進行溝通。

因此語音大模型一面世,就率先落地到這一場景中去創造價值,逐步覆蓋更多更廣的地區之中。

除此之外,它還在對外輸出能力以及更多場景賦能。

比如,大家所熟知的12345市場熱線這個公共服務平臺。據介紹,語音大模型已經賦能多地市的12345平臺讓每個客服人員聽懂30種方言,更快地理解更多市民需求。

前段時間,語音大模型還應用到了防范校園霸凌中,在某小學防霸凌項目中,它采用億級參數進行推理,可在嘈雜環境下精準識別關鍵詞進行預報警。

還有它賦能的數字人,已經在多個展會亮相工作,曾在中國國際大數據產業博覽會亮相,與康輝同臺主持。

最后,戰略部署。此舉正是中國電信「通用智能」戰略部署一環。

而他們一早也提出了自己大模型領域布局:1+1+1+M+N:

最早在2022年12月就已啟動了語義大模型的研發,去年數字科技生態大會上,他們發布了千億參數星辰語義大模型,并相繼開源7B、12B、52B大模型。

最難方言溫州話被攻克!中國電信語音大模型支持30種方言,這題GPT-4o可不會做啊

如今,隨著包括語音大模型在內的發布,中國電信其實已經形成語義、語音、視覺以及多模態一整個全模態完備的大模型布局。

而他們最終的目標也很明確:

成為領先的通用人工智能服務提供商。

中國電信在大模型的布局

隨著端到端多模態大模型GPT-4o的亮相,通用多模態更成為一種共識趨勢。而GPT-5也被爆料說將精通更多小語種和方言……

這實際與中國電信本身技術戰略不謀而合。

如果討論國產大模型玩家,中國電信一定是最為特殊的那個——

不是創業公司,也并非互聯網大廠,卻最早入局,而且進展頻頻劍指通用,在業內影響不小。

跟創業公司不同的是,電信有著天然的需求驅動和應用場景。有錘子也有釘子。

只是在純自研星辰大模型亮相之前,大眾對于電信的技術感知并非那么強烈。

實際上,他們背后搭建了一支700人的AI研發團隊,70%以上來自頭部互聯網和AI明星企業。再加上,AI領域Fellow大滿貫科學家李學龍加盟,出任電信CTO,并組建中國電信人工智能研究院(TeleAI)。

最難方言溫州話被攻克!中國電信語音大模型支持30種方言,這題GPT-4o可不會做啊

基于這樣的人才儲備,他們很快同大模型頭部選手們站在同一陣營,并且落地速度賊快。

而同互聯網企業相比,作為國產運營商的電信,其實優勢則更為明顯了。

一方面,運營商有豐富的網絡和算力資源,相對來說訓練、推理成本更低。尤其在大模型的建設方面,更容易發揮規模的優勢。

目前,他們已打造基礎模型+行業模型+應用模型的布局,除了自研本身,還采取生態合作的方式,聯合頭部生態構建了涵蓋教育、政務、應急等20多個行業大模型,覆蓋全行業500多個應用場景。

另一方面,有龐大的客戶群體作為落地基底,以及豐富的2C、2H、2B的信息服務經驗,能夠更快地推動大模型在各個領域的落地,形成新的經濟增長點。

這當中數據累積也構成了他們的核心壁壘。目前,他們已經完成了超500TB文本數據、12億張圖文數據、PB級視頻數據的積累。

這些優勢使運營商有動力在人工智能領域加大投入,驅動技術進步。

也正因這樣的技術和經驗底氣,他們才能早早確立目標并且有著清晰的時間線規劃。

就像最新語音大模型,他們就計劃實現首個支持國內333個地市方言和主要少數民族語言(維藏等)的語音大模型。

關于語音大模型的進展,值得期待。

而對于AI的落地,中國電信值得關注。


相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章