首頁 > AI資訊 > 最新資訊 > 打造粵語語料庫,讓AI賦能廣府文化

打造粵語語料庫,讓AI賦能廣府文化

廣州日報    2024-12-19

  廣府新語對話

  粵語作為漢語方言,是粵港澳地區、東南亞乃至全球華人的通行語言之一。如今,方言正在成為大語言模型應用探索的關鍵領域,建設多模態通用粵語語料庫是廣州的新使命。廣州日報《理論周刊》邀請權威專家學者,聚焦粵語融合人工智能創新、為弘揚廣府文化點燃新引擎,展開探討。

  文/廣州日報評論員楊博

  采訪嘉賓

  荀恩東北京語言大學語言資源高精尖創新中心主任、語言智能研究院院長、教授

  齊佳音廣州大學網絡空間安全學院教授、粵語語料庫建設與大模型評測重點實驗室主任

  廣州日報《理論周刊》:數字化浪潮洶涌,粵語面向世界傳播有哪些痛點?

  荀恩東:方言所涉及的問題主要有四類。一是研究類的,比如研究方言的地域特點、歷史變遷。二是應用類的,指借助信息技術、用方言過好語言生活,比如利用計算機合成方言的發音,或把方言轉化為通用語言文字。三是保護類的,任何一種方言都代表一種文化、一種歷史和一群人,但方言保護在世界范圍內并不樂觀。粵語經廣東人移民,在海外的發音和表意已和廣府地區大不一樣,需要通過采樣,按照其真實的分布保護起來。四是展示類的,比如建立線上線下的語言博物館,以供展示。

  在大語言模型時代,說方言的人將享受技術進步的成果。從應用方言的角度來看,利用大語言模型,能對方言進行語音合成、語音識別和翻譯。方言的應用更多的是接口類的問題,也就是把方言從語音和文字層面轉換為通用語言,這是當前的痛點。換言之,把方言轉換為通用語言文字,大語言模型本身就能理解這種方言,并具備了通用語言的能力。此外,就合成來說,如果能利用計算機把普通話轉換為方言,那么計算機就能以地道的方言發聲。

  齊佳音:語言是文化的載體,高資源語言能夠借助大語言模型(Large Language Models, LLMs, 以下簡稱“大模型”)的規模效應進一步強化其影響力,低資源語言卻要面對大模型帶來的一些負面效應。我國國家通用語言文字在互聯網場域是高資源語言,但是我國各地的方言卻是低資源語言。如果不提高方言在網絡世界中資源的占有量和獲取的便捷性,那么大模型的應用將對方言的生存構成前所未有的威脅。

  粵語在全球范圍內有著重要的影響力,已成為使用最廣泛的漢語方言之一,全球有上億人群在日常生活中使用粵語,但是在網絡世界中可供全球共享的專業化粵語數字資源庫并不豐富?!盎浾Z語料庫建設與大模型評測實驗室”致力于服務人工智能應用的粵語語料庫資源,這對廣州加快實現老城市新活力、“四個出新出彩”,對保障國家或區域的語言文化安全,都具有十分重要的意義。

  廣州日報《理論周刊》:法國作家雨果說:語言和太陽都不會停住的,到了語言固定的一天,它就死了。重點實驗室作為底層基礎設施,將如何為保護粵語“活化石”、解鎖傳統與現代融合的密碼提供支撐?

  荀恩東:通過大語言模型,把沉寂的、消亡或半消亡的方言激活,就能使世人知曉、了解這種方言,甚至可以讓現代人與古人對話。比如,利用人工智能技術,復活失傳的文字和語音,并賦予其解釋,我們就能和古人對話。此外,利用人工智能技術保護方言,也有利于語言生活的多樣化。雖然我們倡導使用通用語言文字去交流,但我們也倡導語言的多樣化?;罨?、保護方言,可以促進使用方言的人群可持續地發展,這也有利于中華文明在語言生活方面實現多樣化發展。比如,利用大語言模型,幫助不同方言人群的溝通。

  齊佳音:粵語語料庫建設與大模型評測重點實驗室將通過四個方面的研究,來為粵語文化插上AI的翅膀。一是粵語文化精神標識體系構建。這是整體研究的基礎,旨在凝練粵語文化精神標識體系的核心要素,將粵語文化放在中華文化大背景下進行論證,構建中國文化的粵語文化標記系統。二是通用粵語語料庫建設,為粵語的人工智能應用提供“數據之源”。廣泛匯集全球粵語語料,特別是對國家主流媒體沉淀的粵語數據資源進行語料加工,完成大規模通用粵語語料庫建設。三是大模型粵語交互質量評測。這是在前兩項研究基礎上的應用研究,為所有擁有粵語服務的大模型提供交互質量評測。該平臺也可以單獨使用,為粵語的文本、圖片和視頻提供安全合規等方面的內容檢測服務。四是大模型粵語言語交互質量提升,旨在基于評測結果,建立大模型粵語全生命周期的言語質量提升優化體系,最終形成一套系統的粵語AI生成內容質量評測及改善的對外服務系統。

  重點實驗室將通過開放開源的模式形成良好的政產學研用生態,形成面向人工智能應用的粵語文化數據資源基礎服務能力以及面向人工智能粵語服務的內容安全合規評測能力,助力粵語數據化、資源化、服務化和產業化。

  廣州日報《理論周刊》:今年6月,國內首個支持30種方言自由混說的語音識別大模型——星辰超多方言語音識別大模型的發布,打破了單一模型識別特定單一方言的困境。那么,如何看待廣州建設重點實驗室、研發本地語言產品的重要意義?

  荀恩東:從政策制定、數據采集、應用開發、成果落地等方面來看,方言的發源地建立語料庫具有多方面的優勢。廣州建設重點實驗室、研發本地語言產品,不僅有政策支持,也有社會需求。在廣州本地組織應用開發,有著豐富的場景。立足于粵港澳大灣區,廣州面向華人華語世界來做這件事情,對保護和傳承好粵語、維護文明的多樣性具有特殊的意義。

  齊佳音:當前,大模型多語言服務已成發展趨勢,如ChatGPT、豆包等都已經支持一百多種語言的文字交互,盡管多數的語言交互質量還不盡如人意。其中的根本原因還是粵語語料庫的質量和規模尚無法滿足產業界的需要。

  廣州專注于支撐粵語人工智能應用的粵語語料庫建設,優勢有三。一是得天獨厚的粵語文化資源。依托廣州市來建設重點實驗室可以就地取材,以最低的成本最大化用好粵語資源。二是強強聯手的跨學科合作資源。三是高效配合的機制創新優勢。譬如,采用雙領導架構,由廣州大學與廣州市社會科學界聯合會共建;設立由技術首席專家和語言首席專家擔任指導的雙首席專家制度。這些組織架構設置,有利于聚集各方資源,保障重點實驗室建設。

(文章來源:廣州日報)

相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章