首頁 > AI資訊 > 最新資訊 > 合合信息攜手高校,發布業內首個古彝文編碼「大字典」

合合信息攜手高校,發布業內首個古彝文編碼「大字典」

新火種    2023-11-02

“烏蒙山連著山外山,月光灑向了響水灘。”近期,一首名為《奢香夫人》的歌曲在各大短視頻平臺爆火。奢香夫人是一位彝族“巾幗英雄”,這首同名歌曲早在2009年便已發布,突然的“翻紅”,不僅體現了大眾對于少數民族文化高漲的興趣,也見證著優秀的傳統文化不息的生命力。

文字是文化的重要載體,古彝文承載了深遠的彝族歷史內涵,蘊含著豐富的文化信息。

近期,合合信息聯合上海大學、華南理工大學發布業內首個古彝文基礎編碼數據庫,該項目由合合信息與上海大學社會學院、華南理工大學文檔圖像分析識別與理解實驗室共同推進,針對現有的《西南彝志》、云貴一帶字符,以智能圖像處理、智能文字識別等AI技術開展統一編碼,古彝文在數字社會中從此有了“身份證號碼”。

七萬多個字符,“濃縮”于精簡的字典

過去,古文字主要通過人工識別、校正和進行文獻編撰,工作量繁多且效率低下。

而近年來,以深度學習為代表的 AI 技術發展,為古文字識別提供了高效的工具,極大地提高了古代文獻和文字數字化進程的速度和效率,本次古彝文基礎編碼數據庫的發布,將成為古文字數字化的重要成果之一。

合合信息攜手高校,發布業內首個古彝文編碼「大字典」

單一古彝文可表達多個釋義(圖源:《滇川黔桂彝文字集》 )

當前,古彝文數字化方面的成果相對較少,其原因之一是古彝文字符集龐大,且缺乏成熟的手寫樣本庫。據《滇川黔桂彝文字集》中所有字符的合計,古彝文和現在仍然使用的各地的彝文,總數多達87046字,對如此龐大的字符集進行分類非常困難。另一方面,在彝文的發展過程中,由于種種因素,導致異體字、變體字特別豐富,字符和釋義“一對多、多對一”是常態。古彝文手寫體的隨意性、多樣性等,都給古彝文的識別帶來了極大的挑戰。

基于上述情況,合合信息與華南理工大學共同成立的文檔圖像分析識別與理解聯合實驗室,聯合上海大學社會學院組建研究團隊,共同解決數據庫建設中的學術性、技術性難點。

項目技術負責人、華南理工大學電子與信息學院教授金連文表示,原生態彝文此前沒有被系統性地進行數字化編碼,古彝文沒有公開數據集,標注困難,所以從最初語料的收集開始,就需要做大量的前置工作。再者,古彝文異體字繁多,每個字的異體寫法少則兩三種,多則幾十種,且字體間風格差異大。因此,建立一個專門的數據庫,通過基礎編號將不同樣式歸納,才能“破解”古彝文“一對多”的關系,解決文字查詢問題。

合合信息攜手高校,發布業內首個古彝文編碼「大字典」

古彝文典籍編碼、識別過程(圖源:西南彝志)

在對7萬6千字符的樣本進行訓練后,團隊成功建立了包含上千個古彝文基礎編碼的數據庫。通過API數據接口等形式,該數據庫有望幫助高校研究人員、文化工作者、興趣愛好者等人群快速找到古彝文在字典中的讀音、漢語釋義、用法,如同“大字典”一般,幫助人們降低古彝文書籍、文獻閱讀的門檻。

“古彝文數據庫的發布并非一個最終的研究結果,而是一項非常重要的基礎性工作。”古彝文數字化項目發起人、上海大學人類學民俗學研究所講師邵文苑表示,基礎編碼的發布,意味著這些文字在數字社會里從此擁有了“身份證號碼”,能夠被更多地展現在網絡空間上,被更廣泛的人群看見、認識、研究。

AI 如何幫助人類降低古彝文閱讀難度?

構建古彝文“大字典”需要解決的首要問題并非文字識別,而是低質量的圖片資料處理。傳統的古彝文大多被記錄在巖書、布書、竹簡等,在潮濕的自然環境下難以完整保存,往往會變得模糊不清或殘缺不全。在資料文檔數字化的過程中,采用科技手段優化圖像質量問題是關鍵的一環。

在古彝文語料收集過程中,研究團隊選取的古籍圖片采集工具是合合信息旗下的智能掃描“掃描全能王”。

據了解,該產品中“智能高清濾鏡”功能基于 AI 技術及智能掃描引擎,可自動檢測圖像中存在的問題,并智能判定圖像的優化方式,一鍵處理模糊、陰影、手指、屏幕紋等干擾因素,減輕后續圖片處理工作,縮短內容識別、編碼的操作周期。

合合信息攜手高校,發布業內首個古彝文編碼「大字典」

掃描全能王“智能高清濾鏡”古籍掃描效果(圖源:西南彝志)

2022年5月,中共中央辦公廳、國務院辦公廳印發了《關于推進實施國家文化數字化戰略的意見》,文件指出,到2035年,建成全面共享、重點集成的國家文化大數據體系。

文化數據要素和人工智能技術的融合,將推動文化數字化戰略的有效實施和文化產業的高質量發展,是優秀傳統文化傳承創新的有效路徑。而此次 AI 技術與古彝文的“牽手”,將助力民族文化在深入群眾的過程中與新事物融合,為文化傳承提供創新的源泉。

合合信息在智能文字識別領域已有十七年深耕經驗。此前,在AI識別甲骨文、西周鐘鼎文(金文)領域,公司已進行了領先的探索和研究,為古彝文識別積累了經驗,奠定了良好的技術基礎。

加強文化遺產的保護、傳承與合理利用任重道遠,需要全社會共同行動。為發動更多的社會力量參與到古彝文識別和保護,掃描全能王已同步啟動公益性活動,上線古彝文典籍上傳入口,面向全社會征集古籍資料。研究團隊在接收古籍后會將其轉交給對應專家、部門進行研究,助力中華文化瑰寶傳承。

合合信息攜手高校,發布業內首個古彝文編碼「大字典」

Tags:
相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章