首頁 > AI資訊 > 最新資訊 > AI續文脈蕓帙煥新顏!三部門發文部署“數字中文”建設

AI續文脈蕓帙煥新顏!三部門發文部署“數字中文”建設

南方都市報    2025-04-03

  3月31日,記者從教育部發布會上獲悉,近日該部協同國家語委等三部門共同印發了《關于加強數字中文建設推進語言文字信息化發展的意見》(以下簡稱《意見》)。根據《意見》,我國將實施數字中文服務教育發展行動,助力打造中國版人工智能教育大模型;到2027年,要基本建成國家語言文字大數據中心。

  創新中文信息處理技術應用

  以數字化構建新型中文服務體系

  人工智能技術快速發展,中國如何加強數字中文建設,從而推動中文信息處理技術創新發展?

  發布會上,教育部語言文字信息管理司司長劉培俊介紹,《意見》明確提出,將數字中文建設作為服務數字中國建設的重要任務和全面推進語言文字信息化發展的突出重點,全方位釋放語言文字在經濟社會發展中的數據要素價值。在實踐中,既要規范、有效、批量地將中文資源信息轉化為智能數據,也要促進中文數據的規模生產、優質集成、規范治理和復用增效,實現以數字化手段構建新型中文服務體系,引領帶動語言文字信息化全面發展。

  為何強調數字中文?劉培俊表示,中文使命重大,數字中國建設,加大國家通用語言文字推廣力度、深化中華優秀語言文化傳承、增進語言文明國際交流互鑒等多項重大任務都更加需要中文數字化賦能。

  中文文化內涵豐富,是中國貢獻給世界的重要公共文化產品,更加需要中文數字化傳播。中文使用范圍廣泛,更加需要中文數字化學習。而且,中文數據價值突出,大規模、高質量的中文數據有利于推動中國特色大語言模型創新發展,更加需要中文數字化支撐。

  劉培俊表示,在數據資源建設上,發揮語言文字服務國家語言能力建設的戰略作用,實施國家關鍵語料庫建設計劃,建設大規模中文語料庫等。在關鍵領域賦能上,發揮信息技術賦能國家語言服務體系構建的全局優勢,研制大語言模型能力素養框架(師生版),推進甲骨文數字化共享,實施中華文化優秀課程多語種數字化傳播計劃等。

  北京大學王選計算機研究所所長湯幟表示,要加強數字中文建設,推動中文信息處理技術發展進入新階段。“新形勢下,語言文字將實現從‘靜態符號’向‘動態數字資產’,從‘信息載體’向‘生產要素’的轉型,要重點支持文本生成與理解、語言翻譯、情感分析等各種任務。”

  湯幟同時指出,語言文字還要從基礎支撐提高到賦能全局發展,要實現語言文字與信息技術的深度融合,就要形成“技術突破—場景落地—生態繁榮”的良性循環。

  AI賦能古籍數字化成果亮眼

  文脈重賡續蕓帙煥新顏

  事實上,在數字中國建設落地推進過程中,近年來已涌現出多種創新賦能的中文信息處理技術應用實踐和生態場景。

  昨天剛剛閉幕的2025中關村論壇上,南都記者在科技探館中就身臨其境地體驗了一場宋代織布作坊的勞作場景。通過裸眼3D建模和AI交互技術,參展企業中科數字將《本草綱目》《天工開物》等古籍轉化為生動的數字資源。以《天工開物》中《乃服篇》的數字還原場景為例,南都記者無需佩戴任何VR/AR類輔助設備,僅通過pad操作,裸眼3D打造的宋代紡織機模型旋即躍然眼前,紡紗女工們嫻熟的手藝流程逐一呈現,環繞立體的作坊人聲真切可感,令記者沉浸式體驗了一把北宋年間天工開物的古代智慧。

據《天工開物》“乃服篇”還原的宋代織布作坊蠶桑工藝裸眼3D效果圖

  “我們這項技術以專業史實為制作標準,完成了織布花機的三維立體還原,還原了1800根經線的紡織。”中關村論壇展臺現場,中科數字商務總監封旭陽向南都記者介紹,目前該項技術已覆蓋了包括首都圖書館在內多家文化公共機構的數字基建體系,“我們希望能以AI技術賦能古籍數字化、具象化,為非遺傳承提供新路徑,助力珍貴的古籍賡續文脈、重獲新生。”

  埋首晴虹下,蕓帙煥新顏。

  南都記者觀察到,當前以AI交互為代表的數字技術,正讓中文古籍在文物價值外呈現越來越多古文本身的學術、文化價值。以封旭陽提到的首都圖書館珍藏的古籍為例。記者獲悉,今年初,首圖古籍數字資源發布平臺就已正式上線,讀者可以通過數據庫,從“版本”“版式”“裝幀”等了解古籍,在“珍品賞析”中看到同一個漢字在不同古籍中的書寫風格。在“古今對讀”中,在線實時將古籍轉換成簡體字、橫版閱讀,自動給文章斷句。

  其中特別驚艷的一個版塊是古籍專題庫中的“微劇場”,由首都圖書館聯合阿里巴巴通義實驗室,利用通義萬相視覺生成大模型,以明萬歷刻朱氏玉海堂印本《牡丹亭》第十出“驚夢”為藍本,通過AIGC技術生成“游園驚夢”的短片,為首圖讀者提供最接近原本的夢幻視覺呈現。首都圖書館也是近日文化和旅游部公布的第二批國家級古籍修復中心之一。

  創新實踐風起云涌,政策指引更須前瞻助力。

  31日的發布會上,北京師范大學黨委常委、副校長康震就提到,為積極應對以大語言模型為代表的人工智能技術對教育變革帶來的新機遇、新挑戰,北京師范大學將發揮古籍整理智能化關鍵技術優勢,針對古漢語信息處理任務“低資源”“富知識”的特點,以解決領域知識學習需求為核心任務,使用1.8B(18億)參數量,訓練出理解力強、準確率高、應用場景豐富的“AI太炎”古漢語大語言模型。

  劉培俊亦表示,未來在技術創新應用上,要發揮自然語言處理技術支撐人工智能發展的基礎作用,加快領域大語言模型應用試點,確保規范安全,示范應用;研制面向人工智能的語言資源建設、管理、應用標準,特別是語料和數據質量評價標準等。

(文章來源:南方都市報)

相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章