南農合作研發的中華物產大模型在世界互聯網大會發布
近日,由南京農業大學和中華書局古聯(北京)數字傳媒科技有限公司合作研發的中華物產大模型在世界互聯網大會烏鎮峰會發布。圍繞“AI賦能下的中華物產與文明探源”,南京農業大學人文與社會發展學院教授包平、信息管理學院教授王東波分別作了《數智賦能下的中華物產與文明探源》和《中華物產大模型簡介》的主旨報告。
南京農業大學人文與社會發展學院教授包平作主旨報告
南京農業大學信息管理學院教授王東波作主旨報告
中華民族有著百萬年的人類史、一萬年的文化史、五千多年的文明史,我國先民在漫長的社會實踐以及與自然和諧共生的歷程中發現和創造了豐富多樣的物產資源。從《禹貢》記載的九州稟賦,到《詩經》描繪的諸方土俗,詩詞歌賦勾勒出的四時風物,水墨丹青渲染成的江山麗景,再到《本草綱目》的藥物集萃,《天工開物》的工藝精成,這些兼具文化和科學雙重屬性的寶貴文化遺產是人們探索物產知識和古人精神境界的重要依托。
當下數智技術高速發展,構建中華物產知識庫、梳理中華物產演變歷史脈絡,探索中華物產與文明之間的深切關聯,是新時代做好中華優秀傳統文化創造性轉化和創新性發展的有力抓手。
此次發布的中華物產大模型是一個集合了多家機構數據資源、算力資源和算法資源的系統工程。整體構建過程分為物產大模型預訓練語料構建、預訓練模型訓練、對話模型構建與知識庫問答實現三大板塊。
根王東波介紹,由于物產大模型需要同時滿足對于古今物產資料的有效處理,因此需收集到含有高質量物產信息的語料。南京農業大學中華農業文明研究院所保存的手抄本《方志物產》資料是合適的訓練語料之一。
在上世紀50年代,時任中國農業遺產研究室主任的萬國鼎先生先后派出百余人的團隊前往國內40多個大中城市、100多家文史單位,手工抄寫了7532部地方志中的物產內容,整理裝訂成《方志物產》《方志分類》《方志綜合》《方志補遺》,計686冊、3600萬字的方志物產專題文獻,這一嘆為觀止的人工工程被學界稱為“紅本子”。
此后,由南京農業大學人文與社會發展學院王思明教授團隊進行了數字化掃描、文字的計算機錄入、轉化等,生成了WORD電子文檔。
從2008年開始,包平教授團隊在先前基礎上,進行了中華歷史方志物產文獻的補遺和全口徑物產文獻的輯錄和智能化整理,涵蓋了地方志以外的其他記載物產的文獻,包括正史、農書、本草、名人筆記、博物志、異物志等,使這套中華物產資源達到4800萬字并逐步開始活化利用,團隊基于此資料開展了深入的智能整理與知識挖掘研究,為后續與中華書局古聯公司聯手構建中華物產大語言模型奠定了堅實的數據基礎。
在完成物產大模型預訓練語料的構建后,接下來便是預訓練模型的訓練階段。在中華書局古聯公司所提供的具體場景基礎上,王東波教授團隊在這一階段采用了當前最先進的深度學習技術,基于自然語言處理領域的基座模型,使用混合了超過20億字物產資料、方志文獻、古籍文本和指令對齊數據的綜合數據集來訓練40億參數的大語言模型。經過多步優化訓練出支持二次開發的物產基座模型,在多組實驗上的結果顯示該模型能夠在方志翻譯、方志標點、物產實體識別等一系列物產文本處理任務上取得超過原模型的訓練效果,更加適合物產領域的開發。
未經過對齊的基座模型常常難以遵循人類的指令,且回答問題時容易產生脫離事實的情況。需要使用指令微調技術訓練模型指令遵循能力方可在真實環境下進行部署,王東波教授團隊使用了45萬條對話數據來訓練模型的基礎對話功能和邏輯能力,尤其強化了模型在物產數據處理和物產問答方面的效果。通過構建存儲超過14萬種物產的知識庫并接入中華物產對話模型,能夠有效緩解模型回復用戶物產有關提問時面臨的“幻覺”問題。在應用端,中華物產大模型進一步與外部工具或知識庫結合,通過物產識別、物產鏈接和檢索增強問答功能為用戶提供精準、便捷的物產信息查詢服務,給學術研究、商業開發等領域提供有力支撐。
中華物產知識智能活化與利用會意圖
中華物產大模型框架圖
據數字人文研究中心包平教授介紹,中國擁有數量極其豐富的長時段連續記載的物產歷史文獻資源,開發一種能夠同時利用好古代和現代物產信息的大語言模型對于推動物產資源的活化利用具有重要意義。未來,依托南京農業大學中華物產與文明探源協同創新中心這個平臺,在加強對中華物產史的理論研究基礎上,還將在人工智能和物產挖掘結合的研究方向上進一步深耕,推出能夠支持更多模態物產資源處理的工具,推動中華物產文化走向世界。
據悉,中華書局是國內古籍整理與出版的權威機構,南京農業大學于2023年與中華書局聯合成立了“中華物產與文明探源協同創新中心”,中心旨在從具有農耕文明鮮明特色的物產史研究入手,從遠古神話里描述的物產到現代科技下呈現的物產,從單純物產史研究到物產與自然、社會、經濟、文化的關聯,揭示中華物產與文明進程的歷時脈絡。
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。