首頁 > AI資訊 > 最新資訊 > 智源研究院聯合拓爾思、中科聞歌共建中文互聯網語料庫,為大模型夯實數據基礎

智源研究院聯合拓爾思、中科聞歌共建中文互聯網語料庫,為大模型夯實數據基礎

證券時報網    2023-11-30

  11月29日,記者從智源研究院獲悉,中文互聯網語料庫正式建立。據了解,中文互聯網語料庫由智源研究院聯合拓爾思、中科聞歌共建,旨在為國內大數據及人工智能行業提供一個安全、可靠的語料資源,推動大數據和人工智能領域的健康發展。

  今年以來,大模型的快速發展讓業界及學界對高質量數據集的需求日益增長,缺乏高質量中文數據集成為大模型訓練過程中的一大困難。高質量數據集不僅需要包含大量信息,而且還需經過嚴格的篩選和清洗,以確保其準確性和下游模型及應用的安全。然而當前在中文領域,高質量、符合安全要求的數據集十分匱乏,而且很多公開的數據集也存在諸多問題。

  據智源研究院介紹,當前公開數據集主要存在以下問題:一是數據來源雜亂,存在潛在內容風險;二是容易存在侵犯他人隱私權、版權等合法權益的風險;三是可能包含對特定人群不公正或者含有偏見的歧視性內容,從而導致模型的可接受度受影響;四是存在不真實的信息,會降低模型的可靠性和可信度。

  當前市場上存在很多數據清洗機構,在內容審核與安全過濾方面亦投入了大量的人力與物力。然而,不同機構在內容清洗上的標準不一,對負面信息或違法違規信息的分類體系也大相徑庭,導致整體效果不太理想。因此開源一個經過嚴格篩選和標準化處理的數據集對于大模型技術創新與發展尤為重要。

  因此,智源研究院通過與企業開展合作及資源共享,推出了中文互聯網語料庫。據智源研究院介紹,這一語料庫的數據均來源于高質量可信、中國境內的互聯網站,經過嚴格的數據清洗和去重,并且在內容質量、價值觀等方面進行了針對性的檢測與過濾,進一步提升數據質量和安全可信程度。

  此次數據處理的規則包括基于規則的過濾、基于模型的過濾以及數據去重,實現了文字密度提取、敏感詞過濾、垃圾信息過濾、簡繁體轉換、低質量內容過濾、數據集內部/數據集間去重等等。除此以外,在數據處理過程中還采用了多種檢索技術,對當前主流的多個中文評測數據集進行嚴格篩查和過濾。據介紹,中文互聯網語料庫首期開放的數據(CCI v1.0.0)規模為 104GB。數據集總體的時間跨度為2001年1月至2023年11月。

  據了解,智源研究院是人工智能領域的新型研發機構,在科技部和北京市支持下于2018年成立。公開資料顯示,作為創新型研究院,智源研究院在運行機制探索中,形成了集中力量辦大事、青年人才挑大梁、開放生態育創新的獨特智源模式。今年6月,智源研究院院長黃鐵軍在2023北京智源大會上作報告,發布悟道3.0大模型系列,據悉,該模型是目前中國首個、全球最大的萬億級模型。

  智源研究院持續推動中國高質量中文數據資源的有效利用。今年9月,智源研究院開源了全球最大的中英文文本對語義向量模型訓練數據集MTP(massive text pairs),數據規模達3億對(其中中文1億,英文2億)。文本主題豐富,源自海量優質文本數據,涉及搜索、社區問答、百科常識、科技文獻等多種主題。

  一名接近智源研究院的業內人士向記者分析,此次建立中文互聯網語料庫有助于提升和中文語料庫的規模和數據集的質量,從而為大模型技術的進一步發展夯實更強的數據基礎。

(文章來源:證券時報網)

相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章