中國大模型語料數(shù)據(jù)聯(lián)盟開源發(fā)布高質(zhì)量多模態(tài)語料“書生·萬卷”
繼今年7月在2023世界人工智能大會發(fā)起成立“中國大模型語料數(shù)據(jù)聯(lián)盟”(以下簡稱“語料數(shù)據(jù)聯(lián)盟”)之后,8月14日,上海人工智能實(shí)驗(yàn)室(上海AI實(shí)驗(yàn)室)宣布,聯(lián)合語料數(shù)據(jù)聯(lián)盟成員單位共同開源發(fā)布“書生·萬卷” 1.0多模態(tài)預(yù)訓(xùn)練語料。
“書生·萬卷” 1.0目前包含文本數(shù)據(jù)集、圖文數(shù)據(jù)集、視頻數(shù)據(jù)集三部分,本次開源的數(shù)據(jù)總量超過2TB。該語料數(shù)據(jù)包含超過5億個(gè)文本,2200萬個(gè)圖文交錯(cuò)文檔,1000個(gè)節(jié)目影像視頻,具備多元融合、精細(xì)處理、價(jià)值對齊、易用高效等四大特征。
集合語料數(shù)據(jù)聯(lián)盟成員豐富的內(nèi)容積累與上海AI實(shí)驗(yàn)室領(lǐng)先的數(shù)據(jù)處理能力等優(yōu)勢,“書生·萬卷”將為學(xué)術(shù)界及產(chǎn)業(yè)界提供更符合主流中文價(jià)值對齊的高質(zhì)量大模型多模態(tài)預(yù)訓(xùn)練語料。
“書生·萬卷”鏈接:https://opendatalab.org.cn/WanJuan1.0
跨界聯(lián)合,共建寬領(lǐng)域語料庫
本次開源的“書生·萬卷”1.0包含文本、圖文、視頻三部分?jǐn)?shù)據(jù)集。其中文本數(shù)據(jù)為來自網(wǎng)頁、百科、書籍、專利、教材、考題等不同來源的清洗后預(yù)訓(xùn)練語料,數(shù)據(jù)總量超過5億個(gè)文檔,數(shù)據(jù)大小超過1TB,覆蓋科技、文學(xué)、媒體、教育、法律等多個(gè)領(lǐng)域。圖文數(shù)據(jù)主要來自公開網(wǎng)頁,經(jīng)處理后形成圖文交錯(cuò)文檔。文檔總量超過2200萬個(gè),數(shù)據(jù)大小超過140GB(不含圖片),覆蓋新聞事件、人物、自然景觀、社會生活等多個(gè)領(lǐng)域。視頻數(shù)據(jù)主要來自中央廣播電視總臺和上海文廣集團(tuán),包含新聞、影視等多種類型的節(jié)目影像,總計(jì)視頻文件數(shù)超過1000個(gè),數(shù)據(jù)大小超過900GB,內(nèi)容覆蓋軍事、文藝、體育、自然、真實(shí)世界、知識、影像藝術(shù)、媒體、美食、歷史、科教等方面。
精細(xì)處理,構(gòu)建高質(zhì)量預(yù)訓(xùn)練語料
高質(zhì)量、大規(guī)模、安全可信的語料數(shù)據(jù)對于大語言模型的訓(xùn)練和性能提升至關(guān)重要?;谡Z料數(shù)據(jù)聯(lián)盟構(gòu)建的語料庫,上海AI實(shí)驗(yàn)室對其中部分?jǐn)?shù)據(jù)進(jìn)行細(xì)粒度清洗、去重以及價(jià)值對齊,形成了高質(zhì)量多模態(tài)預(yù)訓(xùn)練語料“書生·萬卷”1.0,具備多元融合、精細(xì)處理、價(jià)值對齊、易用高效等四大特征。
在多元融合方面,“書生·萬卷”1.0包含文本、圖文、視頻等多模態(tài)數(shù)據(jù),范圍覆蓋科技、文學(xué)、媒體、教育、法律等多個(gè)領(lǐng)域,在訓(xùn)練提升模型知識含量、邏輯推理和泛化能力方面具有顯著效果。
在精細(xì)處理方面,“書生·萬卷”1.0經(jīng)歷了語言甄別、正文抽取、格式標(biāo)準(zhǔn)化、基于規(guī)則及模型的數(shù)據(jù)過濾與清洗、多尺度去重、數(shù)據(jù)質(zhì)量評估等精細(xì)化數(shù)據(jù)處理環(huán)節(jié),因而能更好地適配后續(xù)的模型預(yù)訓(xùn)練需求。
在價(jià)值對齊方面,研究人員在“書生·萬卷”1.0的構(gòu)建過程中,著眼于內(nèi)容與中文主流價(jià)值觀的對齊,通過算法與人工評估結(jié)合的方式,提升了語料的純凈度。
在易用高效方面,研究人員在“書生·萬卷”1.0采用統(tǒng)一格式,并提供詳細(xì)的字段說明和工具指導(dǎo),使其兼顧了易用性和效率,可快速應(yīng)用于語言、多模態(tài)等大模型預(yù)訓(xùn)練。
高質(zhì)量、多模態(tài)、寬領(lǐng)域的數(shù)據(jù)支持已成為當(dāng)前人工智能大模型發(fā)展的重要基石,中國大模型語料數(shù)據(jù)聯(lián)盟將持續(xù)通過開源開放,共建包容、開放、有序、共享的人工智能大生態(tài)。
上海人工智能實(shí)驗(yàn)室是我國人工智能領(lǐng)域的新型科研機(jī)構(gòu),開展戰(zhàn)略性、原創(chuàng)性、前瞻性的科學(xué)研究與技術(shù)攻關(guān),突破人工智能的重要基礎(chǔ)理論和關(guān)鍵核心技術(shù),打造“突破型、引領(lǐng)型、平臺型”一體化的大型綜合性研究基地,支撐我國人工智能產(chǎn)業(yè)實(shí)現(xiàn)跨越式發(fā)展,目標(biāo)建成國際一流的人工智能實(shí)驗(yàn)室,成為享譽(yù)全球的人工智能原創(chuàng)理論和技術(shù)的策源地。
中國大模型語料數(shù)據(jù)聯(lián)盟是由上海人工智能實(shí)驗(yàn)室聯(lián)合中央廣播電視總臺、、國家氣象中心、中國科學(xué)技術(shù)信息研究所、上海報(bào)業(yè)集團(tuán)、上海文廣集團(tuán)、上海數(shù)據(jù)集團(tuán)、上海市數(shù)商協(xié)會、金杜律師事務(wù)所等單位聯(lián)合發(fā)起成立的開放組織。聯(lián)盟于2023年7月6日世界人工智能大會開幕式上宣布成立,旨在通過鏈接模型訓(xùn)練、數(shù)據(jù)供給、學(xué)術(shù)研究、第三方服務(wù)等多方面機(jī)構(gòu),聯(lián)合打造多知識、多模態(tài)、標(biāo)準(zhǔn)化的高質(zhì)量語料數(shù)據(jù),探索形成基于貢獻(xiàn)、可持續(xù)運(yùn)行的激勵(lì)機(jī)制,打造國際化、開放型的大模型語料數(shù)據(jù)生態(tài)圈。
- 免責(zé)聲明
- 本文所包含的觀點(diǎn)僅代表作者個(gè)人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險(xiǎn),讀者在采取與本文內(nèi)容相關(guān)的任何行動之前,請務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。