科技觀察|如何推動大模型開源生態?全球最大面向中英文語義向量模型訓練數據集發布
封面新聞記者 邊雪在全球的大模型競賽中,中國已占有一席之地,而打造開源生態,推動大模型開源生態,已經成為中國業界的主流選擇。9月15日,智源研究院發布面向中英文語義向量模型訓練的大規模文本對數據集MTP(massive text pairs)。
這是全球最大的中、英文文本對訓練數據集,數據規模達3億對,具有規模巨大、主題豐富、數據質量高三大特征,旨在推動解決中文模型訓練數據集缺乏問題,推動人工智能協同創新發展。通用語義向量模型是決定大模型性能的關鍵組件,可以鏈接外模型與外部知識;而由“關聯文本”為基本元素的優質訓練數據,是構建通用語義向量模型的核心要素。本次開源的MTP數據集為智源BGE中英文語義向量模型訓練所用中英文數據。“語義向量模型在大模型落地產業中起到十分重要的作用,但往往被忽略了。”北京智源研究院副院長兼總工程師林詠華告訴封面新聞記者,我們希望這次大規模數據集以及語義向量模型的開源,能幫助更多團隊加快實現大模型產業落地。得益于大規模、高質量的訓練數據,開源可商用的智源BGE模型,自發布以來,即憑借優秀的中英文語義檢索精度與整體語義表征能力成為廣受社區歡迎的語義向量模型:大規模向量模型權威排行榜MTEB上排名穩居第一;在全球知名的人工智能開源社區Hugging Face累計下載量達到數十萬;被LangChain等全球多個知名開源項目集成。伴隨2022年末ChatGPT橫空出世,全球大模型研發進入如火如荼的爆發期,而激烈的競爭與高昂的成本,也同時推動著開源崛起成為人工智能發展的關鍵推動力量。標志性的事件是今年5月在全球人工智能圈廣為流傳的一篇Google內部文件,聲稱“開源AI將擊敗谷歌和OpenAI”; 來自Meta的代表性開源模型 Llama則對當前產業發展起到至關重要的作用。作為中國大模型開源生態圈的代表機構,智源正在著力打造FlagOpen飛智大模型技術開源體系,引領共建共享大模型時代的“類Linux”開源開放生態。上線于2022年11月,正式發布于2023年2月,FlagOpen飛智大模型技術開源體系先見性地引領著中國大模型開源生態建設與發展。在今年2月的FlagOpen飛智發布會上,智源研究院院長黃鐵軍曾表示:“人工智能時代,開源開放生態,是唯一的出路。”黃鐵軍指出,智能時代需要真開源,不是安卓那樣的利用開源,不是某一企業控制的開源,而是完全在開源社區發展的大家的開源,就像Linux、RISC-V和2022年完全轉入開源社區的PyTorch。“大模型時代需要這樣的開源,也只有這樣的開源體系,成為哺育智能之樹蓬勃生長的大地母親。”除了新增的FlagEmbedding語義向量模型開源項目板塊,FlagOpen還包括大模型算法、模型、數據、工具、評測等重要組成部分,致力于打造大模型時代的AI技術基礎設施,未來將持續向學術界和產業界開源更為完整的大模型全棧技術。數據對大模型訓練起著至關重要的基礎作用。構建高質量開源數據集,特別是用于訓練基礎模型的開源數據集對大模型發展意義重大,然而中文社區卻鮮少數據開源貢獻者。日前,在2023年國家網絡安全宣傳周活動上,北京智源人工智能研究院院長黃鐵軍表示:“數據可以說是AI大模型最重要的一個要素,大家認識不同,但是總的來說幾乎所有人都認為數據的質量對模型智能水平影響最高,差不多要超過60%。”智源研究院工作人員告訴封面新聞記者,智研正在持續進行包括數據在內的大模型全棧技術開源,持續貢獻高質量中文數據集建設與數據資源開源開放。2021年,智源推出全球最大語料庫WuDaoCorpora,開放200GB高質量低風險中文語料,由400余個產學研單位合作,已有770多個研發團隊申請,為微軟、哈佛大學、斯坦福大學、華為、阿里巴巴、騰訊、鵬城實驗室等提供數據服務,有效支撐全球大模型相關研究。今年開放的最大規模、可商用、持續更新的中文開源指令數據集COIG,由來自全球40余個機構的100多名工程師共同參與,創造了跨越國界、緊密合作的全球數據開源動人故事。

相關推薦
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。