全國首創深數所探索可信數據空間助力大模型語料合規高效流通
在人工智能領域,大模型的應用越來越廣泛,但如何實現大模型語料合規高效的流通,一直是困擾行業發展的難題。
近日,由深圳數據交易所(以下簡稱深數所)主辦的2023中國(深圳)數據要素產業創新大會平行活動“數據要素賦能人工智能產業創新專題活動”上,深數所聯合中國信息通信研究院(以下簡稱“信通院”)、華為云計算科技有限公司(以下簡稱“華為云”)、深圳數鑫科技有限公司(以下簡稱“數鑫科技”)等發布可信數據空間助力大模型語料合規高效流通案例,為可信數據空間技術在人工智能領域的實際應用提供了新的思路和方案,可信數據空間支撐可信交付,將成為推動人工智能產業發展的重要力量。
自2023年5月,我國人工智能產業進入高速發展階段以來,垂直領域語料訓練數據、大模型行業應用、模型質量測評等市場需求激增,為推動人工智能產業高質量發展,賦能大模型市場化流通應用,深數所搶抓通用人工智能發展的重大戰略機遇,加快聚合“資-供-產-銷-用”各領域專業生態主體,通過供需撮合推廣、精準商機匹配、動態合規審核、多維產業培訓等機制,實現全國首個場內人工智能產品專區、全國首批大模型產品場內掛牌上市、全國首批人工智能產品場內交易簽約等8大“全國首創”。
據了解,當前我國數據要素及產品市場化流通仍處初期發展階段,數據所具備的虛在性、依附性、運動性、邊際收益遞增性、價值差異性和外部性等一般特性,使得數據在定價、確權、合規流通保障等方面缺乏統一標準,直接導致大模型所需語料訓練數據場內交易面臨合規流通難、互信難等問題。同時,如何在提升大模型邏輯智能的基礎上,豐富大模型語言廣泛化的語言理解與表達能力,也是當前各模型市場化應用所面臨的難點。
為實現大模型全面化智能提升,依托人工智能全棧式、全鏈條服務與生態鏈接能力,2023年9月,深數所聯合信通院、華為云、數鑫科技等聯合升級可信數據空間創新實驗室(以下簡稱實驗室),在人工智能領域,創新打造可信數據空間技術應用于大模型語料安全合規流通新路徑,并通過商機精準匹配,高效鏈接哈爾濱工業大學(深圳)和北京瑞萊智慧科技有限公司供需雙方,實現全國首單語言語料數據場內實質閉環案例落地。
大模型訓練場景中通常需要大量的語料數據。以往,語料提供方和大模型訓練方在數據交易所完成語料交易后,語料提供方通過FTP/FSTP傳輸或物理拷貝等方式進行數據流通給到大模型訓練方。語料數據作為提供方的數據資產,具有高價值、高敏感等特性,大模型訓練方通過FTP/FSTP傳輸或物理拷貝的方式獲得數據后,普通技術手段很難確保語料提供方的數據不會出現被轉存轉售和濫用的情況,即缺乏必要的技術合規保障手段來保障語料提供方的數據權益。
基于語料數據交付過程中面臨的現狀,深數所積極探索,深入研究提供方樣例數據,以及需方的使用場景、用數方式,聯合可信數據空間實驗室,共同制定針對語料數據流通的技術方案?;诳尚艛祿B接平臺FlexiTDL-DPE&DCE,將語料提供方的語料數據和模型訓練方的模型、算法數據之間進行可信連接,實現語料提供方和模型訓練方之間的數據安全可控的流通使用。于此同時,深數所為進一步保障流通交付方案的可落地,基于方案進行該案例場景下的數據流通測試,測試結果表明使用該方案既滿足了數據流通交付,同時也保障了語料提供方的數據權益,充分展示了通過可信數據空間,大模型語料可以在保證數據安全的前提下,實現企業間的可信流通,同時滿足數據提供方和消費方的需求。
數鑫科技創始人&CEO吳會才介紹說,通過可信數據空間的技術手段,大模型語料可以更加高效地進行流通,同時可以降低數據獲取成本和風險。這種模式可以為人工智能產業的發展提供更加可靠的數據流通支持,提高數據的質量和安全性,推動人工智能技術的進步和應用范圍的擴大。
深數所高級大數據研發工程師李榕介紹,可信數據空間技術在數據流通領域中使用分布式、輕量化的部署模式,在保障質量和安全性的前提下,極大的提高了數據流通的效率,覆蓋更加全面的數據處理場景,為人工智能行業帶來了底層數據的穩健保障。
隨著大模型應用的不斷深入,可信數據空間創新實驗室將繼續與合作伙伴共同探索可信數據空間技術的創新和應用,為人工智能產業的發展提供更加優質的服務和支持。未來,隨著人工智能技術的不斷發展和應用場景的不斷擴大,可信數據空間作為一種新型的數據流通基礎設施,有望在人工智能領域發揮更加重要的作用,為人工智能賦能千行百業提供穩定安全的支撐。
(文章來源:證券時報網)
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。