首頁 > AI資訊 > 最新資訊 > FakeItuntilYouMakeIt:數據合成技術,LLM時代的「血液提供商」

FakeItuntilYouMakeIt:數據合成技術,LLM時代的「血液提供商」

新火種    2024-04-15

以上是研究機構Gartner的最新預測。

它指出,許多公司已經開始使用合成數據來訓練AI模型,填補真實數據的不足,同時應對數據稀缺和隱私問題。

去年11月,一篇發表在Nature雜志上的研究也表明使用合成數據替代真實醫療保健數據的有效性。

Fake It until You Make It:數據合成技術,LLM時代的「血液提供商」

合成數據和表格合成數據

何為合成數據(Synthetic Data)?

它是通過算法、統計模型或生成人工智生成的數據,而非真實的觀測數據。

為了生成一組合成數據,需要通過算法分析原始數據從而得到原始數據中的特征分布、特征之間的關聯以及特征規律等要素,再進行生成。

總的來說,合成數據具有以下優勢:

可控性強:可根據需要控制數據的生成規則、分布特征等 ,控制合成數據部分特征;數據量大:可快速生成大量的數據;隱私保護:不涉及真實個人信息,避免隱私泄露的潛在風險。

那么,何為表格合成數據(Taublar Synthetic Data)?

表格合成數據是結構化的數據,具有明確的列和行,適用于需要處理大量結構化數據的情況。

相比之下,其他合成數據可能是非結構化的文本、圖像或音頻數據,處理起來更為復雜。

表格合成數據可以更容易地模擬真實世界中的業務場景和數據分布。

實際業務中,許多公司需要處理大量的結構化數據,如銷售數據、客戶信息、財務報表等。通過使用表格合成數據,這些公司可以更快地構建和訓練AI模型。

為何使用合成數據?

在數據驅動的時代,真實數據在數據分析應用中的價值和效果是顯著的,但收集真實數據不僅費時費力,而且成本高昂。

另外,使用真實數據進行分析并公開結果可能引發數據泄露問題,甚至法律糾紛等問題。

即使數據經過脫敏處理,現代攻擊手段如數據推斷攻擊、數據重構攻擊等仍可能恢復出敏感信息。

來自哈工大(深圳)數據安全研究院的研究人員注意到,通過使用合成數據就是一種規避手段。在某些情況下,它比現實世界中的同類產品更安全、更便宜、同樣有效:

首先,更安全。

合成數據不存在現實世界數據的錯誤或隱私泄漏問題,可以自由共享且不會損害用戶隱私

其次,更便宜。

合成數據還可以定制化地按照規則進行大規模生成。

再者,同樣有效。

來自數據安全研究院的研究人員創建了一組開源組件(合成數據生成器,SDG),并由研究院的數據科學家、工程師研發了一系列配套的算法,研究人員發現,在超過80%的實際測試中,合成數據可以媲美真實數據的效果。

表格合成數據的典型應用場景Fake It until You Make It:數據合成技術,LLM時代的「血液提供商」

合成數據的有以下典型應用場景:

數據集不平衡:通過控制合成數據的標簽、特征比例,可以有效解決數據不平衡問題;

數據脫敏:傳統數據脫敏場景中,采用遮蓋方法屏蔽關鍵信息,會顯著降低數據質量,且仍存在隱私泄漏風險,使用數據合成技術替換脫敏技術,可以有效提升數據質量,并規避隱私風險。

政務數據開放:和數據脫敏場景類似,合成數據可以最大限度避免數據開放所帶來的隱私泄漏風險。

AI模型訓練:合成數據已經大量用于AI模型訓練,用于應對數據的不足,數據稀缺,隱私等問題。

業務系統測試:合成數據可以模擬真實數據的情況,幫助測試人員在不接觸真實數據的情況下進行測試,提高測試效率和準確性。

專用于表格數據合成的開源組件

合成數據生成器(Synthetic Data Generator,SDG)是由哈工大(深圳)劉川意教授團隊開源的一款專注于結構化表格數據快速生成的組件。目前在GitHub上關注度已有1.8K stars,并已有多位Contributor。

SDG支持多種模型,并針對執行速度、內存等方面進行專門優化,例如:合成數據生成器處理千萬級別數據,這是當前其他數據合成組件做不到的。

Fake It until You Make It:數據合成技術,LLM時代的「血液提供商」

此外,合成數據生成器還集成了使用大模型的仿真技術生成模型,通過學習原始數據或者表格的元數據,LLM模型能夠生成符合自然世界基本特點的數據表,與現有模型相比,這種方法支持無原始數據的合成數據生成,不需要進行繁瑣的特征工程,僅憑原始數據表格的元數據(metadata)來快速生成數據表,節省了大量的時間和人力成本。

其示例如下圖所示:

Fake It until You Make It:數據合成技術,LLM時代的「血液提供商」

此外,合成數據生成器還支持表外特征的自動推斷,通過學習數據表的元數據和用戶提供的表外特征信息,大語言模型根據數據表的元數據和其所掌握的知識,生成高質量的表外特征數據。

例子如下:

Fake It until You Make It:數據合成技術,LLM時代的「血液提供商」

合成數據生成器團隊還將持續維護組件,保持對工業界、學術界的最新情況追蹤,適時增加新的模型;同時會根據Issue 以及實際業務需求情況,持續添加新特性以滿足業務要求。

下一步,團隊將進一步推出基于大模型微調的數據合成模型。

SDG使用Apache-2.0開源協議,并設有微信技術交流群和 Slack 交流群,歡迎開發者進行使用、反饋,提出建議。

相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章