OpenAI推出“數據伙伴關系”,減少訓練數據偏向西方國家的缺陷
·OpenAI宣布了“數據伙伴關系”計劃,旨在與第三方機構合作,建立用于人工智能模型訓練的公共和私有數據集。
·OpenAI將收集“反映全人類社會”且目前不易在線訪問的“大規模”數據集。該公司特別希望收集能“表達人類意圖”的數據(如長篇寫作或對話),這些數據將跨越不同的語言、主題和格式。
訓練人工智能模型的數據集存在嚴重缺陷,這是一個公開的秘密。比如圖像語料庫往往以美國為首的西方國家為中心,部分原因在于在編制數據集時,這些地方的圖像在互聯網中占據主導地位。模型則以有害的方式放大了這些缺陷。

OpenAI在官網公布,它希望與外部機構合作創建新的數據集來消除這些缺陷。
當地時間11月9日,OpenAI在官網公布,它希望與外部機構合作創建新的數據集來消除這些缺陷。
OpenAI宣布了“數據伙伴關系”(Data Partnerships)計劃,旨在與第三方機構合作,建立用于人工智能模型訓練的公共和私有數據集。該公司在官網中表示,數據合作伙伴關系旨在“讓更多組織能夠幫助引導人工智能的未來”,并“從更有用的模型中獲益”。
“為了最終使(人工智能)安全且有益于全人類,我們希望人工智能模型能夠深入理解所有主題、行業、文化和語言,這就需要盡可能廣泛的訓練數據集。”OpenAI寫道,“將你的數據納入其中可以增加人工智能模型對你所在領域的理解,從而對你更有幫助。”
作為數據合作伙伴計劃的一部分,OpenAI將收集“反映全人類社會”且目前不易在線訪問的“大規模”數據集。該公司計劃在包括圖像、音頻和視頻在內的各種模式下開展工作,不過其特別希望收集能“表達人類意圖”的數據(如長篇寫作或對話),這些數據將跨越不同的語言、主題和格式。
OpenAI表示,如有必要,它將與組織合作,使用光學字符識別和自動語音識別工具對訓練數據進行數字化處理,并在必要時刪除敏感或個人信息。
一開始,OpenAI希望創建兩種類型的數據集:一種是公開的開源數據集,任何人都可以在人工智能模型訓練中使用;另一種是私有數據集,用于訓練專有的人工智能模型。私有數據集的對象是那些希望數據保密,但又希望OpenAI的模型能夠更好地理解其領域的組織。
到目前為止,OpenAI已經與冰島政府和語言技術公司Mieeind ehf合作,提高了GPT-4的冰島語能力,并與自由法律項目(一個在美國注冊的非營利組織,為法律領域的學術研究提供訪問和分析工具)合作,提高了模型對法律文件的理解能力。
“總之,我們正在尋求合作伙伴,幫助我們教會人工智能理解我們的世界,以便最大限度地幫助每個人。”OpenAI寫道。
盡管OpenAI這篇博文看起來全然出于對人類利益的考慮,但其中似乎也有明顯的商業動機,即以犧牲他人利益為代價來提高OpenAI模型的性能,卻不給數據所有者相應的補償。實際上,近期已經有一些創作者的公開信和訴訟,稱OpenAI在未經他們許可或支付報酬的情況下,用其作品訓練了許多模型。7月,16人匿名起訴OpenAI及微軟公司,認為他們在未經允許的情況下使用并泄露了個人隱私數據,索賠金額高達30億美元。緊接著,兩位全職作者提出,OpenAI未經允許使用了他們的小說訓練ChatGPT,構成侵權。
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。