第九屆版博會|ChatGPT等模型抓取數據學習是否侵權?專家們這樣看→
2022年11月,生成式人工智能(AI)隨著ChatGPT的發布進入公眾視野。一年來,以ChatGPT為代表的大語言模型風靡全球,中文世界也誕生了文心一言等同類產品。不過,在ChatGPT誕生的美國,開發該技術的谷歌等公司被視為一直在非法使用受版權保護的新聞作品訓練聊天機器人,這樣抓取數據學習的過程,涉嫌侵權。▲研討會現場。主辦方供圖在11月24日下午舉行的第九屆版博會子單元——“保護知識產權 促進創新發展——著作權法配套法規修訂熱點問題研討會”上,來自高校、司法機關、仲裁機構等領域的專家展開探討時,ChatGPT等大語言模型抓取數據是否侵犯了著作權話題引發熱議。專家們認為,是否構成侵權,還得綜合多方面因素來看。ChatGPT等大語言模型是一種理解并生成書面文本的AI,它們通過分析大量數據和模仿寫作模式來訓練,同時輸出看似百科全書般的知識。然而,由于許多開發者并沒有公開透露哪些內容被輸入他們的模型進行訓練,所以不可能確切地知道哪些數據被引用或復制,是否獲得相關著作權權利人授權使用,更不得而知。不久前的10月31日,代表2200多家美國媒體機構的行業組織“新聞媒體聯盟”發布一份77頁的白皮書,稱一些最受歡迎的AI聊天機器人,如ChatGPT和谷歌的“巴德”,嚴重依賴新聞文章來訓練它們的技術,“我們的文章被投喂后又一字不差地吐出來”,直接導致了它們生成的答案幾乎與受版權保護的內容相同。針對類似爭議,中國社會科學院法學研究所李明德教授認為,如果開發公司在預先訓練ChatGPT等大模型時,使用了有著作權的作品等文本數據,且用于商業用途,本身就是侵權。這些在侵權基礎上訓練學習后創作的作品,版權算誰的?正在修訂中的著作權法實施條例如何認定,目前還不得而知。他提醒,要保證侵權行為不存在,那就一定要強調數據挖掘和文本發掘是用作“非商業性”的使用。如何看待機器學習數據挖掘,華東政法大學知識產權學院院長叢立先教授提出了個人看法,“假設給機器數據挖掘合理使用的便利,也就是說,它在形成作品之前具有極大便利,然后機器學習產生的所有作品又都不受版權保護,會產生一個什么問題?直接的后果就是,機器學習領域有可能會置身于版權法之外,這值得思考。”
叢立先稱,現在知識應用場所的數字挖掘和人工智能會帶來很大的知識進步,對社會有很大幫助和支持。如果在機器學習的前端給它便利,同時它產生的作品也受人類控制,那么機器學習生成的便利符合人類可持續發展需要,也應該給予知識產權保護,“但這不同于人身權和財產權保護,相關制度可通盤考量,可以叫‘有限著作權保護’,以此促進人工智能的發展,促進其他的知識利用者,進行相應的知識學習和利用。”華東政法大學法律學院教授王遷則強調,談到AI訓練、機器學習,有兩個問題需要重點關注:一是輸出端問題,AI訓練要重點解決輸入端問題;二是涉及演繹權的問題,包括人工智能對文本數據的改編、翻譯和匯編等。“從《著作權法》的角度看,AI誕生開始就面臨著未經許可將他人作品作為訓練數據使用,是否構成著作權侵權的問題。”王遷介紹,目前包括歐盟、英國、日本都有了相應的立法,主要限于AI訓練方式的“非商業目的”。今年8月,國家網信辦也已聯合多部委出臺了一個生成式人工智能的管理辦法,“隨著AI越來越強大,與其等到有一天我們被動應對這些難題,不如早一點為AI立法。”王遷稱。
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。