生成式人工智能與知識產權
編者按:知識產權問題我們已經爭論了500年。我們之所以要發明知識產權這個東西,為的是保護獨創性。但是,任何新東西哪個沒有“消化”、“吸收”、“借鑒”,誰不是站在巨人的肩膀上?所以細究下來,這就是一筆糊涂賬。但在生成式人工智能時代,這筆賬開始變得更加糊涂了。也許,我們又要重新定義知識產權和保護的范疇了。文章來自編譯。
如果你把全世界所有的知識都放進人工智能模型里面,然后用它來創造出新的東西,那么這東西歸誰呢?誰可以獲得報酬?這是一個我們已經爭論了 500 年的全新問題。

至少在過去五百年的時間里,我們一直在用這樣或那樣的方式討論著知識產權問題,每一次新的技術或創造力浪潮都會引發新的爭論。我們給作曲家發明了演出著作權,我們決定,攝影——“機械復制”——可以成為藝術受到保護,在 20 世紀,我們必須就如何思考從錄制到音樂,從 VHS 到采樣的一切做出決定。生成式人工智能以新的方式(甚至是以舊的方式)又把其中的一些問題提出一遍,但它也提出了一些新的難題——總是最好的那種。
就最簡單的意義而言,我們很快就會推出這樣的智能手機app,你只需要說一聲“給我播放這首歌,但要用泰勒·斯威夫特的聲音”。這是一種新的可能性,但我們非常了解知識產權的理念——會有很多人爭論誰該得到什么樣的報酬,但我們知道我們認為精神權利是什么。唱片公司已經就此與谷歌進行對話。
但是,如果我說“給我制作一首泰勒·斯威夫特風格的歌”,或者更令人費解一點,“給我制作一首過去十年最熱門流行歌曲那種風格的歌”的話,又會發生什么呢?
一個人無法完美地模仿另一個聲音(印象派畫家不必支付許可費),但他們可以聽一千個小時的音樂之后制作出那種風格的東西——我們有時稱之為“模仿”。如果做這件事情的是人的話,他們就不必向所有那些(被模仿的)藝術家支付費用,所以如果我們用計算機來做這件事情的話,我們需要付錢給他們嗎?我覺得我們不知道自己是如何看待這個問題的。我們可能知道法律是怎么規定的,但我們可能想改變這一點。
類似的問題也出現在藝術上,并且存在一些有趣的文化差異。如果我讓Midjourney給我某位藝術家風格的圖像,有些人會認為這是明顯的、徹頭徹尾的盜竊,但如果你與佳士得或蘇富比的專家聊天,或者到曼哈頓下城或梅費爾的畫廊閑逛,那里的大多數人不僅不同意,而且對這個前提感到困惑——如果你以“辛迪·謝爾曼(Cindy Sherman)的風格”創作出一幅畫,你并沒有盜竊她的作品,任何看重辛迪·謝爾曼的人都不會認為你的作品是替代品(除非是像理查德·普林斯那樣完全復制她的作品)。我知道我同意哪一個觀點,但這并不重要。我們是如何就嘻哈的采樣達成共識的?事實上,我們同意理查德·普林斯的看法嗎?我們會搞清楚的。
我們再來看另一個問題。我想大多數人都明白,如果我在 Facebook 上貼出新聞報道的鏈接并告訴我的朋友去看,然后報紙就要我為此付費是荒謬的。事實上,報紙在撰寫點評的時候并不會向餐館支付一定比例的費用。如果我能讓 ChatGPT 去閱讀十個報紙網站并把今天的頭條新聞摘要告訴我,或者向我解釋一個大新聞的話,那么報紙的抱怨突然就變得合理許多——現在科技公司確實在“利用新聞” 。不出所料,當 ChatGPT 宣布推出自己的網絡爬蟲時,新聞網站就開始屏蔽這個爬蟲了。
但就像我舉的那個“做點類似十大熱門金曲”的例子一樣,ChatGPT 不會復制內容本身,事實上,我可以讓實習生替我閱讀論文并給出總結(我經常把人工智能說成是無限量供應的實習生)。這可能會違反ChatGPT自我聲明的服務條款,但通常認為摘要(而不是摘錄)是不受版權保護的——事實上,沒有人認為本newsletter違反了我鏈接所指向網站的版權。
這是不是意味著我們會認為這不是問題?答案可能與這個或那個國家今天的法律所規定的內容無關。相反,思考這個問題的一種方式可能是這樣:人工智能可以大規模地實現以前只能在小范圍內實現的事情。這或許就是兜里揣著通緝照片的警察與在每個街角都安裝上支持人臉識別的攝像頭的警察之間的區別——規模上的差異可能會變成原則上的差異。我們想要什么樣的結果?我們希望法律是什么樣的?法律可以做什么?
但我認為,真正的知識難題不是你可以讓 ChatGPT 找出今天的頭條新聞,而是一方面所有頭條新聞都放在訓練數據的某個地方,而另一方面,它們并不在模型之中。
OpenAI 不再公開自己具體使用了什么內容,但即便它不是基于盜版書來進行訓練,肯定也使用了“Common Crawl”( 編者注:一個海量的、非結構化的、多語言的網頁數據集,包含了超過8 年的網絡爬蟲數據集)的一些數據,對整個互聯網進行了百分比達兩位數的采樣。所以,你的網站可能也在其中。但訓練數據不是模型。 LLM 不是數據庫。它們通過查閱了人們創建的大量文本來推斷或演繹出語言模式——我們會寫出內涵邏輯和結構的東西,LLM會查看這些文本并從中推斷出模式,但不會保留這些文本。因此,ChatGPT 可能已經看過《紐約時報》上千篇的文章,但并沒有保存那些文章。
此外,這一千篇文章本身也是只是全部訓練數據的一小部分。LLM的目的不是要了解任何特定文章或小說的內容,而是要了解人類集體智慧的輸出存在什么模式。
也就是說,這不是 Napster(編者注:一款可以讓用戶在網上下載自己想要的MP3文件的軟件)。 OpenAI 并沒有 “盜版”使用你的書或你的文章,這不是我們通常意義的“盜版”,它也沒有把你的那些書或文章免費分發出去。事實上,它對你那本特別的書根本就沒有需要。用Tim O'Reilly的名言來說,數據不是石油,而是沙子。沙子只有總數達到數十億才有價值,而你的小說、歌曲或文章只是筑就大金字塔的一粒塵埃。如果必須的話,OpenAI 可以在沒有任何報紙的情況下重新訓練 ChatGPT,而且這可能并不重要——它可能不太能夠回答有關曼哈頓上東區新開的咖啡店哪一家最好這樣的問題,但同樣地,這從來都不是它的目標。這不應該是一個預言機或數據庫。相反,作為理解人類思考方式的替代途徑,它應該通過盡可能多地觀察人們的說話方式,來推斷出“智能”(一個占位詞)。
另一方面,它也不是非要你的書或網站不可,也不關心你具體寫了什么,但它確實需要“所有”的書籍和“所有”的網站。如果一家公司刪掉自己內容對它沒什么影響,但如果每一家公司都這么做的話就不行了。
如果說這至少是未來十年的一項基礎性的新技術(不管關于通用人工智能的任何討論結果如何),并且它要靠我們所有人共同充當機械土耳其(mechanical turks)人來給它投喂數據(哪怕是事后)的話,我們大家能不能獲得報酬?我們會不會共同決定不干?或者會怎樣? “這件事情價值一萬億美元,并且有賴于利用我們所有的工作,但你自己的個人工作只占其中的 0.0001%,所以你什么也得不到”,這似乎有點不能讓人滿意。稱之為“公平使用”是不是就夠了?甚至這是不是對的?或者不管答案是哪一個,這重要嗎?我們會不會修改有關公平使用的法律?
到最后,也許這些并不是那么的重要:“大語言模型”中的“大型”是個移動標靶。這項技術之所以開始發揮作用,是因為 OpenAI 往哪個漏斗里面投入的數據比任何人想象的還要多好幾個數量級,然后另一頭就產生出合理且出色的結果,但我們沒法再次往里面添加更多數量級的數據了,因為剩下的數據確實沒那么多了。與此同時,這些事情的成本和規模意味著現在很大一部分的研究工作都是為了用更少的數據獲得相同或更好的結果。也許他們根本就不需要你的書。
與此同時,到目前為止我一直在討論進入到模型里面的東西——那么從里面出來的東西呢?如果我用受過過去 50 年音樂數據訓練的引擎來制作出聽起來像是全新且原創的東西呢?任何人都不應該幻想不會發生這種情況。在提出了很多我認為我們還不知道答案的問題之后,有一點對我來說似乎完全是清楚的:這些東西都是工具,你可以用工具來創作藝術,也可以用來制作貓的圖片。我可以購買卡地亞·布列松(Cartier-Bresson)買過的同一款相機,我可以按下按鈕然后拍攝出一張照片,我一筆都不需要畫,但這并不是藝術家的本質——攝影的關鍵在于你把鏡頭對準哪里,你看到了什么圖像,以及你選擇了哪一幅圖像。沒人會說這張圖片是機器制作的。同樣地,我可以在沒有任何技巧的情況下在Midjourney或 ChatGPT 上按下“Go”,但得到好東西也是一樣的困難。現在它們正處在達蓋爾銀版攝影法(編者注:法國巴黎一家著名歌劇院的首席布景畫家達蓋爾于1839年發明的利用水銀蒸汽對曝光的銀鹽涂面進行顯影作用的方法)階段,但人們會用它們來創作我們沒想象到的藝術,這不是因為我們缺乏技能,而是因為我們不是藝術家。Nader來了。

也許更有趣的問題是,Spotify 上面已經有大量“白噪音”及類似曲目,它們操縱推薦算法,每次播放獲得的版稅堪比泰勒·斯威夫特或滾石樂隊。如果我們真的能夠制作“過去十年熱門歌曲風格的音樂” ,那么會有多少這樣的音樂,我們又該如何應對呢?我們該如何找到好東西,或者如何定義好東西?又或者,我們會關心這些嗎?
幾周前,在倫敦的一家美術館里,我看到了丟勒的一幅版畫,但其實它不是丟勒的版畫,而是拉斐爾的學生雷蒙迪(Raimondi)在 1506 年左右制作的復制品。Vasari告訴我們,丟勒對此非常憤怒,跑到威尼斯把學生給告了。威尼斯地方法官對這個問題的思考框架我很欣賞:他們的裁決是雷蒙迪可以繼續制作復制品,但不能再把丟勒的logo放進去。這是一個與知識產權相關的案件,但判決也是兩種真實性觀念之間的巧妙分歧。我們關不關心它是誰制作的?為什么要制作?或者我們只是想要這張照片?這就是為什么有些人對音樂生成器或Midjourney感到恐懼(或者,150 年前,對相機感到恐懼),而另一些人則根本不擔心的原因。
譯者:boxi。
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。