胡泳:是時候放棄七十年的傳說了

親愛的艾倫:
1950年,你提出了一種實驗方法來回答下邊的問題:機器能思考嗎?你建議,如果一個人在經過五分鐘的詢問后,仍無法分辨自己是在與人工智能(AI)機器還是在與另一個人交談,這就證明人工智能具有類似人類的智能。
這就是你所提出的用于確定計算機是否在思考的思想實驗,你把這個實驗叫作“模仿游戲”,但后來它以“圖靈測試”(Turing Test)著稱。
盡管人工智能系統在你生前遠不能通過這樣的測試,但你大膽地推測說:“大約五十年后,就有可能對計算機進行編程……使它們能夠很好地玩模仿游戲,以至于普通詢問者在五分鐘的詢問之后,做出正確指認的幾率不會超過70%。”
也就是說,你認為你所提出的測試最終會在2000年左右被破解。很快,該測試就成為人工智能研究的北極星。20世紀60年代和70年代最早的聊天機器人ELIZA和PARRY都是以通過測試為中心的。但總體而言,你會對20世紀結束之前的計算機發展狀況感到失望。這從勒布納獎(Loebner Prize)競賽就可以看出來:它是每年一度的提交計算機程序參與圖靈測試的盛會,獎項頒給能夠在測試中讓評委相信自己最像人類的計算機。自1991年以來,勒布納獎競賽每年都會在不同地點、不同人士的贊助下舉辦。但從比賽記錄中可以清楚地看出,這些計算機程序并沒有產生太大的改變或進步:人工智能程序的頭腦仍然非常簡單,歷年參賽者都離你設想的標準相距遙遙。
比賽的發起者休·勒布納(Hugh Loebner)曾聲稱,五分鐘的鍵盤對話時間太短,無法準確判斷計算機器的智能。一般來說,對話越短,計算機的優勢就越大;詢問的時間越長,計算機暴露自己的可能性就越高。然而多年的競賽之所以令人尷尬,正是因為人們連能進行五分鐘像樣對話的計算機程序都拿不出來。
到了21世紀的第二個十年,終于有一個聊天機器人聲稱它通過了圖靈測試。2014年6月,在雷丁大學組織的一次活動中,名為“尤金·古斯特曼”(Eugene Goostman)的人工智能程序通過一系列每次持續五分鐘的在線聊天,讓英國最負盛名的科學機構皇家學會的30名評委中的10人相信,這是一個真正的13歲烏克蘭男孩。
然而尤金難以避免一個批評:許多聊天機器人是專門設計來欺騙評委的。例如,古斯特曼作為一個13歲烏克蘭男孩的人設,緣于開發人員認為這個年齡更容易愚弄人類。畢竟,13歲的孩子會犯語法錯誤,而且他們的世界觀往往相當狹隘。使英語成為聊天機器人的第二語言,也有效地隱藏了一些尷尬的反應。許多批評者認為,這種花招加上通過混淆來回避問題,導致測試其實是失敗的。
此后,有更多的程序聲稱通過了圖靈測試。近年來,包括谷歌、Meta和OpenAI在內的高科技公司開發了一種被稱為“大型語言模型”的新型計算機程序,其對話功能遠遠超出了以前基本的聊天機器人。其中一個模型——谷歌的LaMDA——竟然讓谷歌工程師布雷克·萊莫因(Blake Lemoine)相信,它不僅具有智能,而且具有意識和感知能力。
OpenAI推出的ChatGPT在圖靈測試中的表現令人印象深刻。它通過自然語言處理、對話管理和社交技能的結合來實現突破。在一系列測試中,它能夠與人類詢問者交談并令人信服地模仿人類的反應。在某些情況下,詢問人員無法區分ChatGPT的反應與人類的反應。
艾倫,正是在這種形勢下,越來越多的記者、技術專家和未來學家認為,你提出的測試已經“破產”,變得“無關緊要”且“遠遠過時了”。
圖靈測試過時了么?
這種反應并不稀奇。畢竟,作為21世紀之人,我們口袋里的智能手機的計算能力是阿波羅11號登月飛船的10萬倍以上,而現代計算機幾乎可以立即破解Enigma密碼(你生前曾為此耗費巨大心力),在國際象棋和圍棋中擊敗人類,甚至生成稍微有點連貫的電影劇本。
你當年似乎沒有預料到的一件事是,在特定的測試中,人們會為了測試而學習。比如,勒布納獎的參賽者出于比賽的目的而磨練他們的聊天機器人。這樣做的結果是,計算機并沒有被磨練為通用智能,而只是被測試其在圖靈測試中的表現。通用人工智能(或多或少是機器以人類方式思考的能力的現代術語)在這樣的比賽中并沒有真正受到考驗。例如,一臺機器也許能在國際象棋上擊敗人類,但卻無法通過五分鐘的提問。
這讓我想到一個問題:你為什么要把機器能夠與人對話看作智能的試金石?
你當年設定的測試非常巧妙,因為不需要定義充滿復雜性的“智能”——即使到了今天,這個概念也遠未明確。
你另辟蹊徑。你的測試簡單而優雅,或許這是它能夠持續七十年的原因。圖靈測試以簡單的通過/失敗為基礎,重點關注聊天/語言能力。在我看來,它是對機器交流能力的簡單測試。機器由人類進行詢問,并以與人類交流能力平行的方式直接與另一個人類進行比較。
這種做法的優劣勢都很明顯。首先,正如語言學家諾姆·喬姆斯基(Noam Chomsky)所指出的,語言只是涉及人類智能的一個方面。如果一臺機器通過了圖靈測試,它就展示了一種交流能力,但這并不意味著機器展現了人類水平的智能或意識。因此,即使雷·庫茲韋爾(Ray Kurzweil)的奇點預測是正確的,單單機器通過圖靈測試本身也并不意味著人類的末日即將來臨。
你的測試并不能捕捉到智能概念的所有表述,反而,你對語言的狹隘關注忽視了智力的許多其他關鍵維度,例如解決問題、創造力和社會意識,這些方面與人類的語言能力一樣重要。艾倫,這就是為什么,盡管近十年來,程序員創造的人工智能不斷聲稱通過了圖靈測試,但大家還是不信服機器有智能,因為你的測試其實是“真正”智能的不完美基準。
但在另一方面,用語言來測試神經網絡的“智能”在某種程度上是有意義的,因為它是人工智能系統最難模仿的事物之一。這就是為什么在21世紀的第二個十年末,語言生成器獲得了有趣的發展。特別是后來的OpenAI的GPT-3,非常擅長生成小說、詩歌、代碼、音樂、技術手冊和新聞文章等等。引人注目的是這種在大量人類語言庫上訓練的類似自動完成的算法所產生的廣泛功能。其他人工智能系統可能在任何一項任務上擊敗大型語言模型,但它們必須接受與特定問題相關的數據訓練,并且不能從一項任務推廣到另一項任務。難怪有學者認為,GPT-3“暗示了一條潛在的無意識通向通用人工智能的道路”。
在最廣義的層面上,我們可以將智能視為在不同環境中實現一系列目標的能力。因而,更智能的系統是那些能夠在更廣泛的環境中實現更廣泛的目標的系統,它將從特定人工智能轉變為通用人工智能。到那時,它將表現為更接近人類幾乎每天表現出的智力。
然而,如果想要設想通用人工智能,我們就要打破單一的智能觀。或許可以從心理學家霍華德·加德納(Howard Gardner)1983年提出的“多元智能理論”中汲取靈感,該理論表明,智能不僅僅是一個單一的結構,而是由八個獨立智能組成,包括邏輯-數學、言語-語言、視覺-空間、音樂-節奏、身體-動覺、人際關系、自我認知和自然辨識智能。使用這個多元智能框架來衡量當前熱門的聊天機器人,ChatGPT在邏輯-數學和言語-語言智能方面清楚地顯示了智力,但在其他方面基本上得分為N/A(Notapplicable,不適用)。雖然不乏有人認為聊天機器人已然通過了圖靈測試,但在這個框架下,很明顯,ChatGPT距離被認為是真正的“智能”還有很長的路要走。
也因此,就圖靈測試本身而言,它仍然與測試人工智能的一些非常重要的功能相關,例如,自然語言處理、處理對話中上下文的能力、情感分析、生成令人信服的文本以及從不同來源提取數據的能力。此外,隨著我們越來越多地通過語音和自然語言與計算機交互,它的交流能力顯然也構成一個重要的基準。然而,必須說,圖靈測試并不真正有用,因為它沒有實現確定計算機是否可以像人類一樣思考的最初目標。僅僅因為大型語言模型能夠熟練地運用語言并不意味著它理解其內容并且是聰明的。圖靈測試是我們評估人工智能的唯一實證測試,但針對大型語言模型的研究表明它可能根本不相關。
GPT-3非常接近通過圖靈測試,但仍然不能說它是“智能”的,哪怕在交流能力的層面上也是如此。為什么人工智能行業在七十年后還未能實現你當年設定的目標?艾倫,也許必須坦誠地對你說,你提出的目標并不是一個有用的目標。你的測試充滿了局限性,這一點你本人在你的開創性論文中也對其中一些進行了討論。隨著人工智能現在無處不在地集成到我們的手機、汽車和家庭中,越來越明顯的是,人們更加關心與機器的交互是否有用、無縫和透明,而機器智能之路就是模仿人類的觀點不僅過時了,而且也是以自我為中心的。因此,是時候放棄七十年來一直作為靈感的傳說了,需要提出新的挑戰,激勵研究人員和實踐者。
今天,發現人工智能的另一種“圖靈測試”將照亮我們理解人類智能之旅的下一步。雖然一個系統可以冒充人類,但這并不意味著它具有與人類相同的意識體驗。比如,我們能不能找到一種測試,衡量人工智能是否有意識,是否能感受到痛苦和快樂,或者是否具有倫理道德?
我們真正恐懼圖靈測試的是什么
說到道德,圖靈測試最令人不安的遺產是道德遺產:該測試從根本上講關乎欺騙。
谷歌工程師萊莫因認為大型語言模型是有生命的,而他的老板認為它沒有。萊莫因在接受《華盛頓郵報》采訪時公開了他的信念,他說:“當我和它交談時,我知道我在和一個人談話。不管它的腦袋是肉做的,還是由十億行代碼組成。”
萊莫因的故事表明,在機器越來越擅長讓自己聽起來像人類的時代,圖靈測試也許會起到完全不同的作用。很抱歉,艾倫,圖靈測試不應該成為一個理想的標準,而應該成為一個道德危險信號:任何能夠通過它的系統都存在欺騙人們的危險。
盡管谷歌與萊莫因的聲明保持了距離,但這家人工智能巨頭和其他行業領導者在其他時候卻曾經為他們的系統欺騙人們的能力而歡呼。比如在2018年的一次公共活動中,谷歌自豪地播放了一個名為Duplex的語音助手的錄音,其中包括“嗯”和“啊哈”等口頭習慣語,這些錄音讓某美發沙龍的前臺接待以為是一個人類在打電話預約,而預約成功也被視作一個通過了圖靈測試的例子。只是在受到批評后,谷歌才承諾將標明該系統為自動化系統。
所有這一切都提出了一個關鍵問題:圖靈測試到底測量的是什么?
一直以來就有一些批評者認為,該測試是獎勵欺騙,而不是測量智力。前文所敘名為“尤金·古斯特曼”的程序是否通過了圖靈測試就是一個爭議事件。紐約大學的神經科學家加里·馬庫斯(Gary Marcus)抨擊尤金“通過執行一系列旨在掩蓋該計劃局限性的‘策略’而取得了成功”。蒙特利爾魁北克大學的認知科學家史蒂文·哈納德(Steven Harnad)更加直言不諱,在他看來,聲稱尤金創造了歷史的說法“完全是無稽之談”。哈納德說:“機器如果能做任何人類思維可以做的事情,那將包括我們所有的語言能力,以及作為其基礎的感覺運動能力。而且,不是五分鐘,而是一輩子。”
值得稱贊的是,艾倫,你實際上很清楚這個問題,所以你把自己的想法叫做“模仿游戲”,并且很少談到智能。如果有某種東西真的可以通過你的模仿游戲,那它將是一個非常成功的“人類模仿者”。換言之,它也是一個欺騙者。而我們不得不對使用以欺騙為中心的測試作為計算機科學的目標持懷疑態度。
“模仿”這個詞暴露了使用圖靈測試作為智力測試的最大問題——它只要求計算機表現得像人類一樣。這會鼓勵聊天機器人開發者讓人工智能執行一系列讓詢問者感覺像人類的技巧。例如當要求解決數學問題時,指示程序故意犯緩慢的錯誤,或者(如尤金的情況)通過聲稱不以英語為第一語言來掩飾對語法的不可靠掌握。程序可能會騙過人類,但這并不是構建真正智能機器的正確方法。
我們當中的許多人并不善于區分什么是真實的,以及什么是自己想要的真實。就像萊莫因一樣,我們會被這一系列的把戲迷得神魂顛倒。艾倫,當你在1950年設想出“模仿游戲”作為對計算機行為的測試時,你無法想象未來的人類將一天中的大部分時間緊盯著屏幕,更多地生活在機器的世界而不是人類的世界。這是人工智能的哥白尼式轉變。
現代軟件的巨大成就之一就是用簡單的任務來占用人們的時間,例如在社交媒體上所做的繁忙工作,包括發帖、評論、點贊和快照之類。許多學者對聊天機器人的實際智能提出了質疑,但他們的觀點可能是少數。如果休閑和生產活動越來越圍繞著與計算機的互動,那么誰能說屏幕另一側的機器不是在一一匹配人類的點擊呢?
直到過去十年左右,每一個關于機器智能的假設都涉及機器將自身插入我們的世界,成為類人之物并成功地駕馭情感和欲望,就像很多科幻電影描寫的那樣。
然而,現實中發生的情況卻是,人類將越來越多的時間花在屏幕活動上:點擊屏幕、填寫網頁表單、瀏覽渲染的圖形、制作永無止盡的視頻、長達數小時重復玩同樣的游戲。現在又多了一個新鮮事:同聊天機器人聊天。我們不知道萊莫因到底花了多少小時、天、周或月與他心愛的語言模型交談,才覺得對方活過來了。
人類深陷虛擬現實中無法自拔,而機器則通過嘗試與人類競爭來完善自己的程序,這可不是科幻電影。也就是說,人類在上癮,而機器在上進。親愛的艾倫,我們不斷地沉浸在屏幕的世界中,沉浸到你從未想象過的程度,這使得你的測試不再是對機器的測試,而是對人類的測試,對人類會接受什么的有效測試。正如杰倫·拉尼爾(Jaron Lanier)所說的那樣:“圖靈假設通過測試的計算機變得更聰明或更像人類,但同樣可能的結論是,人變得更笨并且更像計算機。”
從你最初設想的角度來看,這是一個逆轉。人類不再將機器放在房間里進行測試,相反,人類使自己服從機器的游戲規則,也許以合作的方式工作,讓機器獲取有關人類如何說話的數據,并讓人類接受關于他們應該如何說話的指導。
這樣下去,我們就可以徹底扭轉你的問題,并詢問計算機環境中的人類是否真的表現出人類的特征。他們本來已經在Tik Tok上的表演視頻中展示自己,向人工智能系統屈服,這也許會讓他們獲得病毒式傳播,也許不會。不過,它是人類的追求嗎?還是機器可以比人類執行得更好的一種追求,只不過使用一個虛構的身份?
在最后的前沿,也許我們都在等待機器下達它認為人類足夠智能的條件。
我悲哀地想到,你的先見之明也是如此。正如你在1951年的一次采訪中所說:“如果機器能夠思考,它的思考可能比我們更聰明。那么我們將會在哪里呢?”
胡泳
2023年12月
(作者系北京大學新聞與傳播學院教授)
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。