AI的理解困境:如何走出數據世界,觸達生命的理解?
原文來源:追問nextquestion

圖片來源:由無界 AI生成
當前,生成式AI正席卷整個社會,大語言模型(LLMs)在文本(ChatGPT)和圖像(DALL-E)生成方面取得了令人驚嘆的成就,僅僅依賴零星幾個提示詞,它們就能生成超出預期的內容(比如追問每一期的封面圖)。
以大語言模型為代表的生成式AI取得的進步促使我們思考:ChatGPT真的能夠理解它們在“談論”的東西嗎?抑或只是塞爾“中文屋”*的一個實例?它能“捕捉”外在現實嗎?或僅僅是自然語言數據催生的擬合現象(mimic)?更深層地,生成式AI是通向人工理解(artificial understanding)的正確道路嗎?除復制數據外,它是否還能理解詞語、感知和行為的“意義”?或者它是否僅僅是一種自我限制的方法的終結?
*中文屋(Chinese Room):由美國哲學教授約翰·塞爾提出的一個思想實驗,借以反駁強人工智能的觀點。根據強人工智能的觀點,只要計算機擁有適當的程序,理論上就可以說計算機擁有它的認知狀態并且可以像人一樣進行理解活動。但中文屋指出,計算機即使可以回答用人類語言提出的問題,但它也無法建立人類語言的語義關系,無法理解人類語言。它只會根據規則,機械擺弄符號。
John R. Searle.?MINDS, BRAINS, AND PROGRAMS.?[2014-07-23].
在《生成意義:主動推理與被動AI的范圍與限制》一文中,Giovanni Pezzulo、Thomas Parr、Paul Cisek、Andy Clark和Karl Friston試圖通過比較生命有機體的主動推理模型(active inference)與AI的被動生成模型,指明“理解”的真正基礎,并思考生成式AI是否能夠獲得理解能力。?

?圖1.Generating meaning: active inference and the scope and limits of passive AI,https://doi.org/10.1016/j.tics.2023.10.002。圖源:cell
生成式AI的局限
生物系統與主動推理許多哲學家(如Andy Clark、Merleau Ponty)、心理學家(如James Gibson、Lawrence Barsalou)和神經科學家已經達成共識:大腦的基本功能并非積累知識,而是控制與世界的信息和能量交換。更重要的是,特定的相互作用以特定的方式穩定地改變事物的狀態(例如,進食能夠減少饑餓,逃離捕食者能夠減少危險等)。所以,重要的不是知識的真實性,而是與世界交互形成的穩定性。
所以,在這種互動中,世界的某些特定特征對我們尤為重要,因為它們決定了我們的行動方式。吉布森將這類特征稱作可供性*,即環境提供的行動可能性。生物系統通常以感覺運動(sensorimotor)來響應這些可供性。例如,平坦的地面可以用來支撐,用來坐,也可以用來放東西。
*注:可供性(affordance),afford一詞的名詞形式,Gibson在《視覺的生態學進路》(The Ecological Approach to Visual)一書中首次對這一概念做出系統性的闡述??晒┬允黔h境提供給生物的行動可能性,它可能是好的,也可能是壞的??晒┬约确强陀^性質,也不是主觀性質,而是生物與環境互動的產物。
此外,生物系統的另一特征是在與世界進行互動之前,它們能夠基于已掌握的關于動態世界的知識,做出行動預測。這種預測是主動推理(active inference)的基石。簡單來說,主動推理認為,生命有機體的感覺行為根本上是預測性的,而非隨機被動觸發,它建立在能夠提供可供性的世界模型之上。
兩種生成模型生成式AI與主動推理有一個共同的承諾:它們都強調基于生成模型的預測。不過,雖然都是以生成模型為基礎(圖2),但它們的運作機制并不相同。

?圖2:生成式AI和主動推理的生成模型。圖源:原始論文。
在主動推理中,生成模型不僅僅用于預測,而且是能動性(agency)的擔保。它們會對外在或內在世界的目標導向、決策和計劃進行推理。在非活動狀態(offline),例如在反省或睡眠中,主動推理的生成模型也會模擬過去的反事實場景(即“如果過去不是怎樣便會如何”的推理)和可能的未來,以此優化生成模型,從而產生行為策略。
與此相反,生成式AI則是基于深度網絡,通過自監督學習從信息中建構生成模型。以大語言模型為例,他們在推測一個語句中的下一個詞語時,通常使用的是自回歸模型和變換器模型(transfer architecture)。經過大規模的樣本訓練,大語言模型就能用靈活的預測生成全新的內容。并且,它還擅長一些下行任務(如總結文本和回答問題),并能用細粒化的特定領域的數據集解決更多任務(如寫科幻小說)。
這兩種生成模型的關鍵區別在于,主動推理所做出的回應是有意義的,而這種意義基于感覺運動經驗。例如,回應“向北”或“向南”的問題會與在物理空間中特定的行動可能性關聯起來,神經加工的多感官狀態和情感狀態也會參與其中。盡管人工系統能夠通過訓練習得空間轉譯(spatial translations)的統計學規律,但空間轉譯對于能夠在空間中移動的生物和沒有移動能力的人工系統來說,意義大相徑庭。對于前者,空間轉譯關乎行動的可能性以及對世界的因果理解。
生命有機體的意義理解
成功的生成模型能夠從數據中提煉出“潛在變量”,這些變量有助于解釋和預測。生成式AI能夠用潛在變量反應統計學規律,以超越訓練數據的界限;生命有機體提煉潛在變量的目的可能是更好地預測世界狀態。盡管它們都能提取潛在變量,但主動推理與生成式AI的處理方式不同。主動推理的生成模型涉及理解,并將潛在變量作為概念形成的基礎。
對于人類和其他生物來說,與世界的互動是在探索世界的特定性質。一個桌子不僅是以木材為原料,由桌腿、桌面構成的物體,而是能夠承載盤子,能夠坐人,能夠在地震中作為庇護所的可供性的集合,這些可供性就是桌子的潛在變量?!白雷印币辉~僅僅是一個象征符號,或一個簡稱。具體來說,“桌子”是“能放東西的、能坐的和能隱藏于其下的那個對象”。因此,桌子這個概念實際上是與行動結果相關聯的潛在變量的集合(constellation)。生命有機體通過感覺運動經驗來了解對象。而輕重、大小等抽象概念,則以這些多感官提供的信息為基礎發展而來。
語言能力也是以感官模塊為基礎,在互動(即溝通)中發展起來的。從具身的角度來看,溝通就是一種感覺運動互動。溝通的意義不在于語音和語法,而在于由溝通所預測的社交互動。人類的語言交流雖然將抽象化發展到了極致,但仍然以互動和控制為基礎。語詞是有意義的互動的縮寫,是在互動中被約定下來的。我們也是在與同類的互動中習得語言符號的意義。當前以語言習得為基礎的認知機器,就要在目標導向行動的背景下開發語言和符號能力。而大語言模型和其他生成式AI只是從大量多感官模塊的文本數據中被動地學習。
簡而言之,我們對語言符號的理解源自于與活生生的世界的互動,而非單純的對自然語言的運用。生成式AI所具有的潛在變量,或許能夠把握關于世界的統計學規律,卻略過了它們的形成過程。實際上,生成式AI只是繼承了人類溝通所得的語言財產,卻不會參與到賦予語詞意義的互動過程中。在大語言模型中,只有生產訓練文本和轉譯文本的人才能夠理解語詞的含義。
基于行動的具身智能
孩子不是習得知識,而是通過經驗以及與環境的互動建構知識。
——Maria Montessori
給予生成式AI更多的數據,它們能夠獲得理解嗎?當務之急是要指明理解的真正基礎是什么。
實際上,生成式AI習得概念的方式與生命有機體大相徑庭(圖3)。生命有機體通過與環境的感覺運動互動來學習,這種互動不僅包括了統計規律的掌握,更重要的是,它們是形成知覺和對世界因果關系理解的基礎。生命有機體通過感覺運動經驗和在環境中的動態移動,習得了對環境的各種表征,如可供性、空間、對象、情境、自我感和能動感等。我們的大腦也編碼了與環境的互動和可供性。有研究表明,海馬體和內嗅皮層通過路徑整合自我移動的信息,發展出空間編碼(包括對抽象的概念空間的編碼)*。前額葉皮層也包含著探測可供性的空間回路。這種具身智能是發展出抽象的概念思維的基礎。

?圖3:生成式AI和生命有機體如何學習生成模型來解決圖2的尋路任務。圖源:原始論文。*注:The hippocampus maps concept space, not feature space. J. Neurosci. 2020; 40: 7318-7325
與此不同,當前生成式AI所謂的“理解”并不是以行動為基礎,它們只是被動地反映數據的統計學規律,而非呈現關于世界的因果規律。這種方式缺乏對數據的主動選擇和訓練中的干預,因此無法形成對行動和其結果之間因果關系的理解,也不能區分預測與觀察的差別。
生成式AI往往依賴于其模型的復雜性來提高預測準確性,但這種方法也帶來了一定的局限性。這些系統在特定任務上表現出色,卻難以推廣到其他類似任務。這種局限性并不能簡單地通過增加數據量來克服。因為理解語境敏感的語言不僅需要大量的數據,更需要能夠從數據中提煉出深層的含義和模式。
此外,生成式AI與生物有機體也以不同的方式決定需要關注的信息。生成式AI中變換器模型的注意力機制發揮過濾功能,通過指派不同的權重決定哪些信息是有價值的。而生命有機體的注意力涉及到主動選擇,其目的是消除不確定性。
生物體在演化的過程中,面對自然選擇的壓力,發展出了獨特的生成模型。例如,我們的情緒,根植于對某物“對我重要”的感覺,這為我們對世界的理解賦予了意義和目的。在主動推理的過程中,我們利用內感受預測(interoceptive prediction)來引導行動和決策,這種方式使我們能夠更好地理解行動的原因和后果。這種內感受、外感受和本體感受的預測共同促進了生命體的生存。因此,與生成型AI不同,生物的主動推理模型自然形成,不需要像AI那樣不斷地學習細?;摹⒎睆偷娜蝿?。
此外,為了存活下去,生命有機體不能只是消極待命,等待信號來刺激,而要積極主動地與世界進行有目標的互動。這意味著生命有機體的生成模型必須保證在探索新模式和利用舊模式之間審慎權衡,做出靈活的選擇。此外,為了更具普適性,這還要求模型不僅要準確,還要節約能量。在生態位(ecological niche)中,這種權衡能夠支持不同時間尺度下的行動和知覺。在主動推理中,探索性行為和利用性行為之間的權衡,以及生成模型的效率和準確性之間的權衡,都可以通過最小化自由能來解決。但生成式AI尚未能實現這種情境敏感的、靈活的控制。
最后,從系統發育軌跡來看,生成式AI與主動推理也有本質區別。具有抽象思維和語言能力的生命有機體,能夠發展出一種特殊的心智表征方式——我們稱之為“分離性表征”(detached representation)。這些表征雖然起源于感覺運動經驗,但最終能夠從其最初的環境中獨立出來,形成自主的獨立存在。例如,我們能夠在沒有直接感知物體的情況下,通過想象和語言討論它們。
這種獨立于直接感覺經驗的表征能力是高級認知功能(如規劃、想象和討論抽象或不在場的事物等)的基礎。復雜的心智生活需要這種能力,使得我們從直接的、實用的表征轉變為語義的描述性表征。這一轉變通過復雜的社交互動和對世界的深入參與得以實現,從而拓展了我們對事物的理解和意義的界限。當前的生成式AI走的是一條完全不同的發展路徑,它們直接從文本中獲得知識。這一過程受到了當前科技,如大型數據集和高效的變換器模型的可用性的驅動。
簡而言之,真正的“理解”以能動性理解為基礎,建基于有機體通過感覺運動與世界進行的互動,建基于生命有機體對環境的主動探索。更深層次的理解需要分離性表征的能力,即使這種能力仍然基于與世界的互動,但它能夠超越當前情境,進行規劃、想象和討論抽象概念。這種理解不僅僅是對統計規律的掌握,而是對世界模型背后的因果結構的深入認識。
生成式AI的出路何在?
繼續沿著老路擴大生成式AI的規模,是通向真正智能的可取方法嗎?
要想使得生成式AI生成意義并擁有理解能力,當前有兩種選擇。要么堅持原有方法,朝著更加復雜的方向發展。要么轉變思路,強調對訓練數據的主動選擇。
當前的研究大多堅持第一種選擇,即提升生成式AI的復雜性來提升其性能。這種復雜性主要體現在模型參數的增加和訓練數據量的擴充上。此外,還包括輸入信息類型的多樣化,以及增添更多的功能和能力,以求實現更高級的AI應用。然而,還有一種潛在的、更為深刻的方法常常被忽視,即讓模型通過與世界互動進行主動選擇,在獲得關于世界的知識的同時,追求內在目標。
當前的大語言模型是以我們對世界的描述為中介來理解現實的。僅僅建立基于文本的大語言模型,然后嘗試將之與世界關聯起來以獲得對世界的理解,可能并不是最有效的途徑。更可靠的方式可能是先讓AI系統在與現實世界的互動中學習,然后再將這些經驗與大型語言模型結合。但這種“互動在先,模型在后”的方法,目前還未被系統地研究過。
人工智能,作為人類之鏡
生成式AI只能基于被給予的提示詞或文本產生結果,而不能像主動推理一樣生成原因,如生成計劃(planning)。這提供了幾個基本的暗示:
首先,真正的計劃蘊含著能動性,只有能動者才具備“行動-結果”的生成模型。其次,這意味著主動推理的生成模型并非單純依賴數據輸入,而是需要在世界進行實時的感覺運動互動中獲得。也就是說,生成模型以世界模型為基礎;“行動-結果”模型能夠揭示出世界的因果結構,而信息收集只是隱秘地以統計學規律反映因果結構。
從實踐層面來看,生成式AI并不適合作為自動機器人或自動駕駛技術的理想模型。此外,由于生成式AI沒有可供性,因此它沒有由好奇心驅使的主動學習機制。相較于此,具身智能可能是一個更有效的模型。
盡管生成式AI存在上述種種局限,但它仍然對我們的生態系統產生了深刻影響。它引導我們反思人類的理解過程,尋找世界模型與信息流之間的橋梁。我們人類不斷外化我們的思想,創造出全新的對象,這些對象也需要我們去審慎地檢視。生成式AI就是一個生動的案例,它揭示出一種未被我們關注的認知自我的建構方式。
可以說,生成式AI就像是21世紀的一面人類之鏡,我們在其中照見自己,但遺憾的是,鏡子之后卻空無一人。
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。