智能體模擬《西部世界》一樣的社會,復旦大學等出了篇系統綜述
AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
引言傳統社會學研究依賴問卷調查和心理實驗等方法收集數據,盡管真實可靠,但成本高、難以規模化且存在道德風險。近年來,大語言模型(LLMs)憑借強大的推理和規劃能力,為模擬人類行為提供了新的機遇。通過角色扮演,LLMs 驅動的智能體能模擬特定情境下的個體反應,成為研究人類行為的有效工具。與此同時,多智能體的交互被廣泛用于解決問題和模擬復雜動態。LLMs 可被定制為具備特定知識和技能的智能體,通過協作實現目標、完成任務;它們的簡單互動也能涌現復雜集體行為,模擬現實中的復雜社會動態。這些模擬為對社會現象的理解與預測提供了新工具,也為政策制定和社會管理提供了支持。圖 1:大模型智能體驅動的社會模擬概覽。本文將現有工作分為個體模擬、場景模擬和社會模擬。從左到右,對個體建模的多樣性和規模逐漸增加,從右到左,對個體建模的精確性需求增加。目前,這一領域發展迅速,但現有綜述多聚焦于單智能體的架構、特定能力或多智能體系統的某些方面,尚缺乏從個體到社會模擬的系統性回顧。因此,本文試圖填補這一空白,為該領域提供全面的概述。考慮到模擬目標以及個體建模在精確性、多樣性和規模上的不同需求,本文將現有工作歸納為三種類型:個體模擬(Individual Simulation):利用 LLM 智能體來模擬特定個體或群體,側重于對于單個人的特征復制,而不涉及多智能體交互;場景模擬(Scenario Simulation):在一個集中的場景中組織多個智能體,由特定的目標或任務驅動,通常集中在特定場景中的小規模智能體上,研究多智能體的集體智慧;社會模擬(Society Simulation):模擬智能體社會中更復雜多樣的行為,探索現實世界應用中的社會動態,從小范圍對社會理論、假設的驗證,到對大規模的現實社會現象的探索。這三類模擬呈現出遞進關系:個體模擬為場景模擬和社會模擬奠定基礎,而社會模擬則有潛力構建由無數場景組成的復雜世界。本文依次總結了三類模擬的研究進展,并探討它們的發展趨勢,旨在推動這一領域的進一步發展,同時為跨學科研究提供支持。
綜述鏈接:https://arxiv.org/abs/2412.03563項目地址:https://github.com/FudanDISC/SocialAgent個體模擬個體模擬基于模塊化的體系結構,利用特定人物或人群的個性化數據,以高保真度為目標模擬這些對象。本文提出了一個系統化的框架來整理和概括個體模擬的相關工作,從整體上系統地分析和指導個體模擬的設計與應用,通過將智能體的基本架構與個體模擬的特點相結合,這個框架包含:智能體架構、構建方法、模擬對象和評估方法。
圖 2: 大模型驅動的智能體個體模擬示意圖。個體智能體通常由一個具有概要、記憶、規劃和行動模塊的框架組成,以模擬特定目標,如人物個體或人群個體。個體模擬可以通過靜態和交互的方式進行評估,并觀察不同的維度。智能體架構有效地模擬個體需要構建一個能夠準確再現個體特征的智能體架構。通常,這種架構被模塊化為四個核心組件:概要、記憶、規劃和行動。概要(Profile):向模型提供被扮演個體的基本信息特征,繼而影響其行為。概要涉及個體的年齡、性別、心理學特征等,主要通過描述和對話的形式呈現,通常包括人工整理和借助大模型生成兩種方式。記憶(Memory):存儲并利用已有信息和感知信息,確保智能體行為一致性和連續性。記憶分為短期記憶和長期記憶。記憶的主要操作包括寫入、檢索和反思三種類型。規劃(Planning):幫助智能體模擬人類處理問題時的個性化決策過程,使其與模擬個體的思維方式一致。個體模擬的規劃可以分為共情規劃和主觀規劃。行為(Action):將智能體的決策轉化為特定的輸出,支撐智能體與環境互動。行為的環境主要有簡單對話和塑造情景兩類,而行為類型分為開放域行為和封閉域行為。詳細論述請讀者參閱原論文Section 3.1,以及表格 1 中對現有代表性工作架構組件的總結。構建方法個體模擬旨在將個體數據整合到 LLMs 中,以實現智能體與個體的對齊,進而模擬個體行為。構建方法分為兩種類型:非參數化提示和參數化訓練。非參數化提示:直接通過提示詞直接為模型提供個體數據,依靠模型的上下文學習能力來模擬個體。個體描述通常通過系統提示詞輸入到模型中。參數化訓練:通過更新通用模型的參數來實現個體模擬,主要分為預訓練、微調和強化學習三種方式。預訓練在原始大模型上直接訓練擬合個體相關數據。微調則根據特定任務和情境,調整模型以適應個體模擬需求。強化學習通過在動態環境中優化模型,不斷學習個體行為來改進模擬效果。詳細論述請讀者參閱原論文Section 3.2,以及表格 1 中對現有代表性工作構建方法的總結。模擬對象應用場景和目標的不同會影響模擬對象的尺度和粒度。根據模擬的范圍和細節,模擬對象可分為人群個體和人物個體兩類:人群個體:指具有相似特征(如心理特征或身份特征)的群體代表。人群模擬通常用于反映群體意見、評估特定群體的偏好和偏見。此類模擬常通過非參數化提示方法實現。人物個體:指特定的個體,通常是廣泛為人所知的角色。人物模擬中的角色可分為真實角色和虛擬角色,這些角色通常可以獲取相關的高質量數據。詳細論述請讀者參閱原論文Section 3.3,以及表格 1 中對現有代表性工作模擬對象的總結。評估方法個體模擬的評估方法可以分為靜態評估和交互評估兩類。靜態評估:通過讓智能體直接生成輸出進行評估,通常采用簡單的問答、選擇題或采訪形式。靜態評估可分為主觀評估和客觀評估,分別依賴人工或大模型依據主觀標準進行判斷,或使用數學和統計工具基于具體指標進行分析。交互評估:在交互環境中評估智能體在與其他智能體或用戶互動中的模擬能力。交互評估常應用于游戲表現、任務完成和角色扮演等場景,其關鍵特點包括精心設計的交互環境、實時的外部反饋以及多階段的評估過程。詳細論述請讀者參閱原論文Section 3.4。場景模擬現實世界中,個體不是獨立存在的,而是通過合作完成特定任務。場景模擬將一組智能體組織在一個具體場景中,由特定目標或任務驅動其行為。場景模擬通常從設計多智能體系統入手,包括構建環境、建模角色、以及設定組織結構與通信協議,以便有效管理智能體之間的互動。
圖 3:場景模擬示意圖。在給定特定場景的情況下,構建一個多智能體系統涉及對環境、角色、組織和通信進行建模。場景模擬完成后,通過不同的評估層次和策略進行評估。組成要素隨著場景模擬的日益復雜,構建一個能夠適用于多場景的統一系統框架尤為重要。現有系統的基本形式可以總結為:“通過受限的通信方式,將智能體組織起來,在特定環境中扮演角色”。基于這一框架,我們歸納了場景模擬的四個核心要素:環境、角色、組織和通信。環境(Environment):在場景模擬中,環境定義了智能體操作與交互的具體背景。就像人類從周圍環境中獲取信息一樣,智能體也依賴于環境從不同的來源接收輸入信號。這些信號指導著智能體在系統中的行為與決策。由此,全面理解環境是智能體決策制定與任務連續性保障的基礎。我們通過聚焦于配置、狀態、歷史和工具這四個關鍵方面對現有研究中的環境進行分析。配置:提供場景相關的基本信息以便智能體在明確的目標下進行交互。狀態:包括場景執行過程中環境提供的信息。歷史:是指隨著場景的運行,過去的狀態和互動逐漸積累成一系列記錄。工具:提供與場景模擬任務相關的專業功能(如 Python 和 SQL),能夠實現更準確和精確的結果。角色(Role):在場景模擬中,我們根據智能體的任務和功能為其分配不同的角色。典型設置中有兩類角色:參與者負責執行場景中的任務,而引導者則管理任務執行過程,并提供必要的支持。每個角色都有其獨特的責任,側重于系統操作的不同方面。各角色之間協作,以實現系統的整體目標。參與者:是積極參與任務執行和討論的關鍵成員,他們的組織和溝通是場景模擬中任務完成的核心。引導者:在場景模擬中提供關鍵支持,負責規劃流程、協調溝通和整合結果,例如規劃者、協調者、集成者。組織 (Organization):有效的任務執行需要精心協調和安排個體智能體之間的交互。組織框架決定了每個智能體如何與其他智能體協作以實現目標。通常,我們可以通過組織模式和組織結構來描述其組織框架。組織模式:決定了智能體之間的關系在整個模擬過程中的穩定性或動態變化。組織結構:反映了智能體之間的連接方式。通信 (Communication):智能體之間的通信控制著信息的傳遞。為了更好地理解通信的內部機制,我們從通信形式和通信風格兩個方面進行分析。通信形式:指通信的協議,主要分為非結構化自然語言和結構化語言。通信風格:指通信雙方的立場,通常可分為合作性和競爭性兩種。詳細論述請讀者參閱原論文Section 4.1,以及表格 2 中對現有代表性工作組成要素的總結。場景分類通過利用具備專業知識的智能體的集體能力,場景模擬已廣泛應用于多個領域。在此,我們將不同的場景分為兩大類:對話驅動場景,涵蓋社會互動和問答任務;以及以任務驅動場景,聚焦于特定領域的專業任務。對話驅動場景:對話驅動的場景以對話為驅動的場景涵蓋了人們日常生活中以對話為核心的情境,如社交或娛樂目的的場景。這些場景的共同特點是關注解決與特定任務或領域無關的通用目標。我們將對話驅動場景分為三種主要類型:社交互動、問答和游戲場景。任務驅動場景:在任務驅動場景中,智能體扮演具有特定功能的角色,以完成某一任務或任務集合。這些場景大多涉及與任務相關的一個或多個特定領域。我們將其劃分為三個主要類別:基礎與應用科學、軟件開發和其他行業。在這些領域中,智能體被廣泛應用于解決復雜的領域特定問題,通過自動化任務和提升決策過程的效率,推動任務執行的優化。詳細論述請讀者參閱原論文Section 4.2,以及表格 2 中對現有代表性工作場景分類的總結。評估方法在場景模擬中,評估的重點是任務的解決效果。根據評估的范圍,可以將其分為任務評估、子任務評估和系統評估,每種評估方法都采用不同的自動化評估、基于大語言模型的評估和人工評估方法來衡量性能。任務評估:任務評估衡量分配給場景的任務整體表現。自動評估使用預定義的指標和數學工具,如準確率、編碼任務的 pass@k、成功率、覆蓋度和談判任務的成交價格等。這些方法高效且可擴展,但可能忽視復雜行為。因此,LLMs 和人工專家被應用于對定性任務進行更細致的評估,并根據特定標準比較解決方案。子任務評估:子任務評估衡量場景模擬中子任務的完成情況及其對整體任務表現的影響,作為復雜任務執行過程的評估。自動評估使用運輸率、平均步驟數、任務成功率、重新規劃嘗試和效率提升等指標來評估子任務表現和策略效率。軟件生成任務中常使用完整性、可執行性和一致性等指標。基于 LLMs 的評估側重于對比評估或勝率判斷。同時,人工評估依賴參與者對執行性、修訂成本或評論質量等指標進行主觀評估。系統評估:系統評估旨在整體衡量場景模擬中系統的有效性和效率。自動評估依賴于諸如 token 消耗、任務成功率和人性化得分等指標來衡量智能體的效率和真實性。額外的指標如準確率、精確度、召回率和 F1 得分常用于評估診斷或預測任務中的系統準確性和一致性。基于 LLMs 的評估通常使用 GPT-4 來評估定性方面,如擬人化程度或診斷報告質量。人工評估則通常通過主觀評估,例如采用 Likert 量表對教學內容的語氣、清晰度和支持性進行評分。這種方法常用于補充自動評估方法,并捕捉人類視角對系統輸出的看法。詳細論述請讀者參閱原論文Section 4.3。社會模擬社會比單個場景更加復雜,其復雜性體現在組成的多樣性、結構的多元性以及非線性效應等多個方面。社會模擬并不以解決具體任務或問題為目標,而是分析和解釋大量智能體之間互動所產生的涌現行為及其結果。本文從社會構建元素、場景類型和評估方法三個方面總結了社會模擬的工作。
圖 4:社會模擬示意圖。構建社會模擬,需要對社會構成、網絡、社會影響和結果進行設計。基于此,可以模擬各種場景,并在微觀、宏觀和系統層級進行評估。社會構建元素考慮到社會的復雜性,社會模擬的一個主要挑戰是彌合個體和社會尺度之間的差距。為此,我們結合社會科學中的一些關鍵概念,總結提煉出了社會模擬中的 4 個核心元素:組成、網絡、社會影響和結果。組成(Composition):社會由大量多樣化的個體構成,這種多樣性,涵蓋了信仰、偏好、行為、規范和價值觀等廣泛的差異。目前,個體組成通常通過虛擬合成、現有數據集或基于真實分布的采樣等方法實現。在確定總體個體組成后,有兩個關鍵問題引發了研究者的關注:平衡模擬精度與規模:隨著個體數量增加,對于個體的精細建模成本顯著提升,因此需要在建模精度與模擬規模之間做出權衡,目前常采用簡化個體細節或共享記憶等方式降低模擬成本;對特殊個體的建模:社會中的個體構成多樣,但并非所有個體都扮演同等重要的角色,當前研究通常對名人或意見領袖等 “異常值” 進行詳細建模。與此同時,基于模擬結果的干預策略通常干擾這些關鍵節點來影響整個系統的行為結果。網絡(Network):社會互動通常通過社交網絡進行,網絡決定了信息和影響力的傳播方向。在社會模擬中,網絡可以分為線下網絡和線上網絡兩種。線下網絡:離線網絡通過面對面交流形成聯系。一些研究模擬虛擬世界中的交互,隨機或預定義連接個體;另一些通過外部算法估計社會關系。大規模研究中,個體間的網絡關系有時會被忽略,或僅提供粗略的社區統計信息來代替詳細的鄰居信息。線上網絡:在線網絡通過社交平臺形成聯系。部分研究使用隨機初始化或合成數據構建網絡,另一些則抓取真實社交媒體數據。由于獲取真實關系困難,最近的研究結合真實與合成數據,或基于相似性連接個體。社會影響(Social Influence):社會影響包含行為主體對他人產生的影響,以及在互動過程中受到他人的影響。社會影響因其接收者特征不同而異,許多研究通過結合個體概要、記憶聯合建模來體現這種差異,也有工作引入認知偏差和規范反思機制以增強信息理解和反應。社會影響也因發出者的身份、地位和聲譽而異,少數個體往往主導了大部分影響力,已有研究通過建模意見領袖、社會印象記憶等關系信息來細化這個方面。結果(Outcome):社會涌現表明,集體行為或現象并非個體行為的簡單線性疊加。互動結果可分為可度量的宏觀結果(如投票或公眾意見)和定性的社會現象。可度量的宏觀統計結果:宏觀統計結果是許多研究的重點,部分工作通過直接計算個體選擇的總和或平均值來簡化社會動態,而另一些則通過多輪互動分析結果變化。社會現象和社會規范:社會現象和形成的社會規范也是社會互動的重要產物,目前通過計算附加指標或觀察主要指標的趨勢或通過一些案例研究來討論這類結果。詳細論述請讀者參閱原論文Section 5.1,以及表格 3 中對現有代表性工作社會構建元素的總結。場景分類社會模擬已廣泛應用于與人類社會相關的各類場景,現有研究主要分為三個領域:廣義經濟學、社會學與政治學以及在線平臺。廣義經濟學:經濟學中的模擬分析研究個體在資源分配和競爭中的決策行為,探討經濟激勵、市場規則和資源約束對決策的影響,以及群體互動如何影響經濟趨勢。一些研究關注博弈論,探索小規模群體中智能體之間的復雜互動,涉及信任、邏輯推理、理性決策、合作傾向等;一些研究使用智能體模擬經濟行為,研究宏觀經濟趨勢、資源分配、疾病傳播和失業率變化等。社會學與政治學:社會模擬在社會學和政治學中廣泛應用,旨在通過智能體模擬人類行為,為預測群體意見、驗證理論和假設提供支持。一些工作關注民意調查,在選舉預測、公關危機管理方面均有應用;另一些研究觀察個體或組織行為,在沙盒環境中模擬社會互動,驗證特定場景下的理論,如黨派群體智慧、組織行為和人格演變。在線平臺:在線平臺是研究數字環境中的復雜社會現象的重要場所。這些平臺,包括社交媒體和在線社區,允許智能體模擬現實世界中的互動,研究輿論形成、信息傳播和集體行為等動態。一些研究通過模擬 Twitter、微博等社交媒體平臺上的互動,分析信息傳播和輿論變化,并越來越關注合成數據和大規模高效模擬平臺的搭建。另一些工作模擬推薦平臺中的用戶響應,以改進推薦算法,通過個性化行為和學習機制提高推薦準確性。詳細論述請讀者參閱原論文Section 5.2,以及表格 3 中對現有代表性工作的場景分類。評估方法社會模擬的評估主要集中在將模擬結果與現實數據進行比較,評估主要包括微觀層級、宏觀層級和系統層級。微觀層級評估:微觀層級評估關注社會模擬中個體的模擬有效性。最初,研究通過評估智能體與人類行為的相似度進行主觀評估,后續則發展出如黨派偏見和人類相似度指數等指標。對于現實場景的模擬,研究設計了自動化指標,通過與實證數據對比,提供更客觀的評估。宏觀層級評估:宏觀結果的評估關注模擬中的集體結果與現實世界的一致性,尤其是在傳播規模和集體意見等方面。除了直接觀察以外,一些量化指標,如擬合參數和相關系數,也被引入來客觀衡量差異。系統層級評估:系統層面評估關注的是模擬系統的整體性能,而不關心具體模擬的內容,包括計算效率、資源消耗和系統的可擴展性等。詳細論述請讀者參閱原論文Section 5.3。研究趨勢個體模擬
圖 5:個體模擬趨勢示意圖,包括粗略模擬、精細模擬和面向情境模擬。個體模擬經過了三個階段的演變,分別是粗略模擬、精細模擬和面向情境模擬,如圖 5 所示。從 2022 年 6 月起,研究者開始關注粗略模擬,尤其是測試 LLMs 的個性和模擬知名角色等表面特征。到 2023 年 8 月,趨勢轉向更加精細的個體模擬,研究評估模擬模型的認知方面并提高其模擬能力。到 2024 年 4 月,研究者開始在特定場景中進行個體模擬,進一步擴展了模擬的復雜性和現實性。場景模擬
圖 6:場景模擬趨勢示意圖,包括簡單場景、多階段場景和合作場景模擬。場景模擬的發展經歷了三個明顯的階段,包括簡單場景、多階段場景、合作場景模擬。從 2023 年 1 月起,研究主要集中在簡單場景上,涉及單一目標并促進基本的情境互動。到 2023 年 6 月,研究重點轉向多階段場景,加入了多步驟任務,使智能體能夠在不同的情境中進行順序決策和適應性反應,以實現更復雜的目標。到了 2024 年 2 月,研究逐漸聚焦于多智能體協作場景,強調智能體在復雜的高階模擬中合作和適應的能力。社會模擬
圖 7:社會模擬趨勢示意圖,包括構建模擬環境、探索特定場景的對齊,以及擴展規模和模態。社會模擬的發展可以分為三個階段。2023 年 6 月起,研究集中在構建初步的模擬環境。在此階段,研究者主要關注模擬環境的搭建與智能體在環境中基本社交能力(如記憶、對話、簡單工具調用等)的實現。到 2024 年 2 月左右,研究重點轉向了特定場景下的對齊,特別是聚焦于個性化建模和特定場景中的一些可觀察和評測任務,推動了模擬精度和智能體對環境適應能力的提升。2024 年 2 月以來,隨著技術迭代和智能體模擬精度的提升,研究逐漸轉向了大規模模擬,研究者們在該場景下驗證了一些人類社會已有的規律(如馬太效應、帕累托法則等),進一步討論了智能體社會與真實世界的一致性。與此同時,現實生活中的更多模態元素(如視覺、聲音等)也被納入模擬,強化了模擬的真實感和互動性,使得智能體的行為可以更加貼近現實情境。
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。