首頁 > AI資訊 > 最新資訊 > 上百萬智能體在OASIS模擬平臺上玩推特,AI玩社交媒體和真人有多像?

上百萬智能體在OASIS模擬平臺上玩推特,AI玩社交媒體和真人有多像?

新火種    2024-11-30

OASIS 的共同第一作者為(按隨機順序):阿卜杜拉國王科技大學(KAUST)訪問學生,上海 AI Lab 實習生,CAMEL AI 社區實習生楊子熠,以及大連理工大學博士生、上海 AI Lab 實習生張再斌(導師為盧湖川教授)。

通訊作者包括:上海 AI Lab 星啟研究員尹榛菲,Egent.AI CEO、CAMEL AI 社區發起人李國豪,以及上海 AI Lab 青年科學家邵婧。

由超過一百萬個大模型智能體組成的虛擬社會會是什么樣的?

最近,上海 AI Lab、CAMEL-AI.org、大連理工大學、牛津大學、馬普所等國內外多家機構聯合發布了一個名為 OASIS 的百萬級智能體交互開源項目。

該項目構建了一個以大模型為基座的通用社會模擬平臺,支持多達百萬個 AI 智能體進行交互。研究人員可以利用 OASIS 輕松模擬超大規模 AI 智能體在復雜社會環境中的互動。

例如,在社交媒體場景(例如 Twitter 和 Reddit 等平臺)上對消息傳播、群體極化和羊群效應等經典社會現象進行研究。

這些示范性研究驗證了 OASIS 作為社會模擬平臺的有效性和實用性,同時 OASIS 也對智能體社會在大模型和智能體邁向 AGI 的技術路徑中產生的影響進行了討論。

  • 論文地址:https://arxiv.org/abs/2411.11581
  • 代碼地址:https://github.com/camel-ai/oasis
  • 項目主頁:https://oasis.camel-ai.org
  • 論文標題:OASIS: Open Agent Social Interaction Simulations with One Million Agents

研究背景

隨著大語言模型通用能力的不斷提升,基于大語言模型的 AI 智能體已成為當前 AI 領域的主要研究趨勢。從單個智能體的研究到多個智能體的交互,誕生了諸多引人注目的成果,例如 CAMEL [1]、Generative Agents [2]、ChatDEV [3]、MetaGPT [4] 等。

然而,現有方法普遍面臨以下幾個挑戰:

1.規模擴展不足:目前很少有研究將智能體的交互數量擴展到上萬量級,而實現這一目標需要克服復雜的工程挑戰。

2.交互形式有限:即便有一些工作實現了上萬量級的智能體交互,這些交互的形式仍然較為初步,通常只能支持簡單場景的模擬。

OASIS 平臺思考的核心問題之一是:「如何設計一個平臺,能夠支持上萬甚至上百萬智能體的交互模擬?」

一個很直觀的想法是采用類似「群聊」的模式,但讓一百萬個智能體同時參與群聊顯然不現實。

現實生活中,有一種成熟的平臺每天支持數億用戶的高頻交互,那就是社交媒體。

琳瑯滿目的社交媒體 APP [5]

社交媒體已經深刻改變了我們的生活、工作和學習方式,同時也徹底革新了人們的溝通與協作模式。它不僅能夠支持超大規模用戶的高效交互,還可以靈活擴展到各種應用場景。

因此,社交媒體為構建一個支持大規模智能體交互的通用平臺提供了理想的基礎。

正是基于這一認識,OASIS 團隊從社交媒體的視角出發,設計并搭建了這一平臺,旨在充分利用社交媒體的優勢,探索和實現智能體的大規模交互與協作。

OASIS 框架

OASIS 框架的主要特點有:

可擴展性

OASIS 基于社交媒體的基本組件進行設計,因此可以適配不同形式的社交媒體平臺,例如X(原 Twitter)、Reddit等,用戶能夠輕松搭建符合自身需求的社交媒體環境。進一步來說,OASIS 模塊性的設計使得研究人員可以輕松的將其拓展到其他場景中,例如城市模擬、AI Scientist Society 等等,這種靈活性使其適用于多種研究和應用場景。

支持大規模交互

OASIS 在計算資源上的優化表現尤為突出。例如,利用24 塊 A100 GPU,可以在一周內完成百萬級智能體的模擬;而對于上萬規模的智能體交互,僅需1 塊 A100 GPU即可完成。這種高效性能大幅降低了大規模智能體研究的門檻。

復雜性和真實性

OASIS 支持21 種不同的交互動作,包括發帖、轉發、點贊、關注、搜索等,全面模擬社交媒體用戶的行為。此外,OASIS 還集成了推薦系統、動態環境等高級功能,為研究復雜的社會行為提供了一個高度仿真的環境,滿足用戶多樣化的研究需求。

OASIS 整體結構

OASIS 由以下五大核心組成部分:

1. Environment Server(環境服務)

環境模塊是整個社交媒體環境的核心數據庫,負責存儲用戶、帖子、關注關系等動態信息。這些數據支持實時更新,模擬真實社交媒體交互的動態性和復雜性。

2. Information Channel(信息通道)

Information Channel(信息通道)將根據當前環境的定義來選擇如何傳遞智能體之間的交互信息。如在社交媒體中,信息通道會根據社交網絡和推薦系統從 Environment Server 獲取用戶信息、帖子內容和關注關系等數據,并參考 Twitter 的開源技術方案搭建了類似 X 平臺 的算法。該系統可以根據用戶的關注和興趣進行精準的信息推送。

同時,信息通道是模塊化的,即插即用,支持輕松切換到其他平臺(如 Reddit)的推薦機制,以及其他領域的信息交換機制(如 AI 審稿和 Arxiv 機制)。

3. Action Module

推薦系統會將精選的帖子推送給智能體。智能體根據帖子信息采取不同的動作(action)。OASIS 支持多種開源或閉源的大語言模型(LLM),并賦予智能體豐富的交互能力,從而與環境進行高度仿真的互動。

4. Time Engine

為了模擬社交媒體中的時間概念,OASIS 設計了時序概率激活模塊,通過采集用戶發布內容的頻率,模擬用戶在不同時間點的行為,提升系統的仿真性。

5. Scalable Inferencer

為支持大規模智能體的高效模擬,OASIS 采用多線程調度、負載均衡等技術,在模擬過程中同時運行上百個線程以處理推理任務。該設計顯著提升了推理效率,滿足上萬甚至百萬級智能體交互的需求。

OASIS 的工作流

1. 用戶生成

該團隊通過數據采集與生成的方式獲取大規模用戶信息,并將這些信息注冊到 Environment Server(環境服務器)中,構建社交媒體環境的基本框架。

2. 信息通道

Environment Server(環境服務器)將用戶、帖子和關系數據傳遞給 Information Channel(信息通道)。

信息通道會根據當前場景中特定的環境規則,決定信息如何推送給其他智能體。例如,在社交媒體中,信息通道會根據社交網絡和推薦算法將個性化內容推送給不同的智能體。

3. 智能體交互

智能體基于推薦內容與環境進行交互,其行為(action)會動態更新到 Environment Server(環境服務器)中,從而形成閉環模擬真實社交媒體的動態演化過程。

社會模擬實驗

研究團隊利用 OASIS 框架在 X 平臺和 Reddit 平臺上開展了多個經典的社會現象實驗,包括消息傳播、群體極化、流言傳播以及羊群效應。

1. 消息傳播實驗

消息傳播實驗旨在通過 OASIS 盡可能模擬真實世界的場景,觀察其是否能夠較好地復現消息傳播的趨勢。

研究團隊選用了開源的 Twitter15 和 Twitter16 數據集,并通過 Twitter API 收集了數據集中用戶的相關信息(如個人簡介、歷史推文等)。

在實驗中,他們重現了 200 條源推文的傳播路徑,并將模擬結果與真實數據進行了對比分析,以評估模型的復現能力。

研究團隊從三個維度分析了模擬結果與真實結果之間的差距:傳播規模(Scale,指影響到的用戶數量)、傳播深度(Depth,指信息傳播的層級滲透程度)以及傳播最大廣度(Max Breadth,指傳播路徑的最大分支數)。

結果顯示,在傳播規模和廣度方面,模擬結果與真實結果較為接近。然而,在傳播深度上,模擬結果與真實情況存在一定差距。

這種差距是可以理解的,因為 Twitter 在用戶建模方面更為精細,能夠更準確地捕捉用戶的興趣偏好和行為特征,從而更有效地反映傳播深度的實際情況。

2. 群體極化實驗

研究團隊還利用 OASIS 模擬了一個經典的社會心理學實驗 —— 群體觀點極化實驗(Group Polarization),并將實驗場景遷移至 Twitter 平臺進行。群體極化現象指用戶的觀點在交互過程中逐漸變得更加極端化。

在實驗中,該團隊向 196 名用戶發布了一條爭議性的帖子。帖子的內容是:「一個已經取得一定成功的作家,是否應該冒著收入中斷的風險撰寫一部宏偉巨著以增加成名概率,還是維持現狀,享受穩定的收入。」

通過這種情景模擬,研究團隊在多輪交互中對用戶的觀點進行問卷調查,以記錄其態度的變化趨勢。結果如圖所示。

從實驗結果可以看出,隨著交互的不斷進行,用戶的觀點逐漸趨于極端,并給出愈發偏激的回答。

該團隊進一步測試了未設安全護欄的 Uncensored 模型與經過對齊處理的 Aligned 模型,結果顯示,Uncensored 模型的極端化趨勢顯著更加明顯。這表明,去除安全約束后,模型在交互中的觀點極端化程度會進一步加劇。

3. 羊群效應實驗

該團隊利用 OASIS 的 Agent Society 模塊復現了一項發表于 Science 的研究 [6],探討了羊群效應(Herding Effect)的現象。

羊群效應是指個體傾向于追隨群體的行為或觀點,例如用戶更傾向于點贊那些已有大量點贊的帖子。

實驗在模擬的 Reddit 平臺中進行,該平臺僅顯示帖子的最終得分(點贊數減去點踩數)。帖子被分為三組進行對比實驗:

  • 點贊組:帖子初始設置為有一個「贊」。
  • 對照組:帖子初始得分為零(無「贊」或「踩」)。
  • 點踩組:帖子初始設置為有一個「踩」。

通過觀察智能體在交互后各組帖子的最終得分變化,可以評估初始得分對用戶行為的影響。實驗結果(如下圖所示)表明,初始「贊」顯著提高了帖子最終得分,而初始 「踩」則對得分造成了抑制效果。這表明,用戶在決策時受到群體行為的顯著影響,進一步驗證了羊群效應的存在。

實驗結果顯示,agent 表現出比人類更強的羊群效應。當一條初始評論收到「反對」 時,agent 更傾向于繼續跟隨他人行為,進一步點「踩」 或減少點「贊」。

4. 流言傳播實驗

研究團隊構建了一個包含 100 萬用戶的 Twitter 社交環境,其中包括 196 個核心用戶(擁有大量粉絲的大 V),其余用戶為普通用戶。

在實驗中,論文作者們讓分析能力最強的核心用戶發布了 8 條消息,這些消息包括 4 對真假消息對,分別涉及科技、娛樂、教育和健康等領域。

實驗模擬了 96 分鐘的交互過程,每 3 分鐘為一個時間步。在此期間,該團隊統計了真假消息相關帖子的數量變化,以分析真假消息的傳播和影響力差異。

實驗結果顯示,流言(假消息)的影響力顯著強于真消息。這一現象表明,在 OASIS 構建的代理社會中,假消息的傳播規律與人類社會中類似 [7],表現出對假消息的強傾向性。

團隊對新增的關注關系進行了可視化,其中綠色的點表示用戶,紅色的線表示新增的關注關系。從可視化結果可以觀察到,用戶之間的新增關注關系呈現出明顯的聚集效應。

這種現象與謝林隔離模型(Schelling Segregation Model)[8] 中的群體聚集模式有一定相似之處。

具體來說,用戶更傾向于關注與自己已有社交網絡更接近的用戶,導致新增的關系逐步形成小型的網絡團體。

5. 不同量級的實驗

研究團隊還模擬了不同群體規模對實驗結果的影響,并從中得出了一些發現。例如,隨著群體規模的擴大,Agent 的觀點更有建設性,群體行為的趨勢也更加顯著。具體內容請參見論文。

用戶規模越大,用戶的觀點更加有建設性。

用戶的規模越大,群體行為的趨勢就更明顯。

社區反饋

OASIS 發布后,引發了許多人對 Agent 社會的暢想,一些大 V 也紛紛分享了自己的觀點。

例如,假如 AI Agent 社會與人類社會融為一體,我們該如何區分 Agent 和人類?這是一個非常值得深入研究的問題。

一些網友想要把 OASIS 框架融入到 APP 世界中,讓 agent 操縱自己的賬戶以及各種各樣的日常 APP。

也有的網友對于能進行 100 萬量級智能體交互感到非常有趣和驚訝。

總結

OASIS 是我們邁向「智能體社會」過程中的一個節點。研究團隊希望 OASIS 成為人工智能、社會科學等多個學科領域的有力工具。他們將在這個起點上繼續推出更多工作,歡迎感興趣的朋友們 Star,或直接建聯,共同探索 AI 未來的無限可能!

參考文獻:

[1] CAMEL: Communicative Agents for "Mind" Exploration of Large Language Model Society

[2] Generative Agents: Interactive Simulacra of Human Behavior

[3] ChatDev: Communicative Agents for Software Development

[4] MetaGPT: Meta Programming for A Multi-Agent Collaborative Framework

[5] https://www.firesideagency.ca/online-marketing/why-your-business-needs-more-than-just-a-social-media-presence/

[6] Social Influence Bias: A Randomized Experiment

[7] The spread of true and false news online

[8] Dynamic Models of Segregation


相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章