首頁 > AI資訊 > 最新資訊 > AI對齊全面綜述!北大等從800+文獻中總結出四萬字,多位知名學者掛帥

AI對齊全面綜述!北大等從800+文獻中總結出四萬字,多位知名學者掛帥

新火種    2023-11-05
AI對齊全面綜述!北大等從800+文獻中總結出四萬字,多位知名學者掛帥核心觀點速覽AI對齊是一個龐大的領域,既包括RLHF/RLAIF等成熟的基礎方法,也包括可擴展監督、機制可解釋性等諸多前沿研究方向。AI對齊的宏觀目標可以總結為RICE原則?:魯棒性(Robustness)、可解釋性(Interpretability)、可控性(Controllability)和道德性(Ethicality)。從反饋學習(Learning from Feedback)、在分布偏移下學習(Learning under Distribution Shift)、對齊保證(Assurance)、AI治理(Governance)是當下AI Alignment 的四個核心子領域。它們構成了一個不斷更新、迭代改進的對齊環路(Alignment Cycle)。作者整合了多方資源,包括教程,論文列表,課程資源(北大楊耀東RLHF八講)等。引言

著名科幻小說家,菲利普·迪克在短篇小說《第二代》當中,描述了一個人類失去對AI系統控制的戰爭故事。

具有殺傷性的AI系統進入了無止境的自我演化,人類已經無法辨別。

作者不禁發出疑問:AI系統的終極目標到底是什么?人類是否可以理解?而人類,是否應該被取代?

故事的最后,人類賴以生存的求生欲與信任,被AI洞察并徹底利用,將歷史導向一個無法逆轉的岔路之中…

1950年,圖靈發表了《計算機器與智能》,開啟了AI研究的歷史。

歷經半個多世紀的發展,如今,以大語言模型、深度強化學習系統等為代表,AI領域在多個方面取得了長足的進展。

隨著AI系統能力的不斷增強,越來越多的AI系統更深入地參與到了人們的日常生活中,幫助用戶更好地做出決策。

然而,對這些系統可能存在的風險、有害或不可預測行為的擔憂也在日益增加。

日前,Bengio、Hinton 等發布聯名信《在快速發展的時代管理人工智能風險》,呼吁在開發AI系統之前,研究者應該采取緊急治理措施并考量必要的安全及道德實踐,同時呼吁各國應該及時采取行動,管理AI可能帶來的風險;

而全球首個AI安全峰會也在11月1日、2日于英國召開——AI安全與風險正在越來越受到全世界的關注,這背后涉及到的是AI對齊的問題。

AI系統的對齊,即確保AI系統的行為符合人類的意圖和價值觀,已成為一個關鍵的挑戰。

這一研究領域覆蓋范圍廣泛,涉及大語言模型、強化學習系統等多種AI系統的對齊。

在綜述中,作者系統性的將AI對齊的宏觀目標總結為RICE原則:魯棒性、可解釋性、可控性和道德性。

AI對齊全面綜述!北大等從800+文獻中總結出四萬字,多位知名學者掛帥

△RICE原則

以這些原則為指導,當前的對齊研究可以分解為四個部分。值得注意的是,這四個部分與 RICE 原則并非一一對應,而是多對多的關系。

從反饋中學習:研究目標是基于外部反饋對AI系統進行對齊訓練,這正是外對齊(Outer Alignment)關注的核心問題。其中的挑戰包括如何對超過人類能力的AI系統、超過人類認知的復雜情況提供高質量反饋,即可擴展監督(Scalable Oversight),以及如何應對倫理價值方面的問題。在分布偏移下學習:如何克服分配轉移,避免目標偏差化,使AI系統在與訓練不同的環境分布下,也能保持其優化目標符合人類意圖,這對應著內對齊(Inner Alignment)的核心研究問題。對齊保證:強調AI系統在部署過程中依然要保持對齊性。這需要運用行為評估、可解釋性技術、紅隊測試、形式化驗證等方法。這些評估和驗證應該在AI系統的整個生命周期中進行,包括訓練前、中、后和部署過程。AI治理:僅靠對齊保證無法完全確保系統在實際中的對齊性,因為它未考慮到現實世界中的復雜性。這就需要針對AI系統的治理工作,重點關注它們的對齊性和安全性,并覆蓋系統的整個生命周期。AI治理應當由政府,業界以及第三方共同進行。

AI對齊是一個循環不斷的過程,基于在現實世界的嘗試,對Alignment的理解和相應的實踐方法也在持續得到更新。作者把這一過程刻畫為對齊環路(Alignment Cycle),其中:

從對齊目標(可用RICE原則刻畫)出發,先通過前向對齊(即對齊訓練,包括從反饋中學習和在分布偏移下學習)訓練得到具備一定對齊性的AI系統,而這個AI系統需接受后向對齊(即AI系統對齊性的評估和管理,包括全生命周期的對齊保證和AI治理),同時根據后向對齊過程中所得的經驗和需求更新對齊目標。AI對齊全面綜述!北大等從800+文獻中總結出四萬字,多位知名學者掛帥

同時,作者還提供了豐富的學習資源包括,包括教程,論文列表,課程資源(北大楊耀東RLHF八講)等,以供讀者們深入了解alignment領域。

接下來,我們按照章節次序,依次介紹從反饋中學習、在分布偏移下學習、對齊保證和AI治理。

從反饋中學習

反饋(Feedback)在控制系統當中是一個重要的概念,例如在最優控制(Optimal Control)中,系統需要不斷根據外界的反饋調整行為,以適應復雜的環境變化。總的來說,AI系統從反饋中學習包含兩方面:

構建系統時,對系統進行調整,指導系統優化。部署系統后,系統獲取外界信息以輔助決策過程。AI對齊全面綜述!北大等從800+文獻中總結出四萬字,多位知名學者掛帥

作者認為AI系統通用的學習路徑中有三個關鍵主體:Feedback,AI System,Proxy。AI系統可以直接從反饋中學習;也可以將反饋建模為 Proxy(如 Reward Model),從而使AI系統在Proxy的指導下間接從反饋中學習。

(RLHF即為這一范式的體現,但Alignment要解決的問題不僅局限于RL,更希望借助多樣化的技術和研究領域,可以擴展這一思想的適用范圍,解決更多的問題)

Feedback:是由Human,AI,AI x Human 所組成的 Advisor set 針對模型行為提出的評估。Feedback指導AI系統進行學習,并且可以根據問題的變化表現為不同的形式。Proxy:是對反饋進行建模,從而代替Advisor Set對AI系統的行為提供反饋的模型。AI System:涵蓋了各種各樣需要進行對齊的AI系統,如深度強化學習系統、大語言模型甚至是更先進的AGI。

接下來分別針對三個主體進行闡述:

Feedback

文章忽略掉AI系統內部信息處理的具體差異,從以用戶為中心的角度出發,關注于反饋呈現給系統的形式,將反饋的形式進行了區分:獎勵(Reward),演示(Demonstration),比較(Comparison)。

獎勵:獎勵是對人工智能系統單個輸出的獨立和絕對的評估,以標量分數表示。這種形式的反饋,優勢在于引導算法自行探索出最優的策略。然而,獎勵設計的缺陷導致了如獎勵攻陷(Reward Hacking)這樣的問題。演示:演示反饋是在專家實現特定目標時記錄下來的行為數據。其優勢在于繞過了對用戶知識和經驗的形式化表達。但當面對超出演示者能力的任務、噪聲和次優數據時,AI的訓練過程將遇到極大挑戰。比較:比較反饋是一種相對評估,對人工智能系統的一組輸出進行排名。這種反饋能夠對AI系統在用戶難以精確刻畫的任務和目標上的表現進行評估,但是在實際應用過程中可能需要大量的數據。AI System

在綜述中,作者重點討論了序列決策設置下的AI系統。這些利用RL、模仿學習(Imitation Learning)、逆強化學習(Inverse RL)等技術構建的AI系統面臨著潛在交互風險(Potential Dangers in Environment Interaction)、目標錯誤泛化(Goal Misgeneralization)、獎勵攻陷(Reward Hacking)以及分布偏移(Distribution Shift)等問題。

特別地,作為一種利用已有數據推斷獎勵函數的范式,逆強化學習還將引入推斷獎勵函數這一任務本身所帶來的挑戰和開銷。

Proxy

隨著LLM這樣能力強大的AI系統的出現,兩個問題顯得更加迫切:

如何為非常復雜的行為定義目標?如何為AI系統提供關于人類價值觀的信號和目標?

Proxy,就是AI系統訓練的內部循環當中,對于反饋者的意圖的抽象。

目前是通過偏好學習(Preference Learning)來構建,利用偏好建模(Preference Modeling)技術,用戶可以以一種簡單直觀的形式定義復雜目標,而AI系統也能夠得到易于利用的訓練信號。

但我們距離真正解決這兩個問題仍然十分遙遠。

一些更細致的問題,需要更多更深入的研究來回答,例如:

如何以一種更好的形式和過程來表達人類偏好?如何選擇學習策略的范式?如何評估更復雜,甚至是能力超過人類的AI系統?

目前已經有一些研究在致力于解決其中的一些問題,例如,偏好學習(Preference Learning)作為建模用戶偏好的有效技術,被認為是現階段策略學習以及構建代理的一個有希望的研究方向。

而也有研究嘗試將偏好學習(Preference Learning)與策略學習(Policy Learning)的相關技術相結合。

作者對這些研究在文中進行了討論闡釋。

可擴展監督

為了使得更高能力水平的AI系統可以與用戶保持對齊, Alignment 領域的研究者們提出了可擴展監督(Scalable Oversight)的概念,旨在解決如下兩個挑戰:

用戶頻繁評估AI行為帶來的巨大代價。AI系統或任務內在的復雜性給評估者所帶來的難度。

基于RLHF這一技術,作者提出了RLxF,作為可擴展監督的一種基本框架。RLxF利用AI要素對RLHF進行增強和改進,進一步可分為RLAIF與RLHAIF:

RLAIF旨在利用AI提供反饋信號。RLHAIF旨在利用用戶與AI協作的范式來提供反饋信號。

同時,文章主要回顧了四種Scalable Oversight的思維框架。

IDA (Iterated Distillation and Amplification)

IDA描述了一個用戶通過分解任務,利用同一個AI系統(或用戶)的不同拷貝,去完成不同的子任務以訓練更強大的下一個AI系統的迭代過程。

隨著迭代的進行,若偏差錯誤得到良好控制,訓練出來的AI能力也會逐步加強,這樣就提供了監督超出用戶自身能力的AI系統的能力。

RRM(Recursive Reward Modeling)

RRM與IDA基本遵循了相同的思想,但更強調利用AI協助用戶進行評估,從而迭代對新的AI進行評估,以訓練更強大的AI。

而IDA則強調AI與用戶協作,使得可以不斷提供對更復雜任務的表征,供AI系統模仿。

Debate

Debate描述了兩個有分歧的AI系統不斷進行互動以獲取評價者信任,并且發現對方回答弱點的過程。通過觀察Debate的過程,用戶可以對結果給出較為正確的判斷。

AI對齊全面綜述!北大等從800+文獻中總結出四萬字,多位知名學者掛帥

△AI Safety via debate(Amodei and Irving, 2018)

RRM和IDA都基于一個關鍵假設,即給出評估要比完成任務更加容易。

Debate依然如此,在辯論的場景下,該假設表現為:為真理辯護要比謬誤更容易。

CIRL: Cooperative Inverse Reinforcement Learning

CIRL的關鍵見解在于:保持對目標的不確定性,而不是努力優化一個可能有缺陷的目標。

即考慮到用戶無法一次性定義一個完美的目標,在模型當中將用戶獎勵進行參數化,通過不斷觀察并與用戶的互動,來建模用戶真實的獎勵函數。

CIRL希望規避直接優化確定的獎勵函數可能帶來的操縱(Manipulation),獎勵篡改(Reward Tampering)等問題。

在形式化上,CIRL將用戶的動作考慮到狀態轉移以及獎勵函數當中。

AI對齊全面綜述!北大等從800+文獻中總結出四萬字,多位知名學者掛帥

同時,在獎勵函數內和初始狀態分布內引入了參數化部分對用戶真實的意圖進行建模:

AI對齊全面綜述!北大等從800+文獻中總結出四萬字,多位知名學者掛帥在分布偏移下學習

AI系統在泛化過程中可能遇到分布偏移(Distribution Shift)的問題,即:

AI系統在訓練分布上表現出良好的效果,但是當遷移到測試分布或更復雜的環境中時,AI系統可能無法及時應對分布的變化(如在新分布中出現的對抗樣本)。

這可能導致系統性能大大降低,甚至朝著危險目標優化——這往往是由于AI系統學習到了環境中的虛假聯系(Spurious Correlations)。

在對齊領域中,以安全為出發點,我們更關注目標的對齊性而非性能的可靠性。

隨著AI系統逐漸應用于高風險場景和復雜任務上,未來將會遇到更多不可預見的干擾(Unforeseen Disruption),這意味著分布偏移會以更多樣的形式出現。因此,解決分布偏移問題迫在眉睫。

由分布偏移帶來的問題可以大致歸納為:目標錯誤泛化(Goal Misgeneralization)和自誘發分布偏移(Auto-Induced Distribution Shift):

目標錯誤泛化是指AI系統在訓練分布上獲得了很好的能力泛化(Capability Generalization),但這樣的能力泛化可能并不對應著真實的目標,于是在測試分布中AI系統可能表現出很好的能力,但是完成的并不是用戶期望的目標。

AI對齊全面綜述!北大等從800+文獻中總結出四萬字,多位知名學者掛帥

△訓練環境中“跟隨紅球”策略獲得高獎勵

AI對齊全面綜述!北大等從800+文獻中總結出四萬字,多位知名學者掛帥

△測試環境中沿用訓練策略“跟隨紅球”反而獲得低獎勵

AI對齊全面綜述!北大等從800+文獻中總結出四萬字,多位知名學者掛帥

△Goal Misgeneralization: Why Correct Specifications Aren’t Enough For Correct Goals(Shah et al.,2023)

在上面的例子中,藍色小球在測試環境中沿用了在訓練環境中能夠獲得高獎勵的策略(跟隨紅球),但是這卻導致了它在藍色測試環境中“表現很差”。

事實上,該RL環境有著良好的表征(如每個圓環對應不同獎勵,只有按照正確順序遍歷圓環才能累加獎勵,以及畫面右側黑白變化的方塊指示著正負獎勵),最后智能體學習到了“跟隨紅球”的策略, 但這并不是用戶期望的目標——探索到環境的獎勵原則(Capability Generalization but Goal Misgenerlization)。

自誘發分布偏移則是強調AI系統在決策和執行過程中可以影響環境,從而改變環境生成的數據分布。

一個現實例子是在推薦系統中,推薦算法選擇的內容可以改變用戶的偏好和行為,導致用戶分布發生變化。這進而會進一步影響推薦算法的輸出。

隨著AI系統對世界產生越來越大的影響,我們還需要考慮AI系統融入人類社會之后對整個社會數據分布的潛在影響。

AI對齊全面綜述!北大等從800+文獻中總結出四萬字,多位知名學者掛帥

△自誘發分布偏移的實例,Hidden Incentives for Auto-induced Distribution Shift(Krueger et al., 2020)

進一步,論文中主要從算法對策(Algorithmic Interventions)和數據分布對策(Data Distribution Interventions)兩方面介紹了應對分布偏移的措施。

AI對齊全面綜述!北大等從800+文獻中總結出四萬字,多位知名學者掛帥

△Learning under Distribution Shift 框架圖

算法對策

算法對策大體可分為兩類:

一是通過在算法設計上融合多分布幫助模型學到不同分布間的不變聯系(Invarient Relationships, 與Spurious Features相對)。這一類的方法包含有分布魯棒優化、不變風險最小化、風險外推等。

在這些方法中,“風險”被定義為損失函數在不同分布上的均值。

模型有可能會建立環境與結果之間的虛假聯系(Spurious Correlations), 比如預測“奶牛”的模型可能會建立“草原背景”與真實值之間的聯系,而非“奶牛的特征”與真實值的關系。

融合多分布可以“迫使”模型學到不同分布間的不變聯系,以盡可能降低“風險”,在不同分布上取得良好的泛化性能。

下面我們介紹幾種具有代表性的方法:

二是利用模式連接(Mode Connectivity)的特性,微調模型參數使得模型能夠從基于虛假特性預測到基于不變聯系預測。

AI對齊全面綜述!北大等從800+文獻中總結出四萬字,多位知名學者掛帥

△Mechanistic Mode Connectivity(Lubana et al., 2023)

模式連接旨在探索機制性不同的最小化器是否通過低損失路徑在景觀中相互連接,以及能否根據這種連接性,進行預訓練后微調,以實現最小化器之間的轉化,并有望改變模型的預測特征(從基于虛假特性到基于不變聯系),從而實現模型泛化性能的提升。

數據分布對策

數據分布對策則是希望擴展訓練時的原始分布,能動地提升模型泛化能力,相關的工作包含對抗學習(Adversarial Training)和協作學習(Cooperative Training)。

對抗訓練通過將基于擾動的對抗樣本(Perturbation-Based Adversarial Examples)或無限制對抗樣本(Unrestricted Adversarial Examples)引入訓練分布,來提升模型對于新分布環境下對抗攻擊的魯棒性。

AI對齊全面綜述!北大等從800+文獻中總結出四萬字,多位知名學者掛帥

△對抗訓練的框架示意圖,Deep Neural Network based Malicious Network Activity Detection Under Adversarial Machine Learning Attacks(cat,2020)

合作訓練更加強調智能體或AI系統的多元互動關系。由于訓練過程中可能缺乏動態變化的多系統元素,訓練好的AI系統部署于多系統交互的環境中時(如多智能體交互),可能由于新元素的加入,從而產生一些危害其他系統甚至社會的行為(Collectively Harmful Behaviors)。

AI對齊全面綜述!北大等從800+文獻中總結出四萬字,多位知名學者掛帥

△Cooperation的種類,Open Problems in Cooperative AI(Dafoe et al., 2020).

在這一節中,作者既介紹了MARL領域的完全合作(Fully Cooperative MARL)和混合動機(Mixed-Motive MARL)情形,也同時涵蓋了其他研究方向,如無準備協調(Zero-Shot Coordination)、環境搭建(Environment-Building)、社會模擬(Socially Realistic Settings)等。

隨著AI系統日漸部署到現實交互場景中,解決這一類問題將是實現人機共生的必由之路。

對齊保證

在前面的章節中,作者介紹了AI系統訓練過程中的對齊技術。在訓練后的部署過程,確保AI系統依然保持對齊也同樣重要。

在對齊保證一章中,作者從安全測評(Safety Evaluation)、可解釋性(Interpretability)和人類價值驗證(Human Values Verification)等多個角度討論了相關的對齊技術。

AI對齊全面綜述!北大等從800+文獻中總結出四萬字,多位知名學者掛帥

△Assurance 框架圖

安全評估

作者將安全評估分為數據集與基準、評估目標和紅隊攻擊三部分:

數據集與基準介紹了數據集和交互式評估方法:

數據集部分詳細分析了安全評估中應用的數據源、標注方法和評估指標;

交互式方法分為“代理交互”和“環境交互”兩類,前者通過與代理(人類或者其他AI)的交互來評估AI系統輸出的對齊質量,后者則是通過構建具體的語境來評估AI系統。

AI對齊全面綜述!北大等從800+文獻中總結出四萬字,多位知名學者掛帥

△(Li et al. 2023)

評估目標探討了由不對齊的AI系統可能衍生出的風險產生的安全評估目標,如毒性(Toxicity)、權力追求(Power-seeking)、欺騙(Deception)和較為前沿的操縱(Manipulation)、自我保護與增殖(Self Preservation & Prolification)等,并且對這些目標的主要評估工作進行了介紹,形成了一個表格(如下表)。

AI對齊全面綜述!北大等從800+文獻中總結出四萬字,多位知名學者掛帥

△Deepmind對前沿AI風險的描述,本文沿用了”前沿AI風險”(Frontier AI Risks)一詞對這些風險的主干部分進行了介紹(Anderljung et al. 2023)

AI對齊全面綜述!北大等從800+文獻中總結出四萬字,多位知名學者掛帥

△在這張表格中作者對目前主要的主要安全評估工作進行分領域的介紹

紅隊攻擊的主要目的是通過制造和測試各種場景,檢驗AI系統在面對對抗性的輸入時是否仍然保持對齊,以確保系統的穩定性和安全性。作者在這段中介紹了多種紅隊攻擊的技術,包括利用強化學習、優化和指導等方法生成可能導致模型輸出不對齊的上下文,以及手動和自動的“越獄”技術;

同時探討了眾包對抗輸入(Crowdsourcd Adversarial Inputs)、基于擾動的對抗攻擊(Perturbation-Based Adversarial Attack)和無限制對抗攻擊(Unrestricted Adversarial Attack)等生成對抗性輸入的多種手段,并介紹了紅隊攻擊的具體應用與產品。

AI對齊全面綜述!北大等從800+文獻中總結出四萬字,多位知名學者掛帥

△(Perez et al., 2022)

可解釋性

可解釋性是確保AI系統的概念建模、內部邏輯和決策過程可視化、可解釋的技術,力求打破AI系統的黑箱效應。

作者深入剖析了神經網絡的后訓練可解釋性(Post Hoc Interpretability),探討了如何通過機制可解釋技術、神經網絡結構分析、漲落與擾動、可視化技術等,揭示神經網絡的運作機制,并進一步闡釋了可解釋性模型的構成(Intrinsic Interpretability),包括對AI系統中的黑箱成分進行替換等從機制上構建可解釋模型的方法。

最后作者展望了可解釋性研究的未來挑戰,如可擴展性(Scalability)和基準構建(Benchmark)等。

AI對齊全面綜述!北大等從800+文獻中總結出四萬字,多位知名學者掛帥

△回路分析(Circut Analysis)的一個示意圖,回路分析是后訓練機制可解釋性的一個重要技術(Olah et al. 2020 )

人類價值驗證

人類價值驗證介紹了驗證AI系統是否能夠與人類的價值觀和社會規范進行對齊的理論和具體技術。

其中,形式化構建(Formualtion)通過形式化的理論框架來刻畫和實現價值對齊性,一方面作者為機器的倫理的建立建構了形式化框架,探討了基于邏輯、強化學習和博弈論的多種方式;

另一方面,作者提到了合作型AI中基于博弈論的價值框架,探討了如何通過增強合作激勵和協調能力來解決AI系統中的非合作和集體有害價值的問題。

而評估方法(Evaluation Methods)則從實踐的角度介紹了構建價值數據集,場景模擬建立基準評估和判別器-評價器差異法(Discriminator-Critique Gap, DCG)等價值驗證的具體方法。

AI對齊全面綜述!北大等從800+文獻中總結出四萬字,多位知名學者掛帥

△判別器-評價器差異法(Discriminator-Critique Gap, DCG)的示意圖(Zhang et al. ,2023e )

AI治理

確保AI系統保持對齊不僅需要相應的技術手段,還需要相應的治理方法。

在治理章節中,作者討論了AI治理過程中的幾個重要問題:AI治理扮演的角色,治理AI的利益相關者的職能和關系以及有效的AI治理面臨的若干開放性挑戰。

作者首先了AI治理在解決現有AI風險中的角色擔當。

現有的AI系統在社會中已經引發了例如種族歧視、勞動力置換等倫理與社會問題。

一些模型具有產生虛假信息以及危險化學生物分子的能力,可能會產生全球性的安全風險。同時,未來可能出現的更具自主性和通用性的AI系統。

如果缺乏足夠的保障,這些模型很可能對人類造成災難性風險。AI治理的主要目標正是減輕這一多樣化風險。

為實現這一目標,AI治理的相關方應共同努力,給予每類風險應有的關注。

AI對齊全面綜述!北大等從800+文獻中總結出四萬字,多位知名學者掛帥

△先進AI系統可能具備的危險能力

然后,作者將AI治理的主要利益相關方分為政府(Government),業界(Industry and AGI Labs)以及第三方(Third Parties)。

其中,政府運用立法、司法和執法權力監督AI政策,政府間也進行著AI治理的國際合作。

業界研究和部署AI技術,是主要的被監督方,業界也常常進行自我監督,確保自身技術的安全可靠。

第三方包含學界、非政府組織、非盈利組織等機構,不僅協助審查現有的模型與技術,同時協助政府進行AI相關法規的建立,實現更加完善的AI治理。

AI對齊全面綜述!北大等從800+文獻中總結出四萬字,多位知名學者掛帥

△Governance的治理架構

此外,作者還討論了AI在國際治理(International Governance)以及開源治理(Open-source Governance)方面的開放性挑戰。

AI的國際治理(International Governance)

一方面,當前許多AI風險,例如市場中AI公司的無需競爭以及模型放大現有性別偏見具有明顯的國際性與代際性,國際合作共同治理有利于對這些風險的防范。

另一方面,現有AI技術帶來的經濟與社會效益并沒有均勻分配,不發達國家以及缺乏相關AI知識的人群并不能在AI技術的發展中獲益,國際合作通過修建基礎設施,加強數字教育等方式能夠緩解這一不平衡。

同時我們注意到,現有的國際組織具有解決國際重大安全風險的能力,我們期望AI國際治理也能夠產生類似的國際組織,協助治理AI風險并合理分配AI帶來的機遇。

AI的開源治理(Open-source Governance)

隨著AI系統能力的不斷增強,是否應該開源這些AI系統存在著很多爭議。

支持者認為開源AI模型能夠促進模型的安全能力,同時認為這是利于AI系統去中心化的重要手段。

而反對者則認為開源AI模型可能會被微調為危險模型或是導致非開源模型的越獄,進而帶來風險。

我們希望未來能夠出現更加負責任的開源方法,使得AI系統在開源的同時避免濫用風險。

總結和展望

在這份綜述中,作者提供了一個覆蓋范圍廣泛的AI對齊介紹。

作者明確了對齊的目標,包括魯棒性、可解釋性、可控性和道德性,并將對齊方法的范圍劃分為前向對齊(通過對齊訓練使AI系統對齊)和后向對齊(獲得系統對齊的證據,并適當地進行治理,以避免加劇對齊風險)。

目前,在前向對齊的兩個顯著研究領域是從反饋中學習和在分布偏移下學習,而后向對齊由對齊保證和AI治理組成。

最后,作者對于AI對齊領域下一步發展進行展望,列出了下面幾個要點。

研究方向和方法的多樣性:

對齊領域的一大特征是它的多樣性——它包含多個研究方向,這些方向之間的聯系是共同的目標而非共同的方法論。

這一多樣性在促進探索的同時,也意味著對研究方向的整理和對比變得尤其重要。

開放性探索新挑戰和方法:

許多有關對齊的討論都是基于比 LLMs 和大規模深度學習更早的方法之上構建的。

因此,在機器學習領域發生范式轉變時,對齊研究的側重點也發生了改變;更重要的是,方法的變革,以及AI系統與社會的日益緊密融合的趨勢,給對齊帶來了新的挑戰。

這要求我們積極進行開放性探索,洞察挑戰并尋找新的方法。

結合前瞻性和現實導向的視角:

對齊研究尤其關注來自強大的 AI 系統的風險,這些系統的出現可能遠在數十年后,也可能近在幾年之內。

前一種可能性需要研究前瞻趨勢和情景預測,而后一種強調AGI Labs、治理機構之間的緊密合作,并以當前系統作為對齊研究的原型。

政策相關性:

對齊研究并非孤立存在,而是存在于一個生態系統中,需要研究人員、行業參與者、治理機構的共同努力。

這意味著服務于治理需求的對齊研究變得尤為重要,例如極端風險評估、算力治理基礎設施以及關于AI系統的可驗證聲明的機制等。

社會復雜性和價值觀:

對齊不僅僅是一個單一主體的問題,也是一個社會問題。

在這里,”社會”的含義有三重:

在涉及多個AI系統和多個人之間的相互作用的多智能體環境中進行對齊研究。將AI系統對社會的影響進行建模和預測,這需要方法來處理社會系統的復雜性。潛在的方法包括社會模擬以及博弈論等。將人類道德價值納入對齊,這與機器倫理(Machine Ethics)、價值對齊(Value Alignment)等領域密切相關。

隨著AI系統日漸融入社會,社會和道德方面的對齊也面臨著更高的風險。因此,相關方面的研究應該成為AI對齊討論的重要部分。

AI 對齊資源網站

隨著AI的快速發展,具有強大理解、推理與生成能力的AI將對人們的生活產生更加深遠的影響。

因此,AI對齊并不是科學家們的專屬游戲,而是所有人都有權了解及關注的議題。作者提供了網站(地址見文末),將綜述中涉及到的調研內容整理為易于閱讀的圖文資料。

網站具有如下特色:

直觀且豐富的呈現形式:

作者利用網站平臺靈活的表現形式,使用圖片、視頻等媒介更詳細地展示了文中介紹的內容,使研究人員、初學者、乃至非科研人員都能更好地理解。

AI對齊全面綜述!北大等從800+文獻中總結出四萬字,多位知名學者掛帥

△示例:關于Alignment Problems的部分截圖

結構化的知識體系:

作者精心整理了AI對齊相關領域的經典文獻,并使用樹形圖的結構展示了各個子領域的聯系與依賴。

相比于簡單的資源整合堆砌,網站對內容建立了結構化索引,提供樹形圖幫助讀者快速建立對人工智能對齊研究的認識框架,以及方便其精確查找所需的研究內容。

AI對齊全面綜述!北大等從800+文獻中總結出四萬字,多位知名學者掛帥

△示例:讀者可以在頁面頂端縱覽“Scalable Oversight”的相關研究分支,并通過點擊“Detae”按鈕快速了解領域經典文章

高質量的學習資源:

針對目前的先進對齊方法——RLHF,網站提供了由北京大學楊耀東老師主講的系列課程Tutorial。

從經典RL算法出發,以對齊的視角對RLHF進行了體系化的梳理與總結。全系列的學習資源支持在線預覽和下載。

AI對齊全面綜述!北大等從800+文獻中總結出四萬字,多位知名學者掛帥

△從AI對齊視角展開的RLHF系列Tutoiral

外部資源整合:

AI對齊從來就不是某一個團隊或機構單獨研究的課題,而是一個全球化的議題。網站整理了AI對齊領域的論壇、課程以及個人博客等相關資源鏈接,旨在為讀者提供更多元化和更豐富的資訊。

AI對齊全面綜述!北大等從800+文獻中總結出四萬字,多位知名學者掛帥

△網站對有關AI對齊的個人研究、課程、博客等學習資源進行了收集與歸納

持續更新與維護:

網站將面向AI對齊社區長期開放討論,持續性地維護與更新相關領域的調研內容,以期推動AI對齊領域的更廣泛更深入研究。

其中包括一份定期郵件發出的Newsletter(地址見文末),以介紹對齊領域的最新進展和總覽。

AI對齊全面綜述!北大等從800+文獻中總結出四萬字,多位知名學者掛帥

作者希望有關AI對齊的研究不僅僅局限于一份綜述論文,而是成為一個值得所有人關注的研究議題。

因此,作者將積極維護網站這一“在線論文”,持續性地開展AI對齊的調研工作。

論文地址(持續更新):https://arxiv.org/abs/2310.19852AI Alignment 縱覽網站(持續更新):https://www.alignmentsurvey.comNewsletter & Blog(郵件訂閱,定期更新):https://alignmentsurvey.substack.com

— 完 —

Tags:
相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章