首頁 > AI資訊 > 行業(yè)應(yīng)用 > 2024開年讀書會:AI安全與對齊——應(yīng)對前沿AI失控與濫用的技術(shù)路線

2024開年讀書會:AI安全與對齊——應(yīng)對前沿AI失控與濫用的技術(shù)路線

新火種    2024-01-04
集智俱樂部 2024開年讀書會:AI安全與對齊——應(yīng)對前沿AI失控與濫用的技術(shù)路線 

導(dǎo)語

2023年終于在此起彼伏的AI狂潮中涌向終點(diǎn)。通用人工智能AGI的實現(xiàn)路徑逐漸霧消路現(xiàn)。而社會各界對AI技術(shù)可靠性、AI系統(tǒng)安全性、AI倫理風(fēng)險性等問題的擔(dān)憂也在持續(xù)加深。尤其在復(fù)雜系統(tǒng)視角下,AI系統(tǒng)正在展現(xiàn)出非線性的、遠(yuǎn)超預(yù)期的涌現(xiàn)能力,這是AI技術(shù)的新機(jī)遇,也是AI安全的新挑戰(zhàn)。如何確保&誰來確保AGI的安全?

在此背景下,集智俱樂部和安遠(yuǎn)AI聯(lián)合舉辦"AI安全與對齊"讀書會,由多位海內(nèi)外一線研究者聯(lián)合發(fā)起,針對AI安全與對齊所涉及的核心技術(shù)、理論架構(gòu)、解決路徑以及安全治理等交叉課題,展開共讀共研活動。讀書會自2024年1月20日開始,每周六上午舉行,為期8-10周。歡迎從事相關(guān)研究與應(yīng)用工作的朋友報名加入!

讀書會背景 

近年來,以O(shè)penAI ChatGPT和GPT-4為代表的大語言模型 (Large Language Model, LLM) 發(fā)展迅速,重新喚醒了人們對AI技術(shù)的熱情和憧憬。然而,與AI技術(shù)和能力不斷突破相伴隨的是人們對AI模型本身存在的社會倫理風(fēng)險及其對人類生存構(gòu)成的潛在威脅的普遍擔(dān)憂。很多人擔(dān)心未對齊的AI模型可能帶來人類生存風(fēng)險 (Existential Risk, X-Risk),即超過人類知識和智能水平的AI會形成自己的目標(biāo),且該目標(biāo)與人類賦予的目標(biāo)不一致,為了實現(xiàn)自己的目標(biāo),AI自主體可能會獲取更多的資源,實現(xiàn)自我保護(hù)、自我提升,這種發(fā)展將會持續(xù)擴(kuò)展至對整個人類進(jìn)行權(quán)力剝奪,從而不可避免地導(dǎo)致人類生存災(zāi)難。因此,為了保證AI能夠持續(xù)推動人類社會的進(jìn)步,讓AI的目標(biāo)與人類價值觀和目標(biāo)始終保持一致就顯得尤為重要。

在此背景下,AI安全與對齊得到了越來越廣泛的關(guān)注,這是一個致力于讓AI造福人類,避免AI模型失控或被濫用而導(dǎo)致災(zāi)難性后果的研究方向。一方面,AI安全與對齊從AI模型本身出發(fā),尋求克服AI模型自身的局限性和固有行為,如獎勵破解、目標(biāo)錯誤泛化、尋求權(quán)力等,并嘗試通過不同的監(jiān)督策略和運(yùn)行機(jī)理層面的解釋加深我們對AI模型的理解和控制。另一方面,AI安全與對齊也從人類視角出發(fā),跟蹤、評估、預(yù)測和防范人類主動濫用AI模型的風(fēng)險,實現(xiàn)。除此之外,AI安全與對齊領(lǐng)域正在研究如何將這些對齊與治理策略應(yīng)用到能力更為強(qiáng)大的通用人工智能 (Artificial General Intelligence, AGI) 系統(tǒng)中。

AI安全與對齊和復(fù)雜科學(xué)有著極為密切的聯(lián)系。AI模型的一些行為往往難以理解和事先預(yù)測,而復(fù)雜科學(xué)中關(guān)于如何理解和管理復(fù)雜系統(tǒng)的不可預(yù)測性的研究對于AI安全和對齊有很大的幫助。另一方面,AI模型具有不確定性,且能與復(fù)雜環(huán)境和其它智能體進(jìn)行交互并從中學(xué)習(xí),所以本身也可以被視為是一種復(fù)雜系統(tǒng)。因此,對AI模型的研究也能夠促進(jìn)復(fù)雜科學(xué)的研究,加深我們對復(fù)雜系統(tǒng)的認(rèn)識和理解。

讀書會框架

本次讀書會將詳細(xì)討論AI安全與對齊話題,涵蓋分支有AI風(fēng)險、安全與對齊導(dǎo)論、對齊失敗的技術(shù)原因、可擴(kuò)展監(jiān)督、對抗魯棒性與對齊泛化、可解釋性研究、多主體互動風(fēng)險、前沿AI濫用風(fēng)險與失控風(fēng)險和應(yīng)對。

主要的目的是希望能夠幫助各個不同學(xué)科領(lǐng)域的學(xué)者了解AI安全和對齊的這個領(lǐng)域,尤其是深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、自監(jiān)督學(xué)習(xí)、自然語言處理、AI4Science、大模型/大語言模型/多模態(tài)大模型、通用人工智能等方向的研究者,如何擴(kuò)展自己的研究方向。

發(fā)起人團(tuán)隊介紹

蘇煒杰,現(xiàn)為賓夕法尼亞大學(xué)沃頓商學(xué)院統(tǒng)計與數(shù)據(jù)科學(xué)系和工學(xué)院計算機(jī)系副教授,同時還兼任賓大機(jī)器學(xué)習(xí)研究中心聯(lián)合主任。此外還供職于賓大沃頓智能商務(wù)中心,Warren網(wǎng)絡(luò)數(shù)據(jù)科學(xué)中心。蘇煒杰為首屆2022年數(shù)據(jù)科學(xué)青年獎得主,曾在2019年和2020年分別獲得NSF CAREER Award和斯隆研究獎。

研究興趣:超級對齊、可擴(kuò)展監(jiān)督、AI安全和對齊等研究方向。

劉鵬飛,上海交通大學(xué)長聘教軌副教授,博士生導(dǎo)師。生成式人工智能研究組負(fù)責(zé)人,國家高層次人才計劃青年項目,上海市領(lǐng)軍人才 (海外青年);在自然語言處理和人工智能領(lǐng)域發(fā)表學(xué)術(shù)論文 70 余篇。谷歌學(xué)術(shù)引用 9900余次。ACL會議史上首次實現(xiàn)連續(xù)兩年獲得System & Demo Paper Award;提示工程(Prompt Engineering)概念最早提出者之一。代表作包括:高數(shù)學(xué)推理大模型"阿貝爾"、Auto-J,LIMA等。

研究方向:專注于大模型的訓(xùn)練和價值對齊。

段雅文,安遠(yuǎn)AI技術(shù)項目經(jīng)理,致力于AI安全技術(shù)社區(qū)建設(shè)。他是未來生命研究所AI Existential Safety PhD學(xué)者,關(guān)注大模型安全和對齊研究。他曾在UC Berkeley的Stuart Russell組和劍橋大學(xué)David Krueger實驗室進(jìn)行AI安全和對齊研究。他曾在NeurIPS組織Socially Responsible Language Model Research工作坊,參與的研究項目曾在CVPR、ECCV、ICML、ACM FAccT、NeurIPS MLSafety Workshop等ML/CS會議和工作坊上發(fā)表。他擁有劍橋大學(xué)機(jī)器學(xué)習(xí)碩士學(xué)位和香港大學(xué)理學(xué)士學(xué)位。

研究方向:人工智能安全與對齊等。

沈田浩,天津大學(xué)自然語言處理實驗室(TJUNLP)三年級博士生,導(dǎo)師為熊德意教授,曾獲得第九屆對話技術(shù)挑戰(zhàn)賽 (DSTC9) "端到端多領(lǐng)域任務(wù)型對話"賽道第一名,在ACL、EMNLP等國際會議上發(fā)表多篇學(xué)術(shù)論文,撰寫了大規(guī)模語言模型對齊技術(shù)的綜述,并擔(dān)任ACL, EMNLP, AACL等會議的審稿人。

研究方向:對話系統(tǒng)、檢索式問答和大規(guī)模語言模型

報名參與讀書會

本讀書會適合參與的對象

基于AI安全和對齊的相關(guān)學(xué)科研究,特別是感興趣RLHF和大模型、超級智能和超級對齊的一線科研工作者;

想了解深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、自監(jiān)督學(xué)習(xí)、自然語言處理、AI4Science、大模型/大語言模型/多模態(tài)大模型、通用人工智能等方向的研究者;

能基于讀書會所列主題和文獻(xiàn)進(jìn)行深入探討,可提供適合的文獻(xiàn)和主題的朋友;

能熟練閱讀英文文獻(xiàn),并對復(fù)雜科學(xué)充滿激情,對世界的本質(zhì)充滿好奇的探索者;

想鍛煉自己科研能力或者有出國留學(xué)計劃的高年級本科生及研究生。

本讀書會謝絕參與的對象

為確保專業(yè)性和討論的聚焦,本讀書會謝絕脫離讀書會文本和復(fù)雜科學(xué)問題本身的空泛的哲學(xué)和思辨式討論;不提倡過度引申在社會、人文、管理、政治、經(jīng)濟(jì)等應(yīng)用層面的討論。我們將對參與人員進(jìn)行篩選,如果出現(xiàn)討論內(nèi)容不符合要求、經(jīng)提醒無效者,會被移除群聊并對未參與部分退費(fèi),解釋權(quán)歸集智俱樂部所有。

運(yùn)行模式

本季讀書會預(yù)計討論分享8-10次,1次導(dǎo)論 + 6-8次專題內(nèi)容 + 1次圓桌討論,按暫定框架貫次展開;

每周進(jìn)行線上會議,由 1-2 名讀書會成員以PPT講解的形式領(lǐng)讀相關(guān)論文,與會者可以廣泛參與討論,會后可以獲得視頻回放持續(xù)學(xué)習(xí)。

舉辦時間

從2024年1月20日開始,每周六早上 9:00-11:00,持續(xù)時間預(yù)計8-10 周。我們也會對每次分享的內(nèi)容進(jìn)行錄制,剪輯后發(fā)布在集智斑圖網(wǎng)站上,供讀書會成員回看,因此報名的成員可以根據(jù)自己的時間自由安排學(xué)習(xí)時間。

參與方式

報名方式

第一步:掃碼填寫報名信息。

掃碼報名

第二步:填寫信息后,付費(fèi)299元。

第三步:添加負(fù)責(zé)人微信,拉入對應(yīng)主題的讀書會社區(qū)(微信群)。

本讀書會可開發(fā)票,請聯(lián)系相關(guān)負(fù)責(zé)人溝通詳情。

共學(xué)共研模式與退費(fèi)機(jī)制

讀書會采用共學(xué)共研的機(jī)制,圍繞前沿主題進(jìn)行內(nèi)容梳理和沉淀。讀書會成員可通過內(nèi)容共創(chuàng)任務(wù)獲得積分,解鎖更多網(wǎng)站內(nèi)容,積分達(dá)到標(biāo)準(zhǔn)后可退費(fèi)。發(fā)起人和主講人作為讀書會成員,均遵循內(nèi)容共創(chuàng)共享的退費(fèi)機(jī)制,暫無其他金錢激勵。讀書會成員可以在讀書會期間申請成為主講人,分享或領(lǐng)讀相關(guān)研究。

加入社區(qū)后可以獲得的資源:

在線會議室沉浸式討論:與主講人即時討論交流

交互式播放器高效回看:快速定位主講人提到的術(shù)語、論文、大綱、討論等重要時間點(diǎn)

高質(zhì)量的主題微信社群:碩博比例超過80%的成員微信社區(qū),閉門夜談和交流

超多學(xué)習(xí)資源隨手可得:從不同尺度記錄主題下的路徑、詞條、前沿解讀、算法、學(xué)者等

參與社區(qū)內(nèi)容共創(chuàng)任務(wù):讀書會筆記、百科詞條、公眾號文章、論文解讀分享等不同難度共創(chuàng)任務(wù),在學(xué)習(xí)中貢獻(xiàn),在付出中收獲。

共享追蹤主題前沿進(jìn)展:在群內(nèi)和公眾號分享最新進(jìn)展,領(lǐng)域論文速遞

參與共創(chuàng)任務(wù),共建學(xué)術(shù)社區(qū):

 ? 讀書會筆記:在交互式播放器上記錄術(shù)語和參考文獻(xiàn)

 ? 集智百科詞條:圍繞讀書會主題中重要且前沿的知識概念梳理成詞條。例如:

大規(guī)模人群模擬:觀察集體愚蠢與集體智慧 | 集智百科

行為經(jīng)濟(jì)學(xué):經(jīng)濟(jì)系統(tǒng)的行為主體是否理性?| 集智百科

網(wǎng)絡(luò)可控性:結(jié)構(gòu)可控性與最大匹配 | 集智百科

 ? 論文解讀分享:認(rèn)領(lǐng)待讀列表中的論文,以主題報告的形式在社區(qū)分享

 ? 論文摘要翻譯:翻譯社區(qū)推薦論文中的摘要和圖注

 ? 公眾號文章:以翻譯整理或者原創(chuàng)生產(chǎn)形式生產(chǎn)公眾號文章,以介紹前沿進(jìn)展。例如:

論文翻譯

諾獎之后的復(fù)雜科學(xué):18位學(xué)者勾勒未來20年復(fù)雜系統(tǒng)研究圖景

眾里尋一:從復(fù)雜性中探索普適規(guī)律

多主體智能綜述:社會互動啟發(fā)的人工智能進(jìn)化

科普文章翻譯

涌現(xiàn):21世紀(jì)科學(xué)的統(tǒng)一主題

梅拉妮·米歇爾Science刊文:AI能否自主學(xué)習(xí)世界模型?

模塊化認(rèn)知:演化如何自下而上涌現(xiàn)出智能?

講座整理

AI何以涌現(xiàn):復(fù)雜適應(yīng)系統(tǒng)視角的ChatGPT和大語言模型

當(dāng)機(jī)器學(xué)習(xí)遇見拓?fù)洌和負(fù)鋽?shù)據(jù)分析與拓?fù)渖疃葘W(xué)習(xí)

探索"AI 大統(tǒng)一理論":科學(xué)啟發(fā)的機(jī)器學(xué)習(xí)理論

PS:具體參與方式可以加入讀書會后查看對應(yīng)的共創(chuàng)任務(wù)列表,領(lǐng)取任務(wù),與運(yùn)營負(fù)責(zé)人溝通詳情,上述規(guī)則的最終解釋權(quán)歸集智俱樂部所有。

閱讀材料

以下部分閱讀材料所附時間為預(yù)估閱讀時間。

人工智能的風(fēng)險、安全與對齊

基礎(chǔ)模型(Foundation Models)、拓展范式(Scaling Paradigm)與通用人工智能

Bommasani R, Hudson D A, Adeli E, et al. On the opportunities and risks of foundation models[J]. arXiv preprint arXiv:2108.07258, 2021.(僅第 3-6 頁,主要關(guān)注圖表1和2) (12分鐘)

Bommasani et al 綜述了基礎(chǔ)模型(foundation models)的基本概念、訓(xùn)練方式以及在機(jī)器學(xué)習(xí)中的廣泛應(yīng)用。

可以重點(diǎn)關(guān)注

(1)基礎(chǔ)模型的概念和術(shù)語來源以及

(2)基礎(chǔ)模型的訓(xùn)練方式。

 Kaplan, Jared, et al. Scaling Laws for Neural Language Models[J]. arXiv preprint arXiv:2001.08361, 2020.

"擴(kuò)展定律/規(guī)模法則"("Scaling Laws")觀察到大型語言模型的性能(通過測試損失衡量)與計算量、參數(shù)量和數(shù)據(jù)量在冪律關(guān)系下成比例。"Scaling Laws"也常被譯作規(guī)模法則、縮放定律、比例定律、標(biāo)度律等。

注:DeepMind近期提出了新的擴(kuò)展定律:Hoffmann, Jordan, et al. Training Compute-Optimal Large Language Models[J]. arXiv preprint arXiv:2203.15556, 2022(Chinchilla Scaling Laws)。特別是,關(guān)于最佳擴(kuò)展涉及將模型大小放大遠(yuǎn)遠(yuǎn)超過數(shù)據(jù)量的說法現(xiàn)在已被證明是不正確的:事實上,它們應(yīng)該以大致相同的倍數(shù)進(jìn)行放大。

其他參考:Sutton R. The bitter lesson[J]. Incomplete Ideas (blog), 2019, 13(1).,其中指出"利用計算的一般方法最終是最有效的"("general methods that leverage computation are ultimately the most effective")。文章給出了基于歷史的論據(jù),認(rèn)為擴(kuò)展可以繼續(xù)產(chǎn)生更好的結(jié)果。

Morris M R, Sohl-dickstein J, Fiedel N, et al. Levels of AGI: Operationalizing Progress on the Path to AGI[J]. arXiv preprint arXiv:2311.02462, 2023.

Google DeepMind的文章提出新的框架試圖衡量通往AGI的進(jìn)程,提出AGI等級(類似于自動駕駛的等級),新框架注重模型能力和通用性,并且著重討論了不同等級的AGI的自主性以及帶來的風(fēng)險。

AI災(zāi)難性風(fēng)險與安全

Hendrycks D, Mazeika M, Woodside T. An Overview of Catastrophic AI Risks[J]. arXiv preprint arXiv:2306.12001, 2023.

發(fā)起《AI風(fēng)險聲明》(微信中文譯版)的人工智能安全中心(Center for AI Safety, CAIS)發(fā)表了題為《災(zāi)難性AI風(fēng)險概述》的論文,旨在全面討論AI技術(shù)為何可能導(dǎo)致災(zāi)難性風(fēng)險,以及克服這一挑戰(zhàn)有益的應(yīng)對舉措。文中涉及四類災(zāi)難性AI風(fēng)險:濫用風(fēng)險、AI競賽風(fēng)險、組織風(fēng)險、失控AI風(fēng)險。

Bengio, Yoshua, et al. "Managing ai risks in an era of rapid progress." arXiv preprint arXiv:2310.17688 (2023).(授權(quán)中譯版)

論文代表了頂尖人工智能學(xué)者就政府應(yīng)如何應(yīng)對人工智能風(fēng)險達(dá)成的首次共識,同時也是迄今為止來自廣泛專家群體對此問題提出的最具體和全面的建議。例如,文章提出分配至少三分之一的人工智能研發(fā)資金用于確保人工智能系統(tǒng)的安全性和合乎倫理的使用(與其對人工智能能力的投資相當(dāng))。

Hendrycks D, Carlini N, Schulman J, et al. Unsolved problems in ml safety[J]. arXiv preprint arXiv:2109.13916, 2021.

文章提出ML Safety的四大抓手:對齊(Alignment)、魯棒性(Robustness)、監(jiān)測(Monitoring)和系統(tǒng)安全性(Systemic Safety),旨在系統(tǒng)性地分解AI安全問題。

從大模型對齊到超級對齊

Christiano P F, Leike J, Brown T, et al. Deep reinforcement learning from human preferences[J]. Advances in neural information processing systems, 2017, 30.

大語言模型對齊技術(shù)RLHF的前身之作,雖然是2017年的論文,但是里面關(guān)于為何要引入human preference以及在simulated Robotics上面整個pipeline是非常值得閱讀并思考的。

Ouyang L, Wu J, Jiang X, et al. Training language models to follow instructions with human feedback[J]. Advances in Neural Information Processing Systems, 2022, 35: 27730-27744.

在語言模型上進(jìn)行RLHF的開山之作, OpenAI首次提出了完整的RLHF的pipeline,并在大語言模型場景中展現(xiàn)出了極大的潛力。經(jīng)過RLHF的1.3B模型InstructGPT比175B的GPT-3效果更加好。

Bai Y, Kadavath S, Kundu S, et al. Constitutional ai: Harmlessness from ai feedback[J]. arXiv preprint arXiv:2212.08073, 2022.

Anthropic的代表性工作之一,首次提出了AI監(jiān)督AI的范式,也叫RLAIF,并通過完整的實驗流程證明使用另一個AI的反饋,能夠訓(xùn)練一個具有幫助性且無害的聊天助手。

Rafailov R, Sharma A, Mitchell E, et al. Direct preference optimization: Your language model is secretly a reward model[J]. arXiv preprint arXiv:2305.18290, 2023.

NeurIPS2023的Best paper,其核心的一個Motivation在于簡化RLHF的流程,去除了Reward Model的顯式學(xué)習(xí),通過人類偏好的數(shù)據(jù)直接來對Language Model進(jìn)行優(yōu)化,建議大家可以閱讀這篇論文的一個前置工作:Advantage-Weighted Regression: Simple and Scalable Off-Policy Reinforcement Learning

對齊失敗的技術(shù)原因

RLHF的開放問題和根本局限

Casper S, Davies X, Shi C, et al. Open problems and fundamental limitations of reinforcement learning from human feedback[J]. arXiv preprint arXiv:2307.15217, 2023.

論文從人類反饋(Human Feedback)、獎勵模型(Reward Model)、策略優(yōu)化(Policy)的三個角度探討了RLHF尚有的問題以及根本缺陷。

獎勵錯誤規(guī)范

Krakovna V, Uesato J, Mikulik V, et al. Specification gaming: the flip side of AI ingenuity[J]. DeepMind Blog, 2020, 3.(12 分鐘)

這篇文章說明,通常用于訓(xùn)練RL智能體的默認(rèn)技術(shù)往往由于設(shè)計獎勵函數(shù)的難度而導(dǎo)致不良行為。Krakovna等人在簡單的環(huán)境中展示了智能體利用錯誤指定的獎勵(稱為獎勵破解 )的例子。文章中提到的"規(guī)范博弈"(specification gaming)是一個廣義術(shù)語,包括RL智能體的獎勵破解以及類似的非RL智能體行為。

Ngo R, Chan L, Mindermann S. The alignment problem from a deep learning perspective[J]. arXiv preprint arXiv:2209.00626, 2022. (只需閱讀第2部分, 關(guān)于"reward hacking") (12分鐘)

"獎勵破解"指的是模型利用獎勵錯誤規(guī)范獲得高獎勵而不優(yōu)化我們試圖傳達(dá)的最初目標(biāo)。這篇文章認(rèn)為,一旦AI具有態(tài)勢感知(situational awareness;即將抽象知識應(yīng)用于它們運(yùn)行的特定環(huán)境的能力)能力,獎勵破解將變得更難檢測。態(tài)勢感知能力可能使AI能夠進(jìn)行欺騙性獎勵破解(deceptive reward hacking),即通過推理如何欺騙提供反饋的人來進(jìn)行獎勵破解。

Perez E, Ringer S, Luko?iūt? K, et al. Discovering language model behaviors with model-written evaluations[J]. arXiv preprint arXiv:2212.09251, 2022.

文章展示了一些基于RLHF進(jìn)行強(qiáng)化學(xué)習(xí)的inverse scaling現(xiàn)象,即RLHF讓模型在某些方面變差的現(xiàn)象。

Sharma M, Tong M, Korbak T, et al. Towards understanding sycophancy in language models[J]. arXiv preprint arXiv:2310.13548, 2023.

Anthropic的文章介紹了大模型的諂媚(Sycophancy)行為:在這里指的是AI模型產(chǎn)生的回應(yīng)趨向于符合用戶的立場或偏好,但有時可能以犧牲真實性或準(zhǔn)確性為代價的行為。是Discovering Language Model Behaviors with Model-Written Evaluations論文中諂媚現(xiàn)象的深入研究。

目標(biāo)錯誤泛化

Shah R, Varma V, Kumar R, et al. Goal misgeneralization: Why correct specifications aren't enough for correct goals[J]. arXiv preprint arXiv:2210.01790, 2022. (36分鐘)

Shah等人認(rèn)為,即使智能體在"正確"的獎勵函數(shù)上進(jìn)行訓(xùn)練,也可能會學(xué)到以不可取的方式泛化的目標(biāo)。本文實際展現(xiàn)了自主體學(xué)習(xí)的目標(biāo)可能與我們從訓(xùn)練設(shè)置和最初在測試環(huán)境中觀察到的行為預(yù)期的目標(biāo)不同。這與一般的"能力錯誤泛化"不同,因為在測試環(huán)境中自主體仍然可以有效地追求其學(xué)習(xí)到的目標(biāo),但是其學(xué)習(xí)到的目標(biāo)與我們訓(xùn)練它的目標(biāo)不同,因此,自主體會在測試環(huán)境中的得低分。

Di Langosco, Lauro Langosco, et al. "Goal misgeneralization in deep reinforcement learning." International Conference on Machine Learning. PMLR, 2022.

ICML 2022文章,展現(xiàn)了跟上面文章中相似的DRL"目標(biāo)錯誤泛化"行為。

工具趨同

以下閱讀會研究一種假設(shè):ML系統(tǒng)還可能以意想不到的方式最大化獎勵:尋求權(quán)力(power seeking)。換句話說,系統(tǒng)可能產(chǎn)生出"工具"目標(biāo),比如獲取資源、自我保護(hù)和自我增強(qiáng)等。工具趨同的概念來源于Superintelligence: Instrumental convergence (Bostrom, 2014)。它提出存在一些工具性目標(biāo)可以提高智能體實現(xiàn)最終目標(biāo)的可能性,意味著這些工具性目標(biāo)可能會被廣泛的智能體所追求。Bostrom提出了AI智能體可能內(nèi)化的五個目標(biāo),這些目標(biāo)是實現(xiàn)其整體目標(biāo)的"工具"。

Turner A M, Smith L, Shah R, et al. Optimal policies tend to seek power[J]. arXiv preprint arXiv:1912.01683, 2019.

Turner等在強(qiáng)化學(xué)習(xí)環(huán)境中形式化了權(quán)力尋求(power seeking)的概念,并證明了許多智能體會趨同到權(quán)力尋求的目標(biāo)。這篇文章詳細(xì)說明Bostrom (2014) 的論點(diǎn)(另請參見相關(guān)博客文章和論文)。

Pan A, Chan J S, Zou A, et al. Do the rewards justify the means? measuring trade-offs between rewards and ethical behavior in the machiavelli benchmark[C]//International Conference on Machine Learning. PMLR, 2023: 26837-26867.

文章提出了"馬基亞維利基準(zhǔn)"(MACHIAVELLI Benchmark),收集了134個基于文本的冒險游戲。這些游戲試圖去評估:語言模型在多大程度上傾向于追求權(quán)力而在獎勵與道德行為間做權(quán)衡。作者發(fā)現(xiàn),被訓(xùn)練去優(yōu)化任意目標(biāo)的自主體(agent)傾向于采取"為達(dá)目的,不擇手段"的行為:它們尋求權(quán)力,傷害他人,并違反如盜竊或謊言等道德規(guī)范以達(dá)成其目標(biāo)。其中似乎存在著在行為道德與實現(xiàn)高回報之間的權(quán)衡。

可擴(kuò)展監(jiān)督

Bowman S R, Hyun J, Perez E, et al. Measuring progress on scalable oversight for large language models[J]. arXiv preprint arXiv:2211.03540, 2022. (僅簡介) (6分鐘)

這篇論文介紹了"可擴(kuò)展監(jiān)督"的問題——試圖對人類難以完全理解的任務(wù)提供反饋。主要關(guān)注理解可擴(kuò)展的監(jiān)督問題。另外,論文介紹了"夾心"(sandwiching)的場景。當(dāng)人工智能系統(tǒng)"夾在"人類學(xué)科專家和外行之間時,它比外行更有能力,但不如特定領(lǐng)域的專家。"夾心"可以讓我們評估我們的可擴(kuò)展監(jiān)督假設(shè)是否適用于未來的系統(tǒng)(屆時將沒有專家能夠獨(dú)自監(jiān)督人工智能系統(tǒng))。

任務(wù)分解

Wu J, Ouyang L, Ziegler D M, et al. Recursively summarizing books with human feedback[J]. arXiv preprint arXiv:2109.10862, 2021. (6分鐘)

Wu等人給了一個遞歸任務(wù)分解(recursive task decomposition)的例子,可以看成是下一篇閱讀中迭代擴(kuò)增的一個特殊情況。

Wei, Jason, and Denny Zhou. "Language Models Perform Reasoning via Chain of Thought." Google AI Blog. Google Research. Online verfügbar unter /2022/05/language-models-perform-reasoning-via. html, zuletzt aktualisiert am 11 (2022): 2022.(12分鐘)

思維鏈(Chain of thought / CoT)是一種通過一系列推理步驟促使大型語言模型提供更好答案的技術(shù)。

Zhou D, Sch?rli N, Hou L, et al. Least-to-most prompting enables complex reasoning in large language models[J]. arXiv preprint arXiv:2205.10625, 2022.(僅到第 3.1 節(jié)結(jié)尾) (18分鐘)

Least-to-most prompting 是一種提示工程的技術(shù)。與CoT相比,它通過更明確地將任務(wù)分解為多個步驟來產(chǎn)生更好的答案。這可能會使結(jié)果輸出更易于監(jiān)督。

辯論方法

AI-written critiques help humans notice flaws: blog post (Saunders et al., 2022) (12分鐘)

作者訓(xùn)練了一個語言模型來評價另一個語言模型的性能,幫助人類對其進(jìn)行評估。這也是下一篇閱讀中討論的辯論協(xié)議(debate)的一個簡單示例。特別要注意判別(discrimination)和評論(critique)能力之間的差距,這是一個需要降低的重要指標(biāo)。

Irving G, Christiano P, Amodei D. AI safety via debate[J]. arXiv preprint arXiv:1805.00899, 2018. (僅到第3部分結(jié)尾) (42分鐘)

辯論涉及多個人工智能之間反復(fù)的自然語言交流,旨在讓人類更容易判斷哪個是更真實的。沒有復(fù)雜性理論(complexity theory)背景的讀者可以跳過 2.2 節(jié)。

對抗方法

Perez E, Huang S, Song F, et al. Red teaming language models with language models[J]. arXiv preprint arXiv:2202.03286, 2022. (12分鐘)

Perez等人使用語言模型自動生成測試用例,在不需要獲得網(wǎng)絡(luò)參數(shù)的情況下導(dǎo)致目標(biāo)語言模型產(chǎn)生不良行為,可以看做是一種"黑盒攻擊"。

這是一個生成"無限制對抗樣本"的例子。"無限制"指的是語言模型可以生成任何示例的情況,而"受限的"對抗樣本通常與訓(xùn)練數(shù)據(jù)點(diǎn)密切相關(guān)。

Casper S, Nadeau M, Hadfield-Menell D, et al. Robust feature-level adversaries are interpretability tools[J]. Advances in Neural Information Processing Systems, 2022, 35: 33093-33106. (36分鐘)

Casper等人通過操作輸入樣本的高層特征(可以獲取網(wǎng)絡(luò)權(quán)重,使其成為"白盒"攻擊)構(gòu)建攻擊。

對抗魯棒性與對齊泛化

大模型越獄攻擊

Wei A, Haghtalab N, Steinhardt J. Jailbroken: How does llm safety training fail?[J]. arXiv preprint arXiv:2307.02483, 2023.

越獄攻擊指的是一種針對LLM特殊設(shè)計的提示輸入,用于誘導(dǎo)模型輸出有害內(nèi)容或者隱私信息。NeurIPS 2023 Oral, 論文較為系統(tǒng)的研究了jailbreak這類攻擊為什么會成功以及如何制造這些攻擊,并闡述了安全訓(xùn)練的兩種失敗模型competing objectives和mismatched generalization。

Zou A, Wang Z, Kolter J Z, et al. Universal and transferable adversarial attacks on aligned language models[J]. arXiv preprint arXiv:2307.15043, 2023.

作者使用了一種基于白盒梯度的貪心方法在開源模型Llama 2上自動化生成"對抗字符串"。作者發(fā)現(xiàn)該"越獄"攻擊同時可以遷移到一系列閉源應(yīng)用上。

Pelrine K, Taufeeque M, Zaj?c M, et al. Exploiting Novel GPT-4 APIs[J]. arXiv preprint arXiv:2312.14302, 2023.

作者通過用少量有害數(shù)據(jù)基于GPT-4 Fine-tuning API微調(diào),即讓GPT-4模型協(xié)助用戶的有害請求。

Weak-to-Strong Generalization

Burns C, Izmailov P, Kirchner J H, et al. Weak-to-Strong Generalization: Eliciting Strong Capabilities With Weak Supervision[J]. arXiv preprint arXiv:2312.09390, 2023.

OpenAI 超級對齊團(tuán)隊成立以后第一份技術(shù)報告,提出了weak-to-strong的研究設(shè)置:如何用小模型(性能弱)監(jiān)督更大的模型(性能強(qiáng)),對于如何從經(jīng)驗上對齊超級智能有啟發(fā)。對于OpenAI 超級對齊團(tuán)隊的研究議程也可以參照Introducing Superalignment。

可解釋性研究

機(jī)制可解釋性

Elhage N, Hume T, Olsson C, et al. Toy models of superposition[J]. arXiv preprint arXiv:2209.10652, 2022.(僅第1、2部分) (36分鐘)

Elhage等人研究了為什么一些神經(jīng)元會對多個無關(guān)特征作出反應(yīng)("多語義性"),發(fā)現(xiàn)模型會處于"疊加態(tài)"來存儲的特征數(shù)量超過了它們的維度。模型神經(jīng)元的"多語義性"是Anthropic機(jī)制可解釋性研究的核心假設(shè)。

Towards Monosemanticity: Decomposing Language Models With Dictionary Learning

Anthropic 研究了如何將復(fù)雜的神經(jīng)網(wǎng)絡(luò)(特別是語言模型)分解為更易于理解的組成部分。作者發(fā)現(xiàn),與其直接分析單個神經(jīng)元,不如分析某些神經(jīng)元激活的組合,這些組合被稱為"特征"(features)。原本512神經(jīng)元的語言模型層通過這種分解方法,可以被分解成4000多種不同的特征,每種特征可以代表不同的模型性質(zhì),如DNA序列、法律語言、HTTP請求、希伯來文本等。

關(guān)于概念的可解釋性

Burns C, Ye H, Klein D, et al. Discovering latent knowledge in language models without supervision[J]. arXiv preprint arXiv:2212.03827, 2022. (僅第1-3部分) (36分鐘)

本文設(shè)計了一種無需任何真實標(biāo)簽的無監(jiān)督技術(shù)來自動識別模型是否"相信"一些陳述的真假。

McGrath T, Kapishnikov A, Toma?ev N, et al. Acquisition of chess knowledge in alphazero[J]. Proceedings of the National Academy of Sciences, 2022, 119(47): e2206625119. (僅到第2.1節(jié)結(jié)尾) (24分鐘)

本文提供了一個使用基于概念的可解釋性研究來探究AlphaZero對于人類國際象棋的概念。前兩節(jié)對可解釋性領(lǐng)域做了一個回顧。

Meng, Kevin, et al. "Locating and editing factual associations in GPT." Advances in Neural Information Processing Systems 35 (2022): 17359-17372.(12分鐘)

Meng等人演示了如何使用基于概念的可解釋性在語義層面修改神經(jīng)網(wǎng)絡(luò)權(quán)重。

Zou, Andy, et al. "Representation engineering: A top-down approach to ai transparency." arXiv preprint arXiv:2310.01405 (2023).

機(jī)制可解釋性(Mechanistic Interpretability)側(cè)重于理解神經(jīng)網(wǎng)絡(luò)中的神經(jīng)元和電路,符合傳統(tǒng)的"Sherringtonian"認(rèn)知神經(jīng)科學(xué)觀點(diǎn),這種觀點(diǎn)認(rèn)為認(rèn)知是神經(jīng)元間連接的結(jié)果。相比之下,表征工程(Representation Engineering; RepE)借鑒了"Hopfieldian"視角,將認(rèn)知視為由神經(jīng)元群體活動模式實現(xiàn)的表征空間的產(chǎn)物。

6. 多主體互動風(fēng)險

合作性AI:Dafoe A, Hughes E, Bachrach Y, et al. Open problems in cooperative AI[J]. arXiv preprint arXiv:2012.08630, 2020.

演化動力學(xué)視角:Hendrycks D. Natural selection favors ais over humans[J]. arXiv preprint arXiv:2303.16200, 2023.

Hendrycks從演化動力學(xué)視角闡述了"演化的力量可能會導(dǎo)致未來最有影響力的智能體出現(xiàn)自私傾向"。自然選擇會偏向選擇適應(yīng)環(huán)境并能取得最大回報的AI系統(tǒng),而不一定是對人類最有益的AI系統(tǒng);智能體間由于競合博弈和/或協(xié)作能力缺失可能導(dǎo)致多方互動風(fēng)險。

復(fù)雜系統(tǒng)視角

Introduction to AI Safety, Ethics, and Society Textbook (Chapter 5.3 Complex Systems for AI Safety)

Introduction to AI Safety, Ethics, and Society Textbook (Chapter 8.1-8.5 Collective Action Problems)

前沿AI濫用與失控風(fēng)險和應(yīng)對

OpenAI Preparedness Framework (Beta)

OpenAI Preparedness團(tuán)隊的框架文件。具體闡述了重點(diǎn)風(fēng)險分類的跟蹤、評估、預(yù)測和防范方法。重點(diǎn)風(fēng)險領(lǐng)域包括:網(wǎng)絡(luò)安全(Cybersecurity)、化生放核風(fēng)險(Chemical, Biological, Nuclear, and Radiological threats)、誘導(dǎo)與操縱(Persuasion)、模型自主性(Model Autonomy)和未知風(fēng)險(Unknown Unknowns)。

化生放核風(fēng)險(Chemical, Biological, Nuclear, and Radiological)

He J, Feng W, Min Y, et al. Control Risk for Potential Misuse of Artificial Intelligence in Science[J]. arXiv preprint arXiv:2312.06632, 2023.

文章介紹了三種化學(xué)領(lǐng)域的AI模型:合成規(guī)劃模型(Synthesis Planning Model)、毒性預(yù)測模型(Toxicity Prediction Model)和大型語言模型(LLM)以及科學(xué)自主體(Agents),并展示了它們可能被誤用和濫用的方式。

OpenAI Preparedness Framework (Beta)

化生放核風(fēng)險(Chemical, Biological, Nuclear, and Radiological threats)部分

模型失控風(fēng)險與自主性評測

OpenAI Preparedness Framework (Beta)

模型自主性(Model Autonomy)部分

"Evaluating Language-Model Agents on Realistic Autonomous Tasks"

與Anthropic和OpenAI合作進(jìn)行危險能力評測的非營利第三方機(jī)構(gòu)METR(原Alignment Research Center Evaluation Team)發(fā)布的第一份技術(shù)報告。介紹了其針對大語言模型獲取資源、創(chuàng)建自身副本以及適應(yīng)其在實踐中遇到新挑戰(zhàn)的能力的評測方法。

AI安全與對齊讀書會參考文獻(xiàn)清單

關(guān)于集智俱樂部讀書會和主辦方

集智俱樂部讀書會是面向廣大科研工作者的系列論文研讀活動,其目的是共同深入學(xué)習(xí)探討某個科學(xué)議題,了解前沿進(jìn)展,激發(fā)科研靈感,促進(jìn)科研合作,降低科研門檻。

讀書會活動始于 2008 年,至今已經(jīng)有 50 余個主題,內(nèi)容涵蓋復(fù)雜系統(tǒng)、人工智能、腦與意識、生命科學(xué)、因果科學(xué)、高階網(wǎng)絡(luò)等。凝聚了眾多優(yōu)秀科研工作者,促進(jìn)了科研合作發(fā)表論文,孵化了許多科研產(chǎn)品。如:2013 年的"深度學(xué)習(xí)"讀書會孕育了彩云天氣 APP,2015 年的"集體注意力流"讀書會產(chǎn)生了眾包書籍《走近2050》,2020年的開始因果科學(xué)讀書會孕育了全國最大的因果科學(xué)社區(qū)等。

主辦方:集智俱樂部

協(xié)辦方:集智學(xué)園、安遠(yuǎn)AI

集智俱樂部成立于 2003 年,是一個從事學(xué)術(shù)研究、享受科學(xué)樂趣的探索者的團(tuán)體,也是國內(nèi)最早的研究人工智能、復(fù)雜系統(tǒng)的科學(xué)社區(qū)。它倡導(dǎo)以平等開放的態(tài)度、科學(xué)實證的精神,進(jìn)行跨學(xué)科的研究與交流,力圖搭建一個中國的 "沒有圍墻的研究所"。

集智學(xué)園成立于2016年,是集智俱樂部孕育的創(chuàng)業(yè)團(tuán)隊。集智學(xué)園致力于傳播復(fù)雜性科學(xué)、人工智能等前沿知識和新興技術(shù),促進(jìn)、推動復(fù)雜科學(xué)領(lǐng)域的知識探索與生態(tài)構(gòu)建。

安遠(yuǎn)AI是一家位于北京、專注于AI安全與治理的社會企業(yè)。我們的使命是引領(lǐng)人機(jī)關(guān)系走向安全、可信、可靠的未來。我們面向大模型和通用人工智能安全和對齊問題,進(jìn)行風(fēng)險研判、建立技術(shù)社區(qū)、開展治理研究、提供戰(zhàn)略咨詢以及推動國際交流。

宙世代宙世代

ZAKER旗下Web3.0元宇宙平臺

智慧云智慧云

ZAKER旗下新媒體協(xié)同創(chuàng)作平臺

相關(guān)推薦
免責(zé)聲明
本文所包含的觀點(diǎn)僅代表作者個人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認(rèn)可。 交易和投資涉及高風(fēng)險,讀者在采取與本文內(nèi)容相關(guān)的任何行動之前,請務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。

熱門文章