OpenAI制定新的安全框架,專家評價:在安全集成方面仍落后于Anthropic

圖片來源:由無界 AI生成
近期,OpenAI 因內(nèi)斗事件飽受爭議,也引發(fā)了人們對其治理和問責(zé)制的質(zhì)疑。與此同時,在確保人工智能安全性方面,OpenAI 的應(yīng)對措施也越來越受到人們的關(guān)注。
10 月底,OpenAI 宣布成立一個“準(zhǔn)備團(tuán)隊(duì)”(Preparedness team),旨在監(jiān)測和評估前沿模型的技術(shù)和風(fēng)險,并制定和維護(hù)風(fēng)險知情發(fā)展政策(RDP)。同時,該團(tuán)隊(duì)也將與安全系統(tǒng)團(tuán)隊(duì)、超級對齊團(tuán)隊(duì)以及其他安全和政策團(tuán)隊(duì)密切合作。
在這一基礎(chǔ)上,OpenAI 今日又公布了一份名為“準(zhǔn)備框架”(Preparedness Framework)的文檔,概述了 OpenAI 將如何“追蹤、評估、預(yù)測和防范災(zāi)難性風(fēng)險”,旨在確保前沿 AI 模型的安全,并嘗試解決一些問題。
數(shù)據(jù)驅(qū)動的人工智能安全方法
OpenAI“準(zhǔn)備框架”的核心機(jī)制之一是,對所有前沿人工智能模型使用風(fēng)險“記分卡”。它可以評估和跟蹤潛在風(fēng)險的各種指標(biāo),例如模型的功能、漏洞和影響。
據(jù)介紹,記分卡會對所有模型進(jìn)行反復(fù)評估和定期更新,并在達(dá)到特定風(fēng)險閾值時觸發(fā)審查和干預(yù)措施。
對于觸發(fā)基準(zhǔn)安全措施的風(fēng)險閾值,OpenAI 將感知風(fēng)險評級分為四個等級:“低”、“中”、“高”和“嚴(yán)重”,并列舉了 4 類可能帶來災(zāi)難性后果的風(fēng)險領(lǐng)域:網(wǎng)絡(luò)安全、CBRN(化學(xué)、生物、輻射、核威脅)、勸說以及模型的自主性。

OpenAI 強(qiáng)調(diào),只有在緩解后(post-mitigation)得分在“中”或以下的模型才有資格部署,而緩解后得分仍為“高”的模型不能部署,但可以進(jìn)一步開發(fā)。此外,OpenAI 表示還將針對具有高風(fēng)險或嚴(yán)重風(fēng)險(緩解前)風(fēng)險的模型實(shí)施額外的安全措施。

此外,OpenAI 還將成立一個跨職能的“安全咨詢小組”(Safety Advisory Group)來監(jiān)督技術(shù)工作,并建立一個安全決策的運(yùn)作架構(gòu)。

首先,準(zhǔn)備團(tuán)隊(duì)將推動技術(shù)工作,檢查和評估前沿模型,并定期向內(nèi)部安全咨詢小組發(fā)送報告。隨后,安全咨詢小組會審查所有報告,再將報告同時提交領(lǐng)導(dǎo)層和董事會。
值得注意的是,OpenAI 指出,雖然領(lǐng)導(dǎo)層是決策者,但董事會擁有撤銷決定的權(quán)利。
除了上述措施,準(zhǔn)備框架還有一個關(guān)鍵要素,就是允許來自 OpenAI 之外的“合格的獨(dú)立第三方”測試其技術(shù)并接收反饋,同時 OpenAI 將與外部各方以及安全系統(tǒng)等內(nèi)部團(tuán)隊(duì)密切合作,以追蹤現(xiàn)實(shí)世界中的濫用情況。這一舉措有助于 AI 模型的安全性得到更廣泛的審查和驗(yàn)證。
目前,該安全框架仍處于測試階段。OpenAI 也表示,準(zhǔn)備框架并不是一個靜態(tài)文檔,而是一個動態(tài)且不斷發(fā)展的文檔,他們將根據(jù)新數(shù)據(jù)、反饋和研究不斷完善和更新框架,并將與人工智能社區(qū)分享其研究成果和最佳實(shí)踐。
那么對于這一框架,行業(yè)人士如何看待?
與 Anthropic 的政策形成鮮明對比
在 OpenAI 宣布這一消息之前,其主要競爭對手 Anthropic 已經(jīng)發(fā)布了幾份關(guān)于人工智能安全的重要聲明。
Anthropic 由前 OpenAI 研究人員創(chuàng)立,也是領(lǐng)先的人工智能實(shí)驗(yàn)室。它于今年 9 月發(fā)布了“負(fù)責(zé)任的擴(kuò)展政策”(Responsible Scaling Policy),旨在采用一系列技術(shù)和組織協(xié)議,以幫助管理功能日益增強(qiáng)的 AI 系統(tǒng)的風(fēng)險。
在文件中,Anthropic 定義了一個名為 AI 安全級別(ASL)的框架,用于解決災(zāi)難性風(fēng)險。該框架大致仿照美國政府處理危險生物材料的生物安全分級(BSL)標(biāo)準(zhǔn)。該框架的基本想法是,要求與模型潛在的災(zāi)難性風(fēng)險相適應(yīng)的安全、保障和操作標(biāo)準(zhǔn),更高的 ASL 安全級別需要更嚴(yán)格的安全演示。
根據(jù) ASL 框架,分為以下四個等級:
ASL-1 指的是不構(gòu)成有意義的災(zāi)難性風(fēng)險的系統(tǒng),例如 2018 LLM 或只會下棋的人工智能系統(tǒng)。ASL-2 是指顯示出危險能力早期跡象的系統(tǒng),例如能夠發(fā)出有關(guān)如何制造生物武器的指示,但由于可靠性不足或未提供諸如搜索引擎做不到的信息。目前的 LLMs(包括 Claude)似乎屬于 ASL-2。ASL-3 是指與非 AI 基線(例如搜索引擎或教科書)相比,顯著增加災(zāi)難性誤用風(fēng)險或顯示低級自主能力的系統(tǒng)。ASL-4 及更高版本(ASL-5+)尚未定義,因?yàn)樗c目前的系統(tǒng)相差太遠(yuǎn),但可能會涉及災(zāi)難性誤用潛力和自主性方面出現(xiàn)質(zhì)的升級。可以看到,兩個框架在結(jié)構(gòu)和方法上存在顯著差異。Anthropic 的政策更加正式和規(guī)范,直接將安全措施與模型能力相關(guān)聯(lián),如果無法證明安全性,則暫停開發(fā)。
相較之下,OpenAI 的框架則更靈活、更具有適應(yīng)性,它設(shè)置了觸發(fā)審查的一般風(fēng)險閾值,但不是預(yù)定義的級別。
對此,專家認(rèn)為,這兩種框架各有優(yōu)劣,但 Anthropic 的方法可能在激勵和執(zhí)行安全標(biāo)準(zhǔn)方面更勝一籌。
他們分析稱,Anthropic 的政策傾向于將安全性主動融入開發(fā)流程,而非被動應(yīng)對,這類嚴(yán)格的方法有助于在 AI 模型部署時降低潛在風(fēng)險。而 OpenAI 的準(zhǔn)備框架更為寬松,自由裁量權(quán)更大,為人類判斷和錯誤留下了更多空間,也可能因?yàn)槿狈唧w的安全分級而引發(fā)爭議。
當(dāng)然,任何事物都有兩面性。Anthropic 的政策在嚴(yán)格規(guī)定安全標(biāo)準(zhǔn)的同時,也可能會缺乏一定的靈活性,導(dǎo)致對某些創(chuàng)新造成一定程度的限制。
盡管如此,一些觀察人士仍認(rèn)為,OpenAI 正在安全協(xié)議方面迎頭趕上。雖然存在差異,但這兩個框架都代表了人工智能安全領(lǐng)域向前邁出的重要一步,而這一領(lǐng)域往往被對人工智能能力的追求所掩蓋。
隨著 AI 模型變得更加強(qiáng)大和普遍,領(lǐng)先的實(shí)驗(yàn)室和利益相關(guān)者之間在安全技術(shù)方面的協(xié)作和協(xié)調(diào),對于確保人工智能對人類的有益和合乎道德的使用至關(guān)重要。
- 免責(zé)聲明
- 本文所包含的觀點(diǎn)僅代表作者個人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險,讀者在采取與本文內(nèi)容相關(guān)的任何行動之前,請務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。