首頁 > AI資訊 > 行業動態 > OpenAI增強安全團隊,授予其董事會否決危險AI的權力

OpenAI增強安全團隊,授予其董事會否決危險AI的權力

新火種    2023-12-21

·生產中的模型由“安全系統”團隊管理。開發中的前沿模型有“準備”團隊,該團隊會在模型發布之前識別和量化風險。然后是“超級對齊”團隊,他們正在研究“超級智能”模型的理論指南。

·一個新的“安全顧問小組”將位于技術團隊之上,向領導層提出建議,并且董事會被授予否決權。

當地時間12月18日,OpenAI在官網中宣布,其正在擴展內部安全流程,以抵御有害人工智能的威脅。一個新的“安全顧問小組”將位于技術團隊之上,向領導層提出建議,并且董事會被授予否決權。

這項更新引起注意很大程度上是因為,此前OpenAI首席執行官山姆·奧特曼(Sam Altman)被董事會罷黜的一個緣由似乎與大模型安全問題相關。而在高層人事混亂后,OpenAI董事會的兩名“減速主義”成員伊爾亞·蘇茨克維(Ilya Sutskever)和海倫·托納(Helen Toner)就失去了董事會席位。

在文章中,OpenAI討論了其最新的“準備框架”,即OpenAI跟蹤、評估、預測和防范日益強大的模型帶來災難性風險的流程。如何定義災難性風險?OpenAI表示,“我們所說的災難性風險是指,任何可能導致數千億美元經濟損失或導致許多人嚴重傷害或死亡的風險——包括但不限于生存風險。”

三組安全團隊覆蓋不同的時間框架和風險。

根據OpenAI官網信息,生產中的模型由“安全系統”團隊管理。開發中的前沿模型有“準備”團隊,該團隊會在模型發布之前識別和量化風險。然后是“超級對齊”(superalignment)團隊,他們正在研究“超級智能”(superintelligent)模型的理論指南。

OpenAI的團隊將根據四個風險類別對每個模型進行評級:網絡安全、“說服”(例如虛假信息)、模型自主性(即自行行動)和CBRN(化學、生物、放射性和核威脅,例如創造新病原體的能力)。

OpenAI假定了各種緩解措施:例如,模型對于描述制作凝固汽油或管式炸彈的過程保持合理的保留態度。在考慮已知的緩解措施后,如果一個模型仍然被評估為具有“高”風險,它將無法部署,如果一個模型存在任何“關鍵”風險,將不會進一步開發。

而制作模型的人不一定是評估模型和提出建議的最佳人選。正是由于這個原因,OpenAI正在組建一個“跨職能安全咨詢小組”,該小組將位于技術層面,審查研究人員的報告并從更高的角度提出建議,希望為其發現一些“未知的未知”。

這個過程要求這些建議同時發送給董事會和領導層,領導層將決定是繼續還是停止運行,但董事會將能夠撤銷這些決定。這有望避免在董事會不知情的情況下讓高風險產品或流程獲得批準。

不過,依然令外界擔心的是,如果專家小組提出建議,首席執行官根據該信息做出了決策,那么OpenAI目前這個董事會真的會感到有權反駁并踩下剎車嗎?如果他們這樣做了,外界的公眾會聽到相關的聲音嗎?目前除了OpenAI將征求獨立第三方審計的承諾之外,其透明度問題實際上并沒有真正得到解決。

OpenAI“準備框架”五個關鍵要素:

1.評估和打分

我們將運行評估并不斷更新我們模型的“記分卡”。我們將評估所有前沿模型,包括在訓練運行期間增加兩倍的有效計算量。我們將把模型推向極限。這些發現將有助于我們評估前沿模型的風險,并衡量任何擬議的緩解措施的有效性。我們的目標是探測不安全的特定邊緣,以有效地減輕暴露的風險。為了跟蹤我們模型的安全水平,我們將制作風險“記分卡”和詳細報告。

“記分卡”將評估所有前沿模型。

2.設定風險閾值

我們將定義觸發安全措施的風險閾值。我們根據以下初始跟蹤類別定義了風險級別閾值:網絡安全、CBRN(化學、生物、放射性、核威脅)、說服和模型自主。我們指定了四個安全風險級別,只有緩解后得分為“中”或以下的模型才能部署;只有緩解后得分為“高”或以下的模型才能進一步開發。我們還將針對具有高風險或嚴重風險(緩解前)的模型實施額外的安全措施。

風險級別。

3.設定新的監督技術工作和安全決策運營結構

我們將建立一個專門的團隊來監督技術工作和安全決策的運營結構。準備團隊將推動技術工作來檢查前沿模型能力的極限,進行評估并綜合報告。這項技術工作對于OpenAI安全模型開發和部署的決策至關重要。我們正在創建一個跨職能的安全咨詢小組來審查所有報告并將其同時發送給領導層和董事會。雖然領導層是決策者,但董事會擁有推翻決定的權利。

新的監督技術工作和安全決策運營結構。

4.增加安全性和外部問責制

我們將制定協議以提高安全性和外部責任。“準備團隊”將定期進行安全演習,以針對我們的業務和自身文化進行壓力測試。一些安全問題可能會迅速出現,因此我們有能力標記緊急問題以進行快速響應。我們認為,這項工作從OpenAI外部人員那里獲得反饋并希望由合格的獨立第三方進行審核是很有幫助的。我們將繼續讓其他人組成紅隊并評估我們的模型,并且我們計劃與外部共享更新。

5.減少其他已知和未知的安全風險

我們將幫助減少其他已知和未知的安全風險。我們將與外部各方以及安全系統等內部團隊密切合作,以跟蹤現實世界中的濫用情況。我們還將與“Superalignment”(超級對齊)合作跟蹤緊急的錯位風險。我們還開創了衡量風險如何隨著模型規模擴展而演變的新研究,以幫助提前預測風險,這類似于我們早期在規模法則方面取得的成功。最后,我們將運行一個連續的過程來嘗試解決任何新出現的“未知的未知”。

相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章