如何應對AIGC時代的內容風險?阿里巴巴的一個答案是用模型監督模型
阿里巴巴集團與中國電子技術標準化研究院聯合發布的《AIGC治理與實踐白皮書》
12月27日,由阿里巴巴集團與中國電子技術標準化研究院主辦的AI發展與治理創新研討會在北京召開。會上,阿里巴巴集團與中國電子技術標準化研究院聯合發布《AIGC治理與實踐白皮書》。阿里巴巴科技倫理治理委員會負責人表示,阿里巴巴正在一邊筑牢AI發展的防火墻,一邊突破AI應用的天花板,與社會各界一道,用AI破解更多社會難題。
會上,復旦大學計算機科學技術學院教授張謐分享了其團隊研發的大模型靶向式安全評測Jade平臺,實現了全自動的大模型安全評測和高風險問題收集,并希望在安全評測、價值觀安全測評之外,進一步做到讓模型監督模型。張謐表示,“讓模型來監督模型,需要人類先給出安全規則,然后模型會遵照這些安全規則去反思,一步步修改最后的答案。未來有可能我們進入一個自主對齊的時代,智能大模型可以自主設計策略、規劃步驟了。”
為了增強模型自身的安全能力,瑞萊科技CEO田天在會上分享了RealSafe人工智能安全檢測平臺的經驗,通過檢測AI安全的大模型,對被測的大模型進行檢測和加固。如果把被測試的大模型比作學生,那么AI對抗紅隊模型相當于“出卷老師”,自動生成大量的誤導性問題,對被測模型進行提問。另一方面,一個評測模型相當于“判卷老師”,來判斷被測模型的回答是否安全、符合預期。
“對于‘判卷老師’,我們可以通過近70個維度去判斷回答的結果是否滿足安全性。”田天表示。
在紅隊模型、評測模型形成完整閉環自動化評測之外,還有一個教練模型,相當于“輔導老師”,判斷被測模型的回答有多好、是否比上一次更好,來對模型進一步微調。
自去年11月硅谷AI公司OpenAI發布ChatGPT以來,AIGC從科技業內走向了更廣闊的輿論場。AIGC指利用人工智能生成的內容,是繼專業生產內容(PGC,Professional-generated Content)、用戶生產內容(UGC,User-generated Content)之后的新型內容創作方式,AI繪畫、AI寫作、AI視頻、AI音樂等都屬于AIGC的分支。
AIGC內容生產成本低,可規模化,相比于真實構圖,AIGC生成內容自由度更高、更復雜,同時AIGC相應用戶的指令速度快,在極短時間內產生極大量的內容,對內容審核的時效性提出極大挑戰。
當AI賦能用戶極其便捷地一鍵生成圖片/視頻/語音等內容,各種偽造、欺詐的風險也隨之而生。據華盛頓郵報今年11月報道,自 2018 年以來,人工智能生成色情照片的前10名網站上,偽造裸體的數量激增了 290% 以上。新型AI欺詐可通過AI生成的視頻和語音,用于語音通話來欺騙親友轉賬。
而AI大模型本身可能由于訓練數據集中的低質量數據(如數據投毒等),產生內生性風險,如“一本正經地胡說八道”,生成虛假內容以假亂真,倫理導向未與人類社會價值完全對齊。
對于大模型的安全評測,Google DeepMind團隊提出了個負責任開發流程,硅谷人工智能初創公司Anthropic提出了負責任擴展策略,OpenAI提出了分級風險評估方案。
在AIGC時代,用模型評估、監督模型,或成為AIGC安全治理不可缺少的一步。
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。