增強AI時代數據安全
鄔賀銓
數據安全貫穿數據全生命周期。狹義的數據安全是免受篡改和破壞。廣義的數據安全包括數據的可靠性、數據安全性、服務和內容的安全性,在人工智能時代還會擴展數據安全的內涵,當然也會放大數據安全的風險。
數據安全包括從數據采集、數據融合、服務生成到內容應用等環節的安全。首先是網絡基礎設施方面涉及數據的可靠性,包括傳輸鏈路可靠性、算力節點、數據中心、數據庫包括存儲設備可靠性。二是數據安全技術,包括身份識別、數據屬性、數據流動管理、數據加密水印等。三是數據服務與內容安全技術,包括數據所有權管理技術、數據交易技術管理、開放共享管理、人工智能深度防偽、AI幻覺的控制、AI服務的數據內容合規等。
數據中心的災備需要重點考慮。我們國家對數據災備建設有投資,但是災備往往能力不足,現在就需要加強對數據的異地容災備份。大家都希望容災的時候數據不丟失或者說丟失量很低,過去災備的間隔是一天主備復制一次,在丟失的時候可能會丟一天的數據,但現在可能要縮短到一小時復制一次,而且復制的鏈路可靠性要求很高、時延要求更低。災備需要對數據定期復制。但是,數據復制間隔越密,它的效率就越低。從數據丟失開始到真正切換還有故障識別、故障判斷的過程,這段時間可能會影響數據,在恢復正常之后還要再切回去。利用分布的公有云做容災備份是發展趨勢。
實際上,在數據中心內部也仍存在安全問題。數據中心內部本身要做到無損,但往往有些時候單個算力節點能力不足,就導致需要動員多節點來協同,算力節點間需要大容量光傳輸鏈路,因此對光傳輸鏈路的時延、丟包會有嚴格的要求。
不同類型的數據對安全要求不同,我們需要識別數據是國家機密數據、企業秘密數據還是涉及大量用戶敏感信息數據。過去的互聯網沒有識別,不知道所承載的數據是什么,現在有了IPv6,可以對源地址和目的地地址驗證,還可利用APN6(應用感知)和iFIT(隨流檢測)可以知道這個數據源端使用者的身份和對信道服務質量的要求,還可實時獲得信道的時延、抖動、丟包率等性能參數。這樣可以實現路徑溯源,從而支持數據跨境流動管理。
網絡安全是數據安全的基礎,一般來說,通過加密可以保護數據。但是加密數據也可能被勒索病毒再次加密,需實時對軟件版本進行核對與接入審計。盡管我們很重視網絡安全,但是也不能因為安全而不促進數據的流通、不促進數據的應用。企業雙方都想利用對方的數據,但是都不愿意把自身的原始數據交給對方,如果交給第三方,也不一定相信第三方的公正和安全。
現在可以利用隱私計算和多方同態加密的技術,選擇一個特定的密鑰,讓數據加密以后計算結果等效于沒有加密的計算,就能實現數據可用不可見。通過這種辦法可以實現數據的融合。現在還有一種技術,把企業的數據打散了之后分布式進行存儲,然后加入密鑰的控制,可以按需根據對方企業的需要把數據調入沙箱,然后再進行解密計算,這相對來講比同態加密要簡單。
人工智能的出現讓數據可信性面臨挑戰。因為生成式大模型是基于統計和模式識別的,別看它有上下文的關聯,但是并不等于全局性和對物理世界的透徹了解,而且有些場合的數據很少。訓練數據少,訓練的場景缺失,可能會出現低級錯誤甚至常識性錯誤。另外,數據可能是受到干擾的。在大模型訓練的時候也會受到無意的或者惡意的誘導,會使AI誤判。AI應用會增加很多的挑戰。
為應對這些挑戰,要加強數據質量控制,使用高質量多樣化的數據訓練。要對算法優化和模型評估改進,定期審查和測試。需要開展倫理審查,特別是對可能產生重大社會影響的應用進行事先審批,幫助用戶理解AI的運作方式和潛在風險。還可利用區域截圖、放大縮小等預處理發現數據被篡改或AI被濫用,進一步保障數據安全。
(作者系中國工程院院士、中國互聯網協會專家咨詢委員會主任)
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。