首頁 > AI資訊 > 最新資訊 > 百家廠商的「技術覺醒」:隱私計算,將是下一個「IntelInside」

百家廠商的「技術覺醒」:隱私計算,將是下一個「IntelInside」

新火種    2023-11-01

百家廠商的「技術覺醒」:隱私計算,將是下一個「Intel Inside」

滴滴在美“低調”上市之后,國家網信辦的安全審查接踵而至,數據主權和安全的決心不言而喻。長久以來,互聯網平臺和用戶之間似乎達成某種共識:享受免費服務,就應該提供數據。而這種共識,也帶來信息泄露的風險。

去年,關于數據隱私保護的監管進程像被按下了快進鍵。多項法案陸續出臺,要求企業在數據應用過程中使用脫敏、加密等技術提高安全級。

然而,有人擔心“嚴令”會對企業經營產生不可逆的影響。工信部電子五所高級工程師、區塊鏈創新團隊負責人相里朋表示,“數據的核心價值是流通,只有在流通的情況下,數據價值才會被放大。”

這種情況下,如何實現只輸出數據結果而不輸出數據本身?拋開企業的“自我道德約束”,隱私計算成為一個技術“更優解”,相關概念的產品呈現爆發式的增長態勢。

與此同時,7月13日,Gartner發布了隱私計算的技術成熟度曲線-2021版本,而今年加入"技術成熟度曲線"的是聯邦學習和主權云。

百家廠商的「技術覺醒」:隱私計算,將是下一個「Intel Inside」

Gartner指出,到2024年,隱私驅動的數據保護和合規技術支出將在全球突破150億美元以上。本文將會圍繞隱私計算江湖的演變,探討人工智能時代下的數據之道。

聯邦學習:隱私計算江湖中的后起之秀

去年,Gartner發布2021年需要深挖的9項重要戰略科技趨勢,其中隱私增強計算成為企業機構需要深挖的9項重要戰略科技趨勢之一。

但是,隱私計算并不是一個“新鮮事物”,其歷史最早可以追溯到1979年的秘密分享,當時由Shamir和Blakley提出。1982年和1986年,國內姚期智院士提出了安全多方計算和混淆電路。

進入21世紀,圍繞隱私計算的理論幾乎是以每三年為一個周期進行更新。

因此,隱私計算其實是一堆“數據可用不可見”的技術集合。在騰訊發表的《隱私計算白皮書2021》中,給隱私計算下了一個定義:

隱私計算(Privacy Computing)是一種由兩個或多個參與方聯合計算的技術和系統,參與方在不泄露各自數據的前提下通過協作對他們的數據進行聯合機器學習和聯合分析。

從技術機制來看,隱私計算主要分為三大技術路線,即安全多方計算(密碼學)、聯邦學習及可信計算環境。

行業里,有人喜歡將隱私計算以“江湖門派”的形式進行分類,便于理解:

安全多方計算(MPC)是少林派,歷史悠久,功力深厚,最早可以追溯到上世紀80年代,有秘密共享、傳輸混淆電路等一些非常強大的獨門武器。

華山派,可信計算環境(TEE)。通過硬件技術來對數據進行隔離保護,以Intel等廠商為代表,國內包括螞蟻金服、翼方健數等公司將之集成到自己的隱私計算平臺。

聯邦學習是隱私計算的后起之秀,就像武當派張三豐師出少林一樣,聯邦學習結合密碼學和分布式計算,實現了多方協作的機器學習,在人工智能領域開辟了新天地。

除此之外,還有像盲簽名、隱私信息檢索、零知識證明等這些相對更小的密碼學協議分支,同樣非常有用,好比泰山派、峨眉派,它們共同組成了豐富多彩的隱私計算江湖。

盡管流派眾多,但是隱私計算真正成為“現象級”話題,還是在近幾年。

隱私計算的發展驅動力,很大一部分來自外部的監管環境(因為2018年3月的數據濫用丑聞,Facebook 被罰了50億美元)。各國政府越發趨嚴的監管力度,從某種程度推動了隱私計算的市場擴張。

而在大數據、人工智能越發深入行業的時代大背景下,如何在滿足數據隱私、安全和監管的前提下,設計一個機器學習框架,讓人工智能更高效、更準確的共同使用各方數據成為了研究的核心,聯邦學習應運而生。

同盾科技人工智能研究院院長李曉林教授就坦言,“TEE和MPC天然地、不是特別適合目前AI的場景需求。而聯邦學習天然適合分布式學習,因此優勢比較大。”

(推薦閱讀:《同盾AI研究院深度學習首席專家李宏宇:解構知識聯邦,開創數據“可用不可見”新局面》)

微眾銀行首席AI官楊強教授舉例說到,MPC一直保留在學術界,它的理論很美,設想確實是從根本解決問題,但是它能解決的是比較底層的精確計算和數據庫查詢。一旦涉及到模型層面,使用MPC的速度相比不用最少要慢上一萬倍。

這是因為,TEE和MPC都是面向通用計算模式,但聯邦學習是專門針對機器學習模型訓練這個場景設計優化。機器學習訓練分布式化后天然具備隱私保護的特點,可以比較容易地做到“原始數據不動,模型動”。

但是,楊強教授也補充道,機器學習本身是復雜模型的近似計算,雖然聯邦學習已經進入非常實用的階段。但是,也要明確和其他方法的區別——它是用來做近似計算。

“對于隱私計算行業,我們期待有一個囊括全盤的載體,可以理解為App Store,大家可以根據不同的需求去選擇用TEE/MPC/聯邦學習,或者是三種方法的混合。”

2018年,在楊強教授擔任首席AI官的情況下,微眾銀行正式開展了聯邦學習研究,內部投入百余人。到了2020年,微眾AI團隊透露已申請100+項相關專利,牽頭推進IEEE聯邦學習國際標準與聯邦學習國家標準制定。

(推薦閱讀:《微眾銀行首席AI官楊強:萬字圖文詳談聯邦學習最前沿》)

此后,各大廠商也積極布局聯邦學習,如平安的聯邦智能、螞蟻金服的共享智能、同盾科技與知識聯邦、京東數科與異步聯邦學習、百度與聯邦深度學習PaddleFL。

此外,面向金融行業的富數科技、星云Clustar,面向醫療行業的醫渡云、翼方健數等廠商的進入,讓聯邦學習成為當下隱私計算最重要的分支。

隱私計算是否會出現“平臺”孤島?

從去年以來,隱私計算的勢頭大火。

星云Clustar副總裁許振主管星云隱私計算技術的場景落地。他向雷鋒網表示,今年以來,一些銀行隱私計算技術底座的一期項目投入多則可以達到數百萬。

與之對應的,2019年到2020年初時,隱私計算賽道只有幾家競爭者。“這本來是很小眾的市場,但今年入局的廠商已飆升到上百家。”

當下來看,隱私計算的發展已漸入佳境,但是,一個行業的“拓荒時代”勢必會帶來一些新的命題。對于隱私計算而言,缺乏統一的標準,各平臺的技術實現也不相同,不同技術平臺所托管的數據在實際應用中無法跨平臺交互,“數據孤島”問題逐漸演化成了“平臺孤島”。

面對這個頗有些“難解”的問題,平安蜂巢平臺負責人王健宗博士認為,當前亟需制定聯邦學習平臺相關標準,建立隱私計算的框架規范,對聯邦學習平臺的參與角色、網絡模型、認證要求、管控要求、計算要求等進行約定。

“我們愿意聯合其他平臺與技術方共同定義行業的標準化接口,推出隱私計算的計算協議、建模協議、傳輸協議,促進各個隱私計算平臺間真正互聯互通。”

與此同時,希望更多研究機構與企業加入隱私計算前沿技術的研發中心,例如,如何利用同態加密進行比較計算,以及如何兼容其它加密算法等實際問題。

(推薦閱讀:《平安科技副總工程師王健宗:聯邦智能的突圍與應用之道》)

富數科技合伙人、解決方案總監黃奉孝也表示,互聯互通是國內隱私計算發展必然會面對的挑戰,異構平臺在技術互通協議棧的統一是能不能互通的關鍵。但是,廠商各自的商業考量也許是阻礙異構平臺之間互聯互通的根結。

“我很喜歡舉在線會議軟件的例子,會出現只安裝騰訊會議就可以和釘釘、zoom同臺聊天的那一天嗎?我不知道。”

事實上,為了更好地制定和驗證聯邦學習行業標準,富數科技已經和微眾銀行等機構在北京金融科技產業聯盟的指導下進行分階段的實踐。

黃奉孝認為,異構平臺的統一互聯互通協議需要更多的廠商來參與,特別是對軟件內核具有自主可控能力的廠商。另外,作為標準制定單位需要加快推進落實,具體的協議可以考慮從數據資源、從算法協議等等維度,循序漸進。

(推薦閱讀:《富數科技安全計算首席專家卞陽:隱私計算江湖與聯邦學習的「上帝視角」》)

醫渡云的首席架構師蔣錦鵬也表示,解決平臺孤島的問題,首先技術標準要先行。從2018年開始,國家大數據技術標準推進委員會TC-601在牽頭相關單位共同編寫隱私計算互聯互通標準,醫渡云也參與其中。

今年3月,北京市政府主導成立了北京國際大數據交易所,將采用隱私計算、區塊鏈等技術作為數據流通的底層技術保障。

此外,人民銀行主導了《聯邦學習技術金融應用規范-技術要求》、《聯邦學習技術金融應用規范-互聯互通》、《聯邦學習技術白皮書》、《多方安全計算金融應用現狀及實施指引》、《金融行業隱私計算技術與應用研究》等行業標準的起草和編寫。

這些對于隱私計算和聯邦學習來說,至關重要。

聯邦學習的根本屬性——讓所有人都能參與合作

除了國家政策的頂層設計之外,行業的生態仍然需要各家廠商積極搭建。

下游業主,也就是數據使用方使用聯邦學習的唯一目的就是進行數據融合、數據合規。技術平臺隱私化后,上游數據進來后涉及到一個對接的問題。因此,在星云Clustar副總裁許振看來,這個過程是一個“市場占有率”說話的問題,誰的技術占有率更高、互聯互通能力更高,誰將擁有更多的話語權。

“我們可以看到,FATE的占有率比較高,閉源軟件的占有率較低,推進起來也比較麻煩。而且,從甲方的反饋來看,對FATE的認可也是相當高的。”

許振所說的FATE是指微眾銀行在2019年推出的工業級開源框架。

百家廠商的「技術覺醒」:隱私計算,將是下一個「Intel Inside」

FATE整體架構

楊強教授曾表示,“聯邦學習像一個操作系統,你自己玩是不行的,它的特點是多方合作,只有多方都認可,才有機會做起來。”

并且,楊強教授也表明了微眾聯邦學習開源的邏輯:既然是多方協作的框架,那么就必須說明它的安全性與保密性,并且各方都能快速對其進行驗證,這是閉源軟件辦不到的。

為了連接不同組織機構間的數據,使數據得到更大的應用價值,2019年2月,微眾銀行AI部門開源了聯邦學習框架FATE,這是首個開源的聯邦學習工業級框架,并于2019年6月捐獻給Linux基金會,同時成立FATE TSC對FATE社區進行開源治理。

目前,FATE開源社區已匯聚了800多家企業、300多所高校等科研機構的開發者,是國內最大的聯邦學習開源社區。

當然,除了FATE以外,目前還有谷歌開源的TensorFlow Federated,和百度開源的PaddleFL。

(推薦閱讀:《百度「聯邦學習」戰略全布局丨萬字長文》)

在雷鋒網與一些開發者的調研中,能夠明顯感受到FATE目前的領先身位。

融數聯智的開源架構總監花京華表示,目前用FATE較多,算法組件在功能層面覆蓋大部分場景,擴展性也很好,業界認可度高,不過在性能上和資源占用上還可以進行更多優化。相比之下,PaddleFL框架比較重,要跑起來更困難。

花京華的開源架構團隊主要是縱向聯邦學習場景,Tensorflow Federated用的不多,更多是參考和學習。他表示,目前也在準備用Rosetta來實現MPC方案的聯邦學習,這個框架非常輕量,易用性高。

在花京華看來,自己對聯邦學習框架最核心的訴求有三點:一、穩定(框架設計穩定、算法性能和工程性能穩定);二、靈活易用,能在較少配置情況下很快在本機將demo跑起來,另外可以較好的擴展并與其他框架兼容;三,算法豐富度。

上海電信理想的李學軍沒有使用過谷歌開源的TensorFlow Federated,和百度開源的PaddleFL,他對FATE框架的最大訴求就是進一步提升性能。

此外,有一些較為常見的測試FATE有相關的整理文檔,但使用者對此了解較少。這也是未來FATE需要進一步提升的點。

當然,開源的聯邦學習不會“一勞永逸”。

首先,創新工場南京人工智能研究院執行院長馮霽曾向雷鋒網表示,在聯邦學習的分布式場景下,安全的問題更加需要研究,因為攻擊者攻擊的可能更多。

“比如攻擊者所了解的先驗知識會更多,要么是知道某一方的數據,要么知道某一方的模型。不需要知道所有方的數據和模型,攻擊者就能做出攻擊。

他補充到,“安全防御,是一件非常困難的事情。做一個壞人很容易,做好人卻很難。”

(推薦閱讀:《創新工場南京人工智能研究院執行院長馮霽:聯邦學習中的安全問題》)

其次,由于分布式參與節點計算能力不一致、網絡連接狀態不穩定、數據通信非獨立分布等因素,通信效率將成為聯邦學習應用的瓶頸之一。

這些是聯邦學習這個生態里面,每一個建設者都難以回避的問題。

不過,亞當·斯密曾經在《國富論》的開頭強調過,分工是促進勞動生產率提高的最重要動力。作為一種協作形式,“開源”顯然為斯密的這一論斷提供了最好的證據,也是生態構建的一條必經之路。

聯邦學習:場景落地萬花筒

一個客觀事實是,以聯邦學習為代表的隱私計算在金融領域的應用更為迅速。

原因在于,金融行業是數據密集型行業,但同時,金融行業數據也需要其他行業數據,例如互聯網行業數據,來補充完善自身的客戶數據畫像。

其次,金融行業的數字化程度較高,硬件基礎設施能力強。可以通過利用GPU等計算芯片提高算力,同時結合5G技術、邊緣計算來加速各節點的通信效率。

通過結合金融行業的硬件資源優勢與算子層的優化,由平安集團聯營公司金融壹賬通與旗下平安科技聯合研發的蜂巢平臺達到了提速50%的效果,同時在反洗錢等場景,平安的蜂巢平臺落地了自研的聯邦圖算法。“相對于其他仍依賴于傳統數據存儲的行業,在金融行業首先應用聯邦學習是較好的選擇。”

目前,金融壹賬通實現了聯邦學習在一些場景的落地使用,包括構建金融行業聯邦圖,應用于多方聯合反洗錢與融資擔保關系鏈查詢等場景。金融壹賬通還將聯邦學習應用于監管科技領域,解決了分業監管模式下金融數據的隱私性和孤立性問題,充分激活數據價值。

百家廠商的「技術覺醒」:隱私計算,將是下一個「Intel Inside」

聯邦圖在金融場景的應用,來源:金融壹賬通

星云Clustar副總裁許振也認為,“銀行是一個非常大的存量市場,這個存量市場要維系下去,聯邦學習是它唯一的方案。”

(推薦閱讀:《星云Clustar首席科學家胡水海:GPU在聯邦機器學習中的探索》)

而在場景應用實踐上,聯邦學習在金融范疇的運營會更加廣泛,比如聯合精準營銷、信貸聯合風控、貸后資金監控、聯合反欺詐、聯合反電信詐騙、聯合反洗錢、供應鏈金融等等,似乎聯邦學習可以解決大部分涉及到跨機構數據協作的金融業務。

從微眾銀行的進度來看,目前聯邦學習主要應用在風控和營銷兩大場景。微眾銀行表示,風控場景的落地(包括反欺詐)會更多,超過80%。

除此之外,楊強教授透露,微眾銀行可以幫客戶用聯邦學習降低貸款業務的壞賬率。此外,在交叉營銷(Cross Sale)、挖掘已有客戶的新的購買力、以人臉識別為特征的智慧城市建設、無人車的場景模擬等方面都有不錯的成果。

金融行業沒有太多的外部用戶特征,而另一個“以數據為生命”的行業則與之相反。每一家醫院都有針對一個用戶較為全面的數據, 但是每一家醫院的人群、專科不一樣。因此,醫院之間的數據流通更像是一種橫向聯邦。

楊強教授表示,“市面上已經有一些大數據廠商開始利用聯邦學習進行醫療多中心的聯合建模,這是非常好的趨勢。

醫渡云首席架構師蔣錦鵬就表示,現在醫渡云推出了基于安全計算的多中心科研平臺產品。在產品部署實施方面比較容易,不需要客戶做大量配合工作。

主要的前期準備工作在于,需要和客戶一起明確用聯邦學習做什么,建一個什么疾病領域的平臺,邀請哪些醫院共同參與,未來跑哪些業務。另一個主要前期工作是數據治理。

“我們知道機器學習建模需要高質量、標準化的數據,而醫院原始數據往往非常分散、非結構化、非標準化,需要經過專業地加工處理后才有可能產出有意義高價值的成果,否則只能garbage-in garbage-out (垃圾進,垃圾出)。“

當然,在實踐中,這些廠商的一線工作者們也發現了“理想”與“現實”之間的界限。

比如,醫院之間的互聯網絡條件一般較差,影響了多方安全計算的性能,如何對通信和性能進行優化。另外,醫院之間對研究的貢獻如何客觀度量。這些方面,醫渡云正在和清華大學等高校開展合作研究優化。

平安蜂巢平臺在落地聯邦學習的過程中發現了兩個問題:第一個是“數據確權”與數據價值評估的問題。具體來說,就是如何在數據不可見的情況下,進行數據價值判斷與商業定價。

同時,隱私計算的數據定價也要與根據查詢數據條數計費的傳統模式有所區分。作為數據需求方的業務客戶,更加希望可以通過隱私計算技術應用降低數據購買成本,從而為業務帶來新的亮點與價值。

因此,隱私計算需要對傳統的數據購買進行商業邏輯變革,從根本上優化數據合作的商業定價,激活金融數據的潛在價值。

蜂巢平臺負責人認為,“維持與傳統形式相同的數據定價模式,將不利于隱私計算的行業技術發展。”

另一個挑戰是密碼學在隱私計算實踐中的應用,在實際應用中會有很大性能挑戰。因此,需要更多的高校和研究機構投入密碼學的研發當中,共同推進隱私計算行業的技術應用與落地。

從“Intel inside”到“隱私計算 inside”

與傳統的土地、勞動、技術等一樣,數據已是生產要素之一,成為一種新型社會生產力,越來越多的業務場景需要多方數據的流通和共享。在《國家數據安全法》頒布后,聯邦學習、隱私計算更加凸顯價值。

今年,針對隱私計算的招標采購已經普遍開始,隱私計算已經到了開始真正嘗試規模化應用的階段。對于有一定技術產品實力的企業來說,技術的競爭天花板只會越來越小,行業的垂直細分應用會越來越大。

數據中心與數據中心的聯邦學習會成為數據開放流通的主流模式,設備之間的橫向聯邦學習,會隨著手機智能設備、無人駕駛、工業設備等場景開始遍地開花。

在楊強教授看來,聯邦學習不是一套簡單的算法,而是一個大數據生態的操作系統。從操作系統的角度來看,首先要安全,其次是效率,第三是參與者生態。這些都還沒有建立起來,所以行業遠沒到成熟的地步。

“聯邦學習、隱私計算沒有過熱,這里面可能會出現下一個Windows。未來,我也期待有更多的廠商使用隱私計算,甚至像每臺電腦上的‘Intel Inside’一樣,在自己的產品上打上‘隱私計算 Inside’,隱私計算將成為一種商業轉化的核心競爭力。我期待,這將會是一個范式(paradigm)的改變。”

黃奉孝的一句話,讓人印象深刻:等隱私計算技術發展到向今天的hadoop技術生態的成熟度后,我猜測“安全即業務”會到來。

Tags:
相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章