【个推CTO谈数据智能】之数据安全计算体系
作者|個推CTO ?安森
?
引言
?
本文是數據智能系列的第四篇。前三篇文章(《數據智能時代來臨:本質及技術體系要求》《多維度分析系統的選型方法》?《我們理解的數據中臺》分別闡述了數據智能體系構建的技術要求,對團隊工作中涉及到的多維度分析系統的選型方法進行了穿插介紹,以及對我們理解的數據中臺進行了闡述。按照原先的規劃,接下去的內容會涉及數據智能平臺的數據治理、安全計算以及質量保障等方面。結合當前大環境,今天就數據的安全計算體系進行分析。
?
?
?
正文內容
?
目
錄
| 01 | 大數據行業對于數據融合的需求和痛點 |
| 02 | 行業對于解決痛點方面的探索 |
| 03 | 總結 |
?
01
?
大數據行業對于數據融合的需求和痛點
?
向數字時代邁進的趨勢不可逆轉
?
從第一臺計算機的問世,到互聯網的誕生,再到近十年來移動互聯網的蓬勃發展,整個世界的數字化進程已經呈現出越來越迅速、清晰的趨勢。使用各類APP、電子商務、電子支付等已經成為我們的習慣。
?
近年來,5G技術日益成熟,其核心場景包括:增強移動寬帶(eMBB),面向VR/AR、超高清視頻等需要高速大流量的移動寬帶業務;大規模機器類通信(mMTC),面向大規模物聯網等業務;超高可靠及低延遲/時延(uRLLC),面向無人駕駛、工業自動化等業務。【1】
顯然,我們將進入萬物互聯的時代,萬物互聯也就意味著萬物皆數。數字世界將是這個物質世界的孿生世界,這種趨勢不可逆轉。
?
?數據是資源更是資產
?
?數字時代的各種產品和服務除了為公眾提供直接價值外,還產生了大量的數據。由于數據特殊的選擇價值的存在,數據不僅對個人意義重大,還日益成為現代商業的核心價值與重要資產。數據正在重新塑造人類生活的方方面面,包括金融、廣告、零售、醫療、物流、能源和工業等。
?
隨著人工智能時代的到來,數據在現代商業活動中也成為了最重要的競爭資源之一。各個巨頭公司利用自身數據優勢建立起行業壁壘。例如,有些打車軟件公司擁有用戶日常出行數據,包括乘客的起點與終點。他們可以利用這些數據來優化自己的產品和業務,甚至可以用這些數據來進行預測,比如房地產價格指數或者政府道路優化方案等。
?
上面的例子深刻體現了大數據的擴展價值,還有一個更廣闊的價值是大數據的融合價值,也就是數據的總和比部分更有價值。當我們將多個數據集的總和重組在一起時,重組總和的價值比單個總和的價值更大。
?
譬如在普惠金融方面,中國人民銀行征信中心通過以往用戶在金融機構中的借貸行為形成了一部分人的信用數據,但是這類人群占社會總人口的比例很小。如果我們想讓更多人享受到普惠的金融服務,就需要針對不同人群設計不同產品,而這就需要更多的數據進行信用的積累,包括電商、消費、社交等數據。
?
? 隱私保護是自由的基礎[2]
?
在互聯網、人工智能給我們帶來便利的同時,也存在一些亂象。因此,保護用戶隱私的需求也變得越來越迫切。
?
技術使人類能夠更尊重和更好地保護彼此的權利。同樣的,技術也可能讓人類能夠有更多的新方式侵害彼此的權利。有 “摩爾定律” 也有了 “摩爾的不法之徒定律”,?垃圾信息傳播者、身份盜竊者、在網上“ 釣魚”的罪犯、間諜、僵尸網絡入侵者、黑客、網絡惡霸、數據敲詐者,他們給互聯網帶來的負面影響也非常大。
?
2018年5月25日正式生效的歐盟通用數據保護條例(GDPR)引起全球廣泛關注,這部被稱為“史上最嚴”的數據保護法案對科技行業和個人生活產生了深遠影響。它是人類歷史上第一個規定個人數據所有權規則的條例,它在法律上明確規定了個人數據是歸個人所有的數據資產。
?
同樣的,近兩年來,中國對于個人隱私保護和數據安全方面在立法和執法力度上都在持續加大。這些法律法規將保障人們對個人數據有更多的掌控權。
?
?
02
?
行業對于解決痛點方面的探索
?
?行業痛點
?
數據的融合可提高其價值,數據的交叉使用會產生協同作用。
?
但因為數據本身的可復制性和易傳播性,若一經分享無法追蹤使用情況,數據資產的分享與協同開發受到嚴重制約。此外,我們的數據需要得到保護和隔離,然而數據對人類社會的價值在于聯合在一起的計算和分析,這就構成了一對矛盾關系。
?
雖然個人對隱私的保護、商業公司對數據的保護,都是正當的利益訴求,但卻產生了一個個數據孤島——擁有數據源的中小企業無法安全地將數據共享或變現。而包括大數據公司、開發者和科學家在內的數據使用者僅能接觸到有限且費用高昂的數據集。與運營商等大數據源的合作需要開發人員在現場將模型部署于數據源的服務器上,模型算法存在泄露風險,且效率低下。
?
受保護的數據如何產生價值??這是目前大數據產業發展的最大痛點。可以毫不夸張地說,如果這個矛盾和問題得不到解決,大數據產業的發展將受到極大制約。
?
為了解決被保護的數據如何產生價值這個問題,并且能夠在此基礎上,充分發揮大家的積極性,創造更大的協同價值,業內同仁在安全計算、價值網絡和區塊鏈的結合等多個方面進行了探索。有機會我們再針對價值網絡、區塊鏈等方面單獨成文介紹。
?
?
?模式探討
?
任何解決方案,必定都是針對某個問題,找到收益較大化、弊端較小化的最優解,而不可能十全十美。一切追求完美的方案必定是和現實相沖突的。就數據資產的處理而言,我們主要需要考慮三個因素:便利性、安全狀況和成本。所以對于不同模式的討論,也可以簡化為對于這三個因素的平衡。
?
1)模式一:中立國模式
這種模式主要適用于其中一方數據相對豐富的情況,譬如有政府、互聯網公司等參與的情況。在這里我們可以稱這些擁有豐富數據的一方為主體數據提供方。主體方擁有大量的、覆蓋面廣且基礎屬性全的數據;數量眾多的需求方擁有自己的小價值數據,同時對于這些數據有擴量、統計層面的強烈需求。由于主體數據提供方的數據量非常龐大,不易輕易搬動,這些數據一般相對固定,并作為數據主板。而眾多數據使用需求方因為數據體量小、數據傳輸方便,可以比較便利和更低成本地為數據需求方提供服務。
?
這樣的服務可以通過一個具有公信力的獨立第三方來搭建中立國環境,包括數據存儲、大數據計算以及安全環境,并通過沙箱、數據安全技術、審計手段等確保數據使用過程中的合法合規及安全隱私保護。目前也已經有不少公司提供這樣的服務,如浙江省數據安全服務有限公司等。
?
2)模式二:領事館模式
這種模式是中立國模式的變種。該模式系統不是由獨立第三方進行搭建,而是由數據主體方提供,然后劃出一塊區域,讓數據需求方獨立搭建自己的計算環境。
?
主體方數據通過某種方式能夠讓數據需求方接觸到并參與計算,但是因為“領事館”還是在數據主體方的整體環境中,所以數據的流進流出會受到主體方的監管, 特別是需要流出的數據,須滿足數據主體方的審計標準,保證數據合法合規并受到隱私保護。
?
這種模式主要從主體方數據安全考慮,但沒有中立國模式便利,成本也相對較高。目前,一些互聯網大數據公司已經采用領事館模式。
?
?
3)?模式三:安全多方計算和聯邦計算模式
該模式主要適用于這種情況:在數據擁有方因為政策、數據價值高無法出庫等要求下,數據無法進行直接流動,同時又對于外部數據有非常強烈的使用需求。
?
該模式考慮更多的是數據安全問題,對于技術方面的要求也更強、更具有挑戰性,但對于便利和成本方面的考慮就不是那么突出了。當然這種模式也可以與前兩種模式結合使用,但成本也會更高。
?
目前已經有不少創業型的公司在提供相關的產品和平臺,部分大數據科技公司也會自主研發。
?
?
?
02
?
安全計算技術研究
?
??安全多方計算
?
安全多方計算(MPC:Secure Muti-Party Computation)研究由圖靈獎獲得者、中國科學院院士姚期智教授在1982年提出。姚教授以典型的百萬富翁問題來解釋安全多方計算。
?
百萬富翁問題指的是,在沒有可信第三方的前提下,兩個百萬富翁如何不泄露自己的真實財產狀況來比較誰更有錢。通過對這個問題的研究,姚教授形象地說明了安全多方計算面臨的挑戰和解決問題的思路。經Oded Goldreich、Shaft Goldwasser等學者的眾多原始創新工作,安全多方計算逐漸發展成為密碼學的一個重要分支。
?
具體而言,MPC 指的是用戶在無須進行數據歸集的情況下,完成數據協同計算,同時保護數據所有方的原始數據隱私,而參與各方在將數據保留至各自本地的情況下,執行共同的既定計算邏輯(算法),得到計算結果。數學形式化語言描述為:有n個計算參與方,分別持有私有數據x1, x2, …, xn,共同計算既定函數f(x1, …, xn),得到正確的計算結果。計算完成后,參與各方除了自己輸入的數據和輸出的結果外,無法獲知任何的額外信息。
?
MPC 協議滿足的基本特性是:
●?輸入隱私性:協議執行過程中的中間數據不會泄露雙方原始數據的相關信息;
●? 健壯性:協議執行過程中,參與方不會輸出錯誤的結果。
?
這兩點保證了數據流通過程中所需滿足的基本要求。接下去我們針對 MPC 做一個簡要描述,不對細節進行過多展開。
?
根據計算參與方數量的不同,MPC可分為只有兩個參與方的2PC和多個參與方(≥3)的通用MPC。
?
安全兩方計算所使用的協議為混淆電路(Garbled Circuit - GC)+不經意傳輸(Oblivious Transfer - OT);而安全多方計算所使用的協議為同態加密(HE) + 秘密分享(Secret Share - SS) + OT。
?
混淆電路-GC
?
我們知道,任意函數在計算機語言內部最后都是由加法器、乘法器、移位器、選擇器等電路表示,而這些電路最終都可以僅由AND和XOR兩種邏輯門組成。一個門電路其實就是一個真值表,比如AND門的真值表就是:
例如其中輸入表示兩根輸入線,那么當兩個輸入(wire)都取1時,輸出wire=1:即 1 AND 1 = 1。如果只是把函數變成這樣的輸入是 0/1的電路,數據是沒有辦法起到保護作用的,因此需要對輸入的這些0/1進行加密。
?
假設我們把每個wire都使用不同的密鑰進行加密,并把真值表更改為:
以上圖右下角作為例子,我們選取隨機標簽b和d (安全參數為k的比特串)代替簡單的比特1,輸出為加密的f,加密密鑰是b和d。這個門從控制流的角度來看還是一樣的,只不過輸入和輸出被加密了,且輸出必須使用對應的輸入才能解密,解密出的f又可以作為后續門的輸入。這種加密方式就稱為“混淆電路”。【4】
?
通過對電路中所有的門按順序進行加密,我們得到了一個用GC表示的函數。這個函數接收加密輸入并輸出加密結果。
?
現在我們假設有兩個參與方,Alice(簡稱A)和Bob(簡稱B) 。他們分別提供數據a、b,并希望安全計算約定的函數為F(a,b),那么一種基于GC的安全兩方計算協議過程可以非正式地描述如下:
?
1) A把F進行加密,得到GC表示的函數GC-f; (注意這里A是電路的生成者,因此他了解每根wire的密鑰);
2) A把自己輸入的a用第1步中對應的wire密鑰加密,得到Encrypt(a);
3) A將Encrypt(a)、GC-f一并發送給B;
4) A將B輸入的b使用第1步中對應的wire密鑰加密,得到Encrypt(b),并將Encrypt(b)發送給B;
5) B擁有完整的GC和輸入,因此可以運行電路得到加密的輸出;
6) A把輸出wire的密鑰發給B,B解密后得到最終結果F(a,b);
7) ?如果A需要,B再把F(a,b)發給A。
?
以上步驟存在一個BUG:第4步中,A怎么可以接觸B輸入的b呢?這顯然違背了安全多方計算的原則。這里就需要使用下面介紹的不經意傳輸(OT)協議。
?
?
1)?不經意傳輸-OT
?
Alice扮演傳輸中的發送者(Sender),Bob扮演傳輸中的接收者(Receiver),目的是讓B從A處得到Encrypt( b),A無法知道b的內容。
如上圖所示,Alice 知道每個 Wire 的加密編碼 X0, X1。Bob需要根據自己的比特來獲知對應的編碼,如果是0就獲得 X0, 如果是1就獲得 X1, 同時不讓 Alice 知道這個 b 的具體內容。整個過程沒有第三方參與。
?
具體過程可以非正式地描述如下:
?
?
同態加密-HE
?
我們先來看下圖。
不難發現,左邊的代數系統和右邊的雖然操作符號不同,但規則是相同的。這就是所謂的兩個系統是同態的。我們只要找到一個函數 f, 能夠把左邊的數據集 {1,2} 映射到 {a,b}, 那么左邊的運算就可以轉換為右邊的運算。得到運算結果后,我們就可以通過逆變換轉換回左邊的值。
?
比較正式的描述是:
1)?如果我們有一個加密函數 f , 把明文A變成密文A’, 把明文B變成密文B’,也就是說f(A) = A’ ,f(B) = B’ 。另外我們還有一個解密函數??,能夠將 f 加密后的密文解密成加密前的明文。
2)?對于一般的加密函數,如果我們將A’和B’相加,得到C’。我們對C’進行解密得到的結果一般是毫無意義的亂碼。
3)?但是,如果 f 是個可以進行同態加密的加密函數, 我們對C’進行解密得到結果C, 這時候的C = A + B。
這樣,數據處理權與數據所有權可以分離,企業在防止自身數據泄露的同時,還可以利用云服務的算力。
?
同態加密的類型:
a) 如果滿足?f(A)+f(B)=f(A+B), 我們將這種加密函數叫做加法同態?
b) 如果滿足?f(A)×f(B)=f(A×B), 我們將這種加密函數叫做乘法同態
?
如果一個加密函數f只滿足加法同態,就只能進行加減法運算;
如果一個加密函數f只滿足乘法同態,就只能進行乘除法運算;
如果一個加密函數同時滿足加法同態和乘法同態,則稱為全同態加密。那么使用這個加密函數可以完成加密后的各種運算(加減乘除、多項式求值、指數、對數、三角函數)。
?
加法和乘法同態加密的難題目前都已解決,但要想實現全同態加密就比較困難了。不過好消息是:2009年,Gentry,一個斯坦福大學的博士生,基于理想格提出了一個全同態加密方案。
?
秘密分享-SS
?
為了說明什么是秘密分享,我們先看下圖:
如上圖所示,假設我們的目標是聯合計算各方所有秘密數據的總和,這可以通過秘密共享來實現。
?
首先,每一方將其秘密號碼隨機分成三部分,并將其中兩部分別分享給其他部分。
?
然后,每一方在本地對來自其他對等方及其自身的所有分享秘密進行匯總加和處理。為了公開最終結果,每個方的本地總和(local sum)都會公開給同行(Peers)。
?
最后,任何一方都可以將所有公共本地總和相加來得知最終結果。
?
秘密共享的關鍵點在于,通過了解秘密共享,一方不會獲知有關私有數據的信息。例如,在通過揭示秘密共享5的三方計算中,秘密數據可以是10、79、-11這樣的隨機數字。即使知道秘密共享,該方也可以猜測私人數據,而不是猜測隨機數。??
?
由于整個過程沒有顯示隱私數據,因此秘密共享計算可以保護隱私,對手方無法發現秘密信息。
?
以上是一個簡單的例子。在秘密分享領域,也涌現出許多種方案,最著名的是圖靈獎得主 Adi Shamir 的《How to Share a Secret》,里面有非常漂亮的算法。
?
?Private Set? Intersect - PSI 隱私保護集合交集
?
隱私保護集合交集協議允許持有各自集合的兩方共同計算兩個集合的交集運算。在協議交互的最后,一方或是兩方應該得到正確的交集,而且不會得到交集以外另一方集合中的任何信息。保護集合的隱私性在很多場景下是自然甚至是必要的需求,比如當集合是某用戶的通訊錄或是某基因診斷服務用戶的基因組,這樣的輸入就一定要通過密碼學的手段進行保護。
?
如果數據量相對較小,我們可以采用多重加密或salt來實現交集計算。對于數據量大的情況,則需要多種技術進行融合,譬如采用基于安全布隆過濾器的技術等。
?
1)?Private Information Retrieve - PIR (隱私信息獲取)
?
隱私信息獲取是一種從數據庫/數據源中查詢所需信息,同時又不讓數據源擁有者獲得查詢條件的一種方法。例如,當銀行客戶需要通過用戶的身份證信息從某個外部數據源處查詢用戶的其他相關信息(譬如消費情況),同時又不希望透露用戶的身份證信息,就需要用到PIR技術。
?
最樸素的方式是數據擁有方把全部或者一段范圍用戶的信息發送給請求方,然后請求方在自己的系統內做匹配查詢,這種稱為“瑣碎下載” *(Trivial Download)。當然,數據擁有方肯定也希望被下載的數據范圍越小越好,畢竟數據轉移后價值也被轉移了。
?
從類型上可分為計算型隱私信息獲取(Computational PIR) 和信息理論型信息獲取,前者主要通過算法的復雜性節省服務器的成本(一般可以采用單服務器),而后者則通過多臺服務器將請求條件分散到每臺服務器上,然后再將這些信息拼起來,使每臺服務器都只能得到不完整的查詢條件,同時也無法簡單復原。【5】
?
?
聯邦學習
?
聯邦學習是一種數據保護下基于機器學習的建模和推導技術,最終在保護各自數據的基礎上實現數據的聯合價值挖掘。舉例來說,假設有兩個不同的企業A和B,它們擁有不同的數據,比如企業A有用戶特征數據,企業B有產品特征數據和標注數據。
?
根據GDPR準則,這兩家企業是不能“粗暴”地把雙方數據加以合并的,因為他們各自的用戶并沒有同意這樣做。假設雙方各自建立一個任務模型,對每個任務進行分類或預測,這些任務也已經在數據獲取階段取得了各自用戶的認可。
?
那么,現在的問題是如何在A和B各端建立高質量的模型。但是,由于數據不完整(例如企業A缺少標簽數據,企業B缺少特征數據),或者數據不充分(數據量不足以建立好的模型),各端都有可能無法建立模型或效果不理想。
?
聯邦學習的目的是解決這個問題:它希望做到各個企業的自有數據不出本地,聯邦系統可以通過加密機制下的參數交換方式,在不違反數據隱私保護法規的情況下,建立一個虛擬的共有模型。
?
這個虛擬模型就像我們通過聚合數據構建的最優模型一樣。但在建立虛擬模型時,數據本身不會移動,也不會泄露用戶隱私或影響數據的規范化。這樣,建好的模型僅為各自區域的本地目標服務。在這樣的聯邦機制下,各個參與方都有相同的身份和地位,而聯邦系統幫助大家建立了“共同富裕”的戰略。【6】
?
?
總結
在數字化時代、大數據時代、智能時代,被保護的數據如何產生價值?這是目前大數據產業發展中最大的痛點。如果這個問題得不到解決,將極大地限制大數據產業的發展。
?
欣喜的是,業界正在積極探索解決這一矛盾,并取得了一定成績:在融合多方安全計算、區塊鏈等多種技術上,形成多層鏈/網絡、計算網絡和存證鏈、智能合約平臺以及通證化。在大家的共同努力下,我們有信心在這個方向上取得突破,讓產業能夠持續健康發展。
?
?
?
參考文獻:
[1] 國際電信聯盟(ITU)制定的5G 標準
[2] 中信出版集團 ISBN978-7-5086-6685-3 《區塊鏈革命》 第二章
[3] 浙江人民出版社 ISBN978-7-213-05254-5 《大數據時代》
[4] 阿里首次實現“公開可驗證” 的安全方案 https://yq.aliyun.com/articles/693332
[5] Casey Devet, Ian Goldberg, Nadia Heninger. ?Optimally Robust Private Information Retrieval
[6] 楊強,劉洋,陳天健,童詠昕.? 聯邦學習,計算機學會通訊第14卷第11期
?
?
?
總結
以上是生活随笔為你收集整理的【个推CTO谈数据智能】之数据安全计算体系的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: hadoop3.x伪分布式搭建,在启动H
- 下一篇: 有效发布促成高效软文营销 | 媒介启航