一文重新认识联邦学习
重要申明:本文轉載自https://user.guancha.cn/main/content?id=674888。
人工智能助力抗疫又添新場景。據報道,英國劍橋愛登布魯克醫院(Addenbrooke’s Hospital)與全球20家醫院和醫療科技中心聯合醫療科技領軍企業英偉達采用人工智能預測新冠肺炎患者從抵院急救起24小時內的氧氣需求量。
該研究的一大亮點在于采用了聯邦學習技術分析了全球約10,000名新冠患者的數據,成為迄今為止規模最大,范圍最廣的聯邦學習臨床研究之一。參與研究的多位專家表示,聯邦學習不僅在醫療領域設立了全新標準,更可以讓各行各業在不犧牲隱私的前提下打造強大的人工智能模型。
作為隱私計算技術的主要路徑之一,聯邦學習近年來受到廣泛關注并被寄予厚望。業界常以“數據不動模型動”來概括聯邦學習的基本原理。也就是說,參與聯邦學習的各方基于本地數據訓練形成本地模型,不同的本地模型再經過參數傳遞,最終聚合形成全局模型。
從其名稱也可以看出,“聯邦”代表各數據擁有方以分布式架構開展合作,“學習”則代表機器學習、深度學習人工智能算法模型。其中的關鍵點就在于,聯邦學習實現了讓“模型找數據”,而非“數據找模型”,數據始終只留在本地,也就大大降低了數據泄露風險。
盡管聯邦學習的知名度不斷提升,落地應用逐步推廣,但整體發展仍處早期,在不少方面尚未形成共識,甚至存在一些誤區,亟待業界“正本清源“。
誤區一:金融領域的聯邦學習更Cool,需求更高,難度更大?
隱私計算形成了讓數據“可用不可見”的解決方案。從甲子光年《2021隱私計算行業研究報告》的示意圖可以看到,聯邦學習處于整個隱私計算技術體系的“核心位”。
來源:甲子光年《2021隱私計算行業研究報告》
近年來伴隨技術成熟及數據安全相關合規要求趨嚴,聯邦學習不僅從理論走向實踐,還受到資本熱捧,商業落地正在迎來爆發。據《2021隱私機密計算藍皮書》,醫療、金融、政務是隱私計算的三大應用場景。
在眾多落地領域中,金融業可謂首屈一指。聯邦學習在智能風控、反洗錢等方面優勢明顯。金融領域合規要求嚴,數字化、智能化及數據結構化程度高,都為聯邦學習的落地創造了先天優勢條件。
不過需要指出的是,雖然聯邦學習在金融領域成果顯著,但實際上聯邦學習卻原生于醫療領域。相對來說,醫療領域的復雜度和門檻則更高。而對于聯邦學習技術服務企業來說,選擇醫療這條路,也就意味著更加硬核的技術自信、投入度和專注力。
“我們50%的研究精力以及商業業務都在隱私計算與醫療的結合上,政務、金融等為醫療領域之外較為注重的領域”,锘崴科技創始人、董事長王爽教授坦言。據他介紹,隱私計算在醫療領域的應用其實相當復雜。
一是數據類型的復雜度,包括結構化、非結構化、基因組學、影像學數據等數據類型醫療大數據的分析經常需要利用多模態數據的聯合分析,得出完整的患者畫像,輔助醫療診斷和治療。
二是方法論,除了金融領域常用的回歸模型、樹模型等,醫療領域由于其數據類型的多模態性、疾病的多樣性、應用場景的高復雜性,醫療領域需要更復雜和多樣化的方法論的支持。
三是模型精準度,醫療領域對模型的精準度要求更高,金融通常側重于模型的預測結果的精度,醫療則是模型參數和預測結果的精度并重,模型中涉及的參數(如預測有無糖尿病模型中,不同標簽如血壓、肥胖、是否過度飲酒等因素所對應的模型參數的權重)均可指導臨床治療,影響臨床治療路徑。
四是建模的安全性,由于建模過程設計多個合作方,如何避免參與方的惡意行為(例如,計算過程摻假等)可能對于疾病診療結果造成的影響也是一個關鍵的問題。這需要聯邦學習系統提供額外的應對惡意行為的能力。
誤區二:訓練模型,數據多就是好?
追根溯源,醫療場景的復雜性和高要求還是源于其數據的復雜性。盡管人們一般認為人工智能模型基于大數據“喂養”,訓練數據越多,模型預測越準。但現實中,最好的算法卻往往來源于優質精煉的數據集,也就是要“保量”更要“保質”,而非一味求多。
這樣的數據集顯然十分稀缺。伴隨各行業數據安全意識的增強以及各國法律法規的完善,傳統的中心化數據共享模式已經難以走通。更難的是,醫療機構視數據為核心資產,醫療數據敏感性高,安全隱私合規要求嚴格,更不用提跨境數據流動這一全球性難題了。
聯邦學習之所以能夠解決數據隱私和治理的挑戰,就在于其實現了把分散的“小數據”提供給機器學習模型。在聯邦學習框架下,無論是訓練階段還是驗證階段,數據擁有方都不僅能規定自己的數據管治流程及其相關隱私政策,還能控制甚至取消數據訪問權限。
聯邦學習“數據不動模型動”的優勢就在于,龐雜的醫療數據無需再以中心化方式從各本地機構復制到中心“數據湖”,再由每個使用者復制到各自本地用于模型訓練。由于是模型在各機構間移動,模型自身就能“汲取”越來越多的數據集而變得更大更強,更無需考慮數據存儲的相關要求和成本。
基于這樣的先天優勢,聯邦學習可以為醫療領域帶來大規模、跨機構的數據共享。借助聯邦學習,使得在數據合規可控的前提下獲得豐富的數據多樣性成為可能,如跨地域、跨人種的病例數據。另一個典型例子就是罕見病的創新研究,因為罕見病的發生概率很低,單個醫療機構的相關數據量也就很少。
由于聯邦學習實現了數據無需集中匯集就可以進行聯合分析,同時結合專業的醫療領域的模型開發能力,以及可擴展的底層隱私計算和聯邦學習框架,其應用范圍就可以擴展至整個醫療領域的人工智能模型開發。2020年,王爽教授帶領锘崴科技團隊完成了全國首例利用聯邦學習在帶有隱私保護的情況下進行的全國性多中心強直性脊柱炎(AS) 全基因組關聯分析(GWAS)。該分析研究通過隱私保護計算實現了在不分享明文原始數據(個體基因數據)的情況下的聯合分析,其成果發表在生物信息學頂級期刊Briefing in Bioinformatics上。
總結來說,聯邦學習對數據集的需求是貴精不貴多,根據場景所需精準聚合小數據,再串聯成大數據,才能訓練出更精準的模型。
誤區三:聯邦學習理論各有說法,一定有高下之分?
目前我國聯邦學習領域已經誕生了一批代表性企業,其中不僅包括騰訊、阿里這樣的巨頭,也有一眾實力不俗的創業企業,還涌現出不少技術大牛。除王爽教授外,微眾銀行首席人工智能官楊強、同盾科技人工智能研究院院長李曉林等也都是業內公認的聯邦學習“三劍客”。
目前隱私計算企業多采用以一個技術為主,其余技術為輔助的研究方式,從上述各企業負責人或首席科學家的研究方向看也是如此。在商業應用中,隱私計算企業隨著技術結合商業落地的實踐,隱私計算技術也在不斷更新迭代。
事實上,聯邦學習領域無論技術還是市場都尚處發展早期,面對不同技術路徑與其糾結孰優孰劣,不如坦然接受百家爭鳴。比如,楊強教授的遷移學習、王爽教授的安全聯邦學習,李曉林教授的知識聯邦,三者解決的問題和場景不同,也各有優勢。
以遷移學習為例,其經典的“羊吃草”模型深入人心,雖然靈活可控,但前提是需要足夠大的草原(即龐大的數據量),大草原能更好的養出通用肥美的羊(即模型),比如產奶的羊產更好更多的奶,或者用于肉食的羊,肉質更加肥美等,再遷移到相關場景微調使用,比如基于互聯網數據學的自然語言處理模型,應用到醫學某個疾病領域,需要再通過醫學的專業數據進行模型調優。
圖:羊吃草模型(來源:互聯網)
這個過程中,一方面數據規模可能不夠,預訓練“肥美的羊”時,通常需要的數據和算力會比模型微調時多,有些場景下,并沒有“足夠的大數據”條件來支撐訓練;另一方面算法和數據的安全還可能面臨挑戰,“羊吃草”的過程可能也會出現不可預料的安全意外,比如羊預期吃的是有機草,沒有農藥,但是被提供的草是假有機草,里面有很多農藥化肥;又或者食料員給喂的食料有偷工減料等。甚至羊本身也會被擄走、被調包,產奶的羊被變成肉食的羊或者產羊毛的羊換成產奶的羊,羊和草的安全都無法保證。
總的來說,聯邦學習并非無懈可擊。從過程來說,盡管數據不出本地,但聯邦學習的分布式架構決定了其必然需要節點間的通信。本地模型形成全局模型的過程需要傳遞參數,遇到“有心人”就有可能在通信過程中獲取這些參數并反推出原始數據,甚至釋放出假參數來破壞訓練模型。
從結果來看,聯邦學習的最終目的是要獲得人工智能模型,在聯邦學習的合作中,技術無法辨別參與方是否懷有惡意,如果有參與方借機作惡,讓聯邦學習訓練出錯誤的模型,便會導致訓練失敗,那么即便原始數據安然無恙,整個聯邦學習仍將毫無意義。
為了從底層切中要害,安全聯邦學習以數據不動模型動的多數據源合作方式與數據全流程加密相結合確保“程序正義+結果正義”雙重實現,這個計算過程可類比為有機水果(organic fruits)的種植過程。通過安全聯邦學習可以確保在不涉及技術數據泄漏的前提下,將種植有機水果的過程中如育種的機理數據、有機肥的生產配方、培育澆灌的技術、運輸中的數據進行綜合利用,培育出更優質的有機水果。同時可以驗證培育過程是有機的,符合有機食品生產的全流程標準,防止在送到消費者手中的過程被掉包。。最終消費者可以一目了然的得知手中有機果實的生產全過程,安心使用。
放之于上面提到的羊吃草模型,安全聯邦學習的出現可以很好的補足兩點:一是為羊吃草,搭建一個巨大的保護罩,讓羊沿著既定的路徑不受外界干擾的去吃草,定點定量的為客戶提供羊奶、羊毛和羊肉,避免出現被盜和濫用的情況。二是跨聯打通各領域的“小草原”,既劃定好各小草原的安全邊界,又能讓數據交叉互通。
各個聯邦學習理論無論外延有多豐富,本質目標和攻堅點都是在于,做好模型拆分,適配不同的業務需求,訓練構建出不同類型的精準模型,實現精準預測,需要兼顧建模參數的精準度、數據隱私保護性能、安全性、實時性等多重要求,安全聯邦學習可以說是這一理念的最佳實踐,其強化的安全性為數據和模型提供了安全保障,同時強調準確性,給模型匹配正確相關的數據,而非盲目“投喂”。
總結
以上是生活随笔為你收集整理的一文重新认识联邦学习的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 智能手机下,如何拯救你,我的孩子
- 下一篇: 北大学霸:高考有漏洞可钻,学会套路,立马