當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

一文重新认识联邦学习

發(fā)布時間：2024/8/23 编程问答 39 豆豆

生活随笔收集整理的這篇文章主要介紹了一文重新认识联邦学习小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

重要申明：本文轉(zhuǎn)載自https://user.guancha.cn/main/content?id=674888。

人工智能助力抗疫又添新場景。據(jù)報道，英國劍橋愛登布魯克醫(yī)院（Addenbrooke’s Hospital）與全球20家醫(yī)院和醫(yī)療科技中心聯(lián)合醫(yī)療科技領(lǐng)軍企業(yè)英偉達采用人工智能預(yù)測新冠肺炎患者從抵院急救起24小時內(nèi)的氧氣需求量。

該研究的一大亮點在于采用了聯(lián)邦學(xué)習(xí)技術(shù)分析了全球約10,000名新冠患者的數(shù)據(jù)，成為迄今為止規(guī)模最大，范圍最廣的聯(lián)邦學(xué)習(xí)臨床研究之一。參與研究的多位專家表示，聯(lián)邦學(xué)習(xí)不僅在醫(yī)療領(lǐng)域設(shè)立了全新標準，更可以讓各行各業(yè)在不犧牲隱私的前提下打造強大的人工智能模型。

作為隱私計算技術(shù)的主要路徑之一，聯(lián)邦學(xué)習(xí)近年來受到廣泛關(guān)注并被寄予厚望。業(yè)界常以“數(shù)據(jù)不動模型動”來概括聯(lián)邦學(xué)習(xí)的基本原理。也就是說，參與聯(lián)邦學(xué)習(xí)的各方基于本地數(shù)據(jù)訓(xùn)練形成本地模型，不同的本地模型再經(jīng)過參數(shù)傳遞，最終聚合形成全局模型。

從其名稱也可以看出，“聯(lián)邦”代表各數(shù)據(jù)擁有方以分布式架構(gòu)開展合作，“學(xué)習(xí)”則代表機器學(xué)習(xí)、深度學(xué)習(xí)人工智能算法模型。其中的關(guān)鍵點就在于，聯(lián)邦學(xué)習(xí)實現(xiàn)了讓“模型找數(shù)據(jù)”，而非“數(shù)據(jù)找模型”，數(shù)據(jù)始終只留在本地，也就大大降低了數(shù)據(jù)泄露風險。

盡管聯(lián)邦學(xué)習(xí)的知名度不斷提升，落地應(yīng)用逐步推廣，但整體發(fā)展仍處早期，在不少方面尚未形成共識，甚至存在一些誤區(qū)，亟待業(yè)界“正本清源“。

誤區(qū)一：金融領(lǐng)域的聯(lián)邦學(xué)習(xí)更Cool，需求更高，難度更大？

隱私計算形成了讓數(shù)據(jù)“可用不可見”的解決方案。從甲子光年《2021隱私計算行業(yè)研究報告》的示意圖可以看到，聯(lián)邦學(xué)習(xí)處于整個隱私計算技術(shù)體系的“核心位”。

來源：甲子光年《2021隱私計算行業(yè)研究報告》

近年來伴隨技術(shù)成熟及數(shù)據(jù)安全相關(guān)合規(guī)要求趨嚴，聯(lián)邦學(xué)習(xí)不僅從理論走向?qū)嵺`，還受到資本熱捧，商業(yè)落地正在迎來爆發(fā)。據(jù)《2021隱私機密計算藍皮書》，醫(yī)療、金融、政務(wù)是隱私計算的三大應(yīng)用場景。

在眾多落地領(lǐng)域中，金融業(yè)可謂首屈一指。聯(lián)邦學(xué)習(xí)在智能風控、反洗錢等方面優(yōu)勢明顯。金融領(lǐng)域合規(guī)要求嚴，數(shù)字化、智能化及數(shù)據(jù)結(jié)構(gòu)化程度高，都為聯(lián)邦學(xué)習(xí)的落地創(chuàng)造了先天優(yōu)勢條件。

不過需要指出的是，雖然聯(lián)邦學(xué)習(xí)在金融領(lǐng)域成果顯著，但實際上聯(lián)邦學(xué)習(xí)卻原生于醫(yī)療領(lǐng)域。相對來說，醫(yī)療領(lǐng)域的復(fù)雜度和門檻則更高。而對于聯(lián)邦學(xué)習(xí)技術(shù)服務(wù)企業(yè)來說，選擇醫(yī)療這條路，也就意味著更加硬核的技術(shù)自信、投入度和專注力。

“我們50%的研究精力以及商業(yè)業(yè)務(wù)都在隱私計算與醫(yī)療的結(jié)合上，政務(wù)、金融等為醫(yī)療領(lǐng)域之外較為注重的領(lǐng)域”，锘崴科技創(chuàng)始人、董事長王爽教授坦言。據(jù)他介紹，隱私計算在醫(yī)療領(lǐng)域的應(yīng)用其實相當復(fù)雜。

一是數(shù)據(jù)類型的復(fù)雜度，包括結(jié)構(gòu)化、非結(jié)構(gòu)化、基因組學(xué)、影像學(xué)數(shù)據(jù)等數(shù)據(jù)類型醫(yī)療大數(shù)據(jù)的分析經(jīng)常需要利用多模態(tài)數(shù)據(jù)的聯(lián)合分析，得出完整的患者畫像，輔助醫(yī)療診斷和治療。

二是方法論，除了金融領(lǐng)域常用的回歸模型、樹模型等，醫(yī)療領(lǐng)域由于其數(shù)據(jù)類型的多模態(tài)性、疾病的多樣性、應(yīng)用場景的高復(fù)雜性，醫(yī)療領(lǐng)域需要更復(fù)雜和多樣化的方法論的支持。

三是模型精準度，醫(yī)療領(lǐng)域?qū)δＰ偷木珳识纫蟾?#xff0c;金融通常側(cè)重于模型的預(yù)測結(jié)果的精度，醫(yī)療則是模型參數(shù)和預(yù)測結(jié)果的精度并重，模型中涉及的參數(shù)（如預(yù)測有無糖尿病模型中，不同標簽如血壓、肥胖、是否過度飲酒等因素所對應(yīng)的模型參數(shù)的權(quán)重）均可指導(dǎo)臨床治療，影響臨床治療路徑。

四是建模的安全性，由于建模過程設(shè)計多個合作方，如何避免參與方的惡意行為（例如，計算過程摻假等）可能對于疾病診療結(jié)果造成的影響也是一個關(guān)鍵的問題。這需要聯(lián)邦學(xué)習(xí)系統(tǒng)提供額外的應(yīng)對惡意行為的能力。

誤區(qū)二：訓(xùn)練模型，數(shù)據(jù)多就是好？

追根溯源，醫(yī)療場景的復(fù)雜性和高要求還是源于其數(shù)據(jù)的復(fù)雜性。盡管人們一般認為人工智能模型基于大數(shù)據(jù)“喂養(yǎng)”，訓(xùn)練數(shù)據(jù)越多，模型預(yù)測越準。但現(xiàn)實中，最好的算法卻往往來源于優(yōu)質(zhì)精煉的數(shù)據(jù)集，也就是要“保量”更要“保質(zhì)”，而非一味求多。

這樣的數(shù)據(jù)集顯然十分稀缺。伴隨各行業(yè)數(shù)據(jù)安全意識的增強以及各國法律法規(guī)的完善，傳統(tǒng)的中心化數(shù)據(jù)共享模式已經(jīng)難以走通。更難的是，醫(yī)療機構(gòu)視數(shù)據(jù)為核心資產(chǎn)，醫(yī)療數(shù)據(jù)敏感性高，安全隱私合規(guī)要求嚴格，更不用提跨境數(shù)據(jù)流動這一全球性難題了。

聯(lián)邦學(xué)習(xí)之所以能夠解決數(shù)據(jù)隱私和治理的挑戰(zhàn)，就在于其實現(xiàn)了把分散的“小數(shù)據(jù)”提供給機器學(xué)習(xí)模型。在聯(lián)邦學(xué)習(xí)框架下，無論是訓(xùn)練階段還是驗證階段，數(shù)據(jù)擁有方都不僅能規(guī)定自己的數(shù)據(jù)管治流程及其相關(guān)隱私政策，還能控制甚至取消數(shù)據(jù)訪問權(quán)限。

聯(lián)邦學(xué)習(xí)“數(shù)據(jù)不動模型動”的優(yōu)勢就在于，龐雜的醫(yī)療數(shù)據(jù)無需再以中心化方式從各本地機構(gòu)復(fù)制到中心“數(shù)據(jù)湖”，再由每個使用者復(fù)制到各自本地用于模型訓(xùn)練。由于是模型在各機構(gòu)間移動，模型自身就能“汲取”越來越多的數(shù)據(jù)集而變得更大更強，更無需考慮數(shù)據(jù)存儲的相關(guān)要求和成本。

基于這樣的先天優(yōu)勢，聯(lián)邦學(xué)習(xí)可以為醫(yī)療領(lǐng)域帶來大規(guī)模、跨機構(gòu)的數(shù)據(jù)共享。借助聯(lián)邦學(xué)習(xí)，使得在數(shù)據(jù)合規(guī)可控的前提下獲得豐富的數(shù)據(jù)多樣性成為可能，如跨地域、跨人種的病例數(shù)據(jù)。另一個典型例子就是罕見病的創(chuàng)新研究，因為罕見病的發(fā)生概率很低，單個醫(yī)療機構(gòu)的相關(guān)數(shù)據(jù)量也就很少。

由于聯(lián)邦學(xué)習(xí)實現(xiàn)了數(shù)據(jù)無需集中匯集就可以進行聯(lián)合分析，同時結(jié)合專業(yè)的醫(yī)療領(lǐng)域的模型開發(fā)能力，以及可擴展的底層隱私計算和聯(lián)邦學(xué)習(xí)框架，其應(yīng)用范圍就可以擴展至整個醫(yī)療領(lǐng)域的人工智能模型開發(fā)。2020年，王爽教授帶領(lǐng)锘崴科技團隊完成了全國首例利用聯(lián)邦學(xué)習(xí)在帶有隱私保護的情況下進行的全國性多中心強直性脊柱炎(AS) 全基因組關(guān)聯(lián)分析(GWAS)。該分析研究通過隱私保護計算實現(xiàn)了在不分享明文原始數(shù)據(jù)（個體基因數(shù)據(jù)）的情況下的聯(lián)合分析，其成果發(fā)表在生物信息學(xué)頂級期刊Briefing in Bioinformatics上。

總結(jié)來說，聯(lián)邦學(xué)習(xí)對數(shù)據(jù)集的需求是貴精不貴多，根據(jù)場景所需精準聚合小數(shù)據(jù)，再串聯(lián)成大數(shù)據(jù)，才能訓(xùn)練出更精準的模型。

誤區(qū)三：聯(lián)邦學(xué)習(xí)理論各有說法，一定有高下之分？

目前我國聯(lián)邦學(xué)習(xí)領(lǐng)域已經(jīng)誕生了一批代表性企業(yè)，其中不僅包括騰訊、阿里這樣的巨頭，也有一眾實力不俗的創(chuàng)業(yè)企業(yè)，還涌現(xiàn)出不少技術(shù)大牛。除王爽教授外，微眾銀行首席人工智能官楊強、同盾科技人工智能研究院院長李曉林等也都是業(yè)內(nèi)公認的聯(lián)邦學(xué)習(xí)“三劍客”。

目前隱私計算企業(yè)多采用以一個技術(shù)為主，其余技術(shù)為輔助的研究方式，從上述各企業(yè)負責人或首席科學(xué)家的研究方向看也是如此。在商業(yè)應(yīng)用中，隱私計算企業(yè)隨著技術(shù)結(jié)合商業(yè)落地的實踐，隱私計算技術(shù)也在不斷更新迭代。

事實上，聯(lián)邦學(xué)習(xí)領(lǐng)域無論技術(shù)還是市場都尚處發(fā)展早期，面對不同技術(shù)路徑與其糾結(jié)孰優(yōu)孰劣，不如坦然接受百家爭鳴。比如，楊強教授的遷移學(xué)習(xí)、王爽教授的安全聯(lián)邦學(xué)習(xí)，李曉林教授的知識聯(lián)邦，三者解決的問題和場景不同，也各有優(yōu)勢。

以遷移學(xué)習(xí)為例，其經(jīng)典的“羊吃草”模型深入人心，雖然靈活可控，但前提是需要足夠大的草原（即龐大的數(shù)據(jù)量），大草原能更好的養(yǎng)出通用肥美的羊（即模型），比如產(chǎn)奶的羊產(chǎn)更好更多的奶，或者用于肉食的羊，肉質(zhì)更加肥美等，再遷移到相關(guān)場景微調(diào)使用，比如基于互聯(lián)網(wǎng)數(shù)據(jù)學(xué)的自然語言處理模型，應(yīng)用到醫(yī)學(xué)某個疾病領(lǐng)域，需要再通過醫(yī)學(xué)的專業(yè)數(shù)據(jù)進行模型調(diào)優(yōu)。

圖：羊吃草模型（來源：互聯(lián)網(wǎng)）

這個過程中，一方面數(shù)據(jù)規(guī)?？赡懿粔?#xff0c;預(yù)訓(xùn)練“肥美的羊”時，通常需要的數(shù)據(jù)和算力會比模型微調(diào)時多，有些場景下，并沒有“足夠的大數(shù)據(jù)”條件來支撐訓(xùn)練；另一方面算法和數(shù)據(jù)的安全還可能面臨挑戰(zhàn)，“羊吃草”的過程可能也會出現(xiàn)不可預(yù)料的安全意外，比如羊預(yù)期吃的是有機草，沒有農(nóng)藥，但是被提供的草是假有機草，里面有很多農(nóng)藥化肥；又或者食料員給喂的食料有偷工減料等。甚至羊本身也會被擄走、被調(diào)包，產(chǎn)奶的羊被變成肉食的羊或者產(chǎn)羊毛的羊換成產(chǎn)奶的羊，羊和草的安全都無法保證。

總的來說，聯(lián)邦學(xué)習(xí)并非無懈可擊。從過程來說，盡管數(shù)據(jù)不出本地，但聯(lián)邦學(xué)習(xí)的分布式架構(gòu)決定了其必然需要節(jié)點間的通信。本地模型形成全局模型的過程需要傳遞參數(shù)，遇到“有心人”就有可能在通信過程中獲取這些參數(shù)并反推出原始數(shù)據(jù)，甚至釋放出假參數(shù)來破壞訓(xùn)練模型。

從結(jié)果來看，聯(lián)邦學(xué)習(xí)的最終目的是要獲得人工智能模型，在聯(lián)邦學(xué)習(xí)的合作中，技術(shù)無法辨別參與方是否懷有惡意，如果有參與方借機作惡，讓聯(lián)邦學(xué)習(xí)訓(xùn)練出錯誤的模型，便會導(dǎo)致訓(xùn)練失敗，那么即便原始數(shù)據(jù)安然無恙，整個聯(lián)邦學(xué)習(xí)仍將毫無意義。

為了從底層切中要害，安全聯(lián)邦學(xué)習(xí)以數(shù)據(jù)不動模型動的多數(shù)據(jù)源合作方式與數(shù)據(jù)全流程加密相結(jié)合確保“程序正義+結(jié)果正義”雙重實現(xiàn)，這個計算過程可類比為有機水果（organic fruits）的種植過程。通過安全聯(lián)邦學(xué)習(xí)可以確保在不涉及技術(shù)數(shù)據(jù)泄漏的前提下，將種植有機水果的過程中如育種的機理數(shù)據(jù)、有機肥的生產(chǎn)配方、培育澆灌的技術(shù)、運輸中的數(shù)據(jù)進行綜合利用，培育出更優(yōu)質(zhì)的有機水果。同時可以驗證培育過程是有機的，符合有機食品生產(chǎn)的全流程標準，防止在送到消費者手中的過程被掉包。。最終消費者可以一目了然的得知手中有機果實的生產(chǎn)全過程，安心使用。

放之于上面提到的羊吃草模型，安全聯(lián)邦學(xué)習(xí)的出現(xiàn)可以很好的補足兩點：一是為羊吃草，搭建一個巨大的保護罩，讓羊沿著既定的路徑不受外界干擾的去吃草，定點定量的為客戶提供羊奶、羊毛和羊肉，避免出現(xiàn)被盜和濫用的情況。二是跨聯(lián)打通各領(lǐng)域的“小草原”，既劃定好各小草原的安全邊界，又能讓數(shù)據(jù)交叉互通。

各個聯(lián)邦學(xué)習(xí)理論無論外延有多豐富，本質(zhì)目標和攻堅點都是在于，做好模型拆分，適配不同的業(yè)務(wù)需求，訓(xùn)練構(gòu)建出不同類型的精準模型，實現(xiàn)精準預(yù)測，需要兼顧建模參數(shù)的精準度、數(shù)據(jù)隱私保護性能、安全性、實時性等多重要求，安全聯(lián)邦學(xué)習(xí)可以說是這一理念的最佳實踐，其強化的安全性為數(shù)據(jù)和模型提供了安全保障，同時強調(diào)準確性，給模型匹配正確相關(guān)的數(shù)據(jù)，而非盲目“投喂”。

總結(jié)

以上是生活随笔為你收集整理的一文重新认识联邦学习的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：智能手机下，如何拯救你，我的孩子
下一篇：北大学霸：高考有漏洞可钻，学会套路，立马