日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

一文重新认识联邦学习

發(fā)布時間:2024/8/23 编程问答 39 豆豆
生活随笔 收集整理的這篇文章主要介紹了 一文重新认识联邦学习 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

重要申明:本文轉(zhuǎn)載自https://user.guancha.cn/main/content?id=674888。

人工智能助力抗疫又添新場景。據(jù)報道,英國劍橋愛登布魯克醫(yī)院(Addenbrooke’s Hospital)與全球20家醫(yī)院和醫(yī)療科技中心聯(lián)合醫(yī)療科技領(lǐng)軍企業(yè)英偉達采用人工智能預(yù)測新冠肺炎患者從抵院急救起24小時內(nèi)的氧氣需求量。

該研究的一大亮點在于采用了聯(lián)邦學(xué)習(xí)技術(shù)分析了全球約10,000名新冠患者的數(shù)據(jù),成為迄今為止規(guī)模最大,范圍最廣的聯(lián)邦學(xué)習(xí)臨床研究之一。參與研究的多位專家表示,聯(lián)邦學(xué)習(xí)不僅在醫(yī)療領(lǐng)域設(shè)立了全新標準,更可以讓各行各業(yè)在不犧牲隱私的前提下打造強大的人工智能模型。

作為隱私計算技術(shù)的主要路徑之一,聯(lián)邦學(xué)習(xí)近年來受到廣泛關(guān)注并被寄予厚望。業(yè)界常以“數(shù)據(jù)不動模型動”來概括聯(lián)邦學(xué)習(xí)的基本原理。也就是說,參與聯(lián)邦學(xué)習(xí)的各方基于本地數(shù)據(jù)訓(xùn)練形成本地模型,不同的本地模型再經(jīng)過參數(shù)傳遞,最終聚合形成全局模型。

從其名稱也可以看出,“聯(lián)邦”代表各數(shù)據(jù)擁有方以分布式架構(gòu)開展合作,“學(xué)習(xí)”則代表機器學(xué)習(xí)、深度學(xué)習(xí)人工智能算法模型。其中的關(guān)鍵點就在于,聯(lián)邦學(xué)習(xí)實現(xiàn)了讓“模型找數(shù)據(jù)”,而非“數(shù)據(jù)找模型”,數(shù)據(jù)始終只留在本地,也就大大降低了數(shù)據(jù)泄露風險。

盡管聯(lián)邦學(xué)習(xí)的知名度不斷提升,落地應(yīng)用逐步推廣,但整體發(fā)展仍處早期,在不少方面尚未形成共識,甚至存在一些誤區(qū),亟待業(yè)界“正本清源“。

誤區(qū)一:金融領(lǐng)域的聯(lián)邦學(xué)習(xí)更Cool,需求更高,難度更大?

隱私計算形成了讓數(shù)據(jù)“可用不可見”的解決方案。從甲子光年《2021隱私計算行業(yè)研究報告》的示意圖可以看到,聯(lián)邦學(xué)習(xí)處于整個隱私計算技術(shù)體系的“核心位”。


來源:甲子光年《2021隱私計算行業(yè)研究報告》

近年來伴隨技術(shù)成熟及數(shù)據(jù)安全相關(guān)合規(guī)要求趨嚴,聯(lián)邦學(xué)習(xí)不僅從理論走向?qū)嵺`,還受到資本熱捧,商業(yè)落地正在迎來爆發(fā)。據(jù)《2021隱私機密計算藍皮書》,醫(yī)療、金融、政務(wù)是隱私計算的三大應(yīng)用場景。

在眾多落地領(lǐng)域中,金融業(yè)可謂首屈一指。聯(lián)邦學(xué)習(xí)在智能風控、反洗錢等方面優(yōu)勢明顯。金融領(lǐng)域合規(guī)要求嚴,數(shù)字化、智能化及數(shù)據(jù)結(jié)構(gòu)化程度高,都為聯(lián)邦學(xué)習(xí)的落地創(chuàng)造了先天優(yōu)勢條件。

不過需要指出的是,雖然聯(lián)邦學(xué)習(xí)在金融領(lǐng)域成果顯著,但實際上聯(lián)邦學(xué)習(xí)卻原生于醫(yī)療領(lǐng)域。相對來說,醫(yī)療領(lǐng)域的復(fù)雜度和門檻則更高。而對于聯(lián)邦學(xué)習(xí)技術(shù)服務(wù)企業(yè)來說,選擇醫(yī)療這條路,也就意味著更加硬核的技術(shù)自信、投入度和專注力。

“我們50%的研究精力以及商業(yè)業(yè)務(wù)都在隱私計算與醫(yī)療的結(jié)合上,政務(wù)、金融等為醫(yī)療領(lǐng)域之外較為注重的領(lǐng)域”,锘崴科技創(chuàng)始人、董事長王爽教授坦言。據(jù)他介紹,隱私計算在醫(yī)療領(lǐng)域的應(yīng)用其實相當復(fù)雜。

一是數(shù)據(jù)類型的復(fù)雜度,包括結(jié)構(gòu)化、非結(jié)構(gòu)化、基因組學(xué)、影像學(xué)數(shù)據(jù)等數(shù)據(jù)類型醫(yī)療大數(shù)據(jù)的分析經(jīng)常需要利用多模態(tài)數(shù)據(jù)的聯(lián)合分析,得出完整的患者畫像,輔助醫(yī)療診斷和治療。

二是方法論,除了金融領(lǐng)域常用的回歸模型、樹模型等,醫(yī)療領(lǐng)域由于其數(shù)據(jù)類型的多模態(tài)性、疾病的多樣性、應(yīng)用場景的高復(fù)雜性,醫(yī)療領(lǐng)域需要更復(fù)雜和多樣化的方法論的支持。

三是模型精準度,醫(yī)療領(lǐng)域?qū)δP偷木珳识纫蟾?#xff0c;金融通常側(cè)重于模型的預(yù)測結(jié)果的精度,醫(yī)療則是模型參數(shù)和預(yù)測結(jié)果的精度并重,模型中涉及的參數(shù)(如預(yù)測有無糖尿病模型中,不同標簽如血壓、肥胖、是否過度飲酒等因素所對應(yīng)的模型參數(shù)的權(quán)重)均可指導(dǎo)臨床治療,影響臨床治療路徑。

四是建模的安全性,由于建模過程設(shè)計多個合作方,如何避免參與方的惡意行為(例如,計算過程摻假等)可能對于疾病診療結(jié)果造成的影響也是一個關(guān)鍵的問題。這需要聯(lián)邦學(xué)習(xí)系統(tǒng)提供額外的應(yīng)對惡意行為的能力。

誤區(qū)二:訓(xùn)練模型,數(shù)據(jù)多就是好?

追根溯源,醫(yī)療場景的復(fù)雜性和高要求還是源于其數(shù)據(jù)的復(fù)雜性。盡管人們一般認為人工智能模型基于大數(shù)據(jù)“喂養(yǎng)”,訓(xùn)練數(shù)據(jù)越多,模型預(yù)測越準。但現(xiàn)實中,最好的算法卻往往來源于優(yōu)質(zhì)精煉的數(shù)據(jù)集,也就是要“保量”更要“保質(zhì)”,而非一味求多。

這樣的數(shù)據(jù)集顯然十分稀缺。伴隨各行業(yè)數(shù)據(jù)安全意識的增強以及各國法律法規(guī)的完善,傳統(tǒng)的中心化數(shù)據(jù)共享模式已經(jīng)難以走通。更難的是,醫(yī)療機構(gòu)視數(shù)據(jù)為核心資產(chǎn),醫(yī)療數(shù)據(jù)敏感性高,安全隱私合規(guī)要求嚴格,更不用提跨境數(shù)據(jù)流動這一全球性難題了。

聯(lián)邦學(xué)習(xí)之所以能夠解決數(shù)據(jù)隱私和治理的挑戰(zhàn),就在于其實現(xiàn)了把分散的“小數(shù)據(jù)”提供給機器學(xué)習(xí)模型。在聯(lián)邦學(xué)習(xí)框架下,無論是訓(xùn)練階段還是驗證階段,數(shù)據(jù)擁有方都不僅能規(guī)定自己的數(shù)據(jù)管治流程及其相關(guān)隱私政策,還能控制甚至取消數(shù)據(jù)訪問權(quán)限。

聯(lián)邦學(xué)習(xí)“數(shù)據(jù)不動模型動”的優(yōu)勢就在于,龐雜的醫(yī)療數(shù)據(jù)無需再以中心化方式從各本地機構(gòu)復(fù)制到中心“數(shù)據(jù)湖”,再由每個使用者復(fù)制到各自本地用于模型訓(xùn)練。由于是模型在各機構(gòu)間移動,模型自身就能“汲取”越來越多的數(shù)據(jù)集而變得更大更強,更無需考慮數(shù)據(jù)存儲的相關(guān)要求和成本。

基于這樣的先天優(yōu)勢,聯(lián)邦學(xué)習(xí)可以為醫(yī)療領(lǐng)域帶來大規(guī)模、跨機構(gòu)的數(shù)據(jù)共享。借助聯(lián)邦學(xué)習(xí),使得在數(shù)據(jù)合規(guī)可控的前提下獲得豐富的數(shù)據(jù)多樣性成為可能,如跨地域、跨人種的病例數(shù)據(jù)。另一個典型例子就是罕見病的創(chuàng)新研究,因為罕見病的發(fā)生概率很低,單個醫(yī)療機構(gòu)的相關(guān)數(shù)據(jù)量也就很少。

由于聯(lián)邦學(xué)習(xí)實現(xiàn)了數(shù)據(jù)無需集中匯集就可以進行聯(lián)合分析,同時結(jié)合專業(yè)的醫(yī)療領(lǐng)域的模型開發(fā)能力,以及可擴展的底層隱私計算和聯(lián)邦學(xué)習(xí)框架,其應(yīng)用范圍就可以擴展至整個醫(yī)療領(lǐng)域的人工智能模型開發(fā)。2020年,王爽教授帶領(lǐng)锘崴科技團隊完成了全國首例利用聯(lián)邦學(xué)習(xí)在帶有隱私保護的情況下進行的全國性多中心強直性脊柱炎(AS) 全基因組關(guān)聯(lián)分析(GWAS)。該分析研究通過隱私保護計算實現(xiàn)了在不分享明文原始數(shù)據(jù)(個體基因數(shù)據(jù))的情況下的聯(lián)合分析,其成果發(fā)表在生物信息學(xué)頂級期刊Briefing in Bioinformatics上。

總結(jié)來說,聯(lián)邦學(xué)習(xí)對數(shù)據(jù)集的需求是貴精不貴多,根據(jù)場景所需精準聚合小數(shù)據(jù),再串聯(lián)成大數(shù)據(jù),才能訓(xùn)練出更精準的模型。

誤區(qū)三:聯(lián)邦學(xué)習(xí)理論各有說法,一定有高下之分?

目前我國聯(lián)邦學(xué)習(xí)領(lǐng)域已經(jīng)誕生了一批代表性企業(yè),其中不僅包括騰訊、阿里這樣的巨頭,也有一眾實力不俗的創(chuàng)業(yè)企業(yè),還涌現(xiàn)出不少技術(shù)大牛。除王爽教授外,微眾銀行首席人工智能官楊強、同盾科技人工智能研究院院長李曉林等也都是業(yè)內(nèi)公認的聯(lián)邦學(xué)習(xí)“三劍客”。

目前隱私計算企業(yè)多采用以一個技術(shù)為主,其余技術(shù)為輔助的研究方式,從上述各企業(yè)負責人或首席科學(xué)家的研究方向看也是如此。在商業(yè)應(yīng)用中,隱私計算企業(yè)隨著技術(shù)結(jié)合商業(yè)落地的實踐,隱私計算技術(shù)也在不斷更新迭代。

事實上,聯(lián)邦學(xué)習(xí)領(lǐng)域無論技術(shù)還是市場都尚處發(fā)展早期,面對不同技術(shù)路徑與其糾結(jié)孰優(yōu)孰劣,不如坦然接受百家爭鳴。比如,楊強教授的遷移學(xué)習(xí)、王爽教授的安全聯(lián)邦學(xué)習(xí),李曉林教授的知識聯(lián)邦,三者解決的問題和場景不同,也各有優(yōu)勢。

以遷移學(xué)習(xí)為例,其經(jīng)典的“羊吃草”模型深入人心,雖然靈活可控,但前提是需要足夠大的草原(即龐大的數(shù)據(jù)量),大草原能更好的養(yǎng)出通用肥美的羊(即模型),比如產(chǎn)奶的羊產(chǎn)更好更多的奶,或者用于肉食的羊,肉質(zhì)更加肥美等,再遷移到相關(guān)場景微調(diào)使用,比如基于互聯(lián)網(wǎng)數(shù)據(jù)學(xué)的自然語言處理模型,應(yīng)用到醫(yī)學(xué)某個疾病領(lǐng)域,需要再通過醫(yī)學(xué)的專業(yè)數(shù)據(jù)進行模型調(diào)優(yōu)。


圖:羊吃草模型(來源:互聯(lián)網(wǎng))

這個過程中,一方面數(shù)據(jù)規(guī)??赡懿粔?#xff0c;預(yù)訓(xùn)練“肥美的羊”時,通常需要的數(shù)據(jù)和算力會比模型微調(diào)時多,有些場景下,并沒有“足夠的大數(shù)據(jù)”條件來支撐訓(xùn)練;另一方面算法和數(shù)據(jù)的安全還可能面臨挑戰(zhàn),“羊吃草”的過程可能也會出現(xiàn)不可預(yù)料的安全意外,比如羊預(yù)期吃的是有機草,沒有農(nóng)藥,但是被提供的草是假有機草,里面有很多農(nóng)藥化肥;又或者食料員給喂的食料有偷工減料等。甚至羊本身也會被擄走、被調(diào)包,產(chǎn)奶的羊被變成肉食的羊或者產(chǎn)羊毛的羊換成產(chǎn)奶的羊,羊和草的安全都無法保證。

總的來說,聯(lián)邦學(xué)習(xí)并非無懈可擊。從過程來說,盡管數(shù)據(jù)不出本地,但聯(lián)邦學(xué)習(xí)的分布式架構(gòu)決定了其必然需要節(jié)點間的通信。本地模型形成全局模型的過程需要傳遞參數(shù),遇到“有心人”就有可能在通信過程中獲取這些參數(shù)并反推出原始數(shù)據(jù),甚至釋放出假參數(shù)來破壞訓(xùn)練模型。

從結(jié)果來看,聯(lián)邦學(xué)習(xí)的最終目的是要獲得人工智能模型,在聯(lián)邦學(xué)習(xí)的合作中,技術(shù)無法辨別參與方是否懷有惡意,如果有參與方借機作惡,讓聯(lián)邦學(xué)習(xí)訓(xùn)練出錯誤的模型,便會導(dǎo)致訓(xùn)練失敗,那么即便原始數(shù)據(jù)安然無恙,整個聯(lián)邦學(xué)習(xí)仍將毫無意義。

為了從底層切中要害,安全聯(lián)邦學(xué)習(xí)以數(shù)據(jù)不動模型動的多數(shù)據(jù)源合作方式與數(shù)據(jù)全流程加密相結(jié)合確保“程序正義+結(jié)果正義”雙重實現(xiàn),這個計算過程可類比為有機水果(organic fruits)的種植過程。通過安全聯(lián)邦學(xué)習(xí)可以確保在不涉及技術(shù)數(shù)據(jù)泄漏的前提下,將種植有機水果的過程中如育種的機理數(shù)據(jù)、有機肥的生產(chǎn)配方、培育澆灌的技術(shù)、運輸中的數(shù)據(jù)進行綜合利用,培育出更優(yōu)質(zhì)的有機水果。同時可以驗證培育過程是有機的,符合有機食品生產(chǎn)的全流程標準,防止在送到消費者手中的過程被掉包。。最終消費者可以一目了然的得知手中有機果實的生產(chǎn)全過程,安心使用。

放之于上面提到的羊吃草模型,安全聯(lián)邦學(xué)習(xí)的出現(xiàn)可以很好的補足兩點:一是為羊吃草,搭建一個巨大的保護罩,讓羊沿著既定的路徑不受外界干擾的去吃草,定點定量的為客戶提供羊奶、羊毛和羊肉,避免出現(xiàn)被盜和濫用的情況。二是跨聯(lián)打通各領(lǐng)域的“小草原”,既劃定好各小草原的安全邊界,又能讓數(shù)據(jù)交叉互通。

各個聯(lián)邦學(xué)習(xí)理論無論外延有多豐富,本質(zhì)目標和攻堅點都是在于,做好模型拆分,適配不同的業(yè)務(wù)需求,訓(xùn)練構(gòu)建出不同類型的精準模型,實現(xiàn)精準預(yù)測,需要兼顧建模參數(shù)的精準度、數(shù)據(jù)隱私保護性能、安全性、實時性等多重要求,安全聯(lián)邦學(xué)習(xí)可以說是這一理念的最佳實踐,其強化的安全性為數(shù)據(jù)和模型提供了安全保障,同時強調(diào)準確性,給模型匹配正確相關(guān)的數(shù)據(jù),而非盲目“投喂”。

總結(jié)

以上是生活随笔為你收集整理的一文重新认识联邦学习的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。