日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Rethinking Architecture Design for Tackling Data Heterogeneity in Federated Learning

發布時間:2023/12/20 编程问答 39 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Rethinking Architecture Design for Tackling Data Heterogeneity in Federated Learning 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Abstract

聯邦學習是一種新興的研究范式,可以在不同組織之間進行機器學習模型的協作訓練,同時保持每個機構的數據隱私。盡管最近取得了進展,但仍然存在一些根本性的挑戰,例如缺乏收斂性,以及在現實世界的異構設備之間發生災難性遺忘的可能性。在本文中,我們證明了基于自注意的架構(例如transformer)對分布轉移更健壯,從而改善了異構數據的聯邦學習。具體來說,我們對一系列聯邦算法、真實世界基準測試和異構數據分割的不同神經架構進行了首次嚴格的實證調查。我們的實驗表明,簡單地用transformer取代卷積網絡可以大大減少之前設備的災難性遺忘,加速收斂,并達到更好的全局模型,特別是在處理異構數據時。我們發布我們的代碼和預訓練的模型,以鼓勵未來對健壯架構的探索,作為當前優化前沿研究工作的替代方案。

1. Introduction

聯邦學習(FL)是一種新興的研究范式,用于在分布在多個異構設備上的私有數據上訓練機器學習模型。FL將每個設備上的數據保密,旨在訓練一個全局模型,該模型僅通過通信參數而不是數據本身進行更新。因此,它為跨多個機構的協作機器學習提供了機會,而不會有私人數據泄露的風險[25,36,54]。

事實證明,這在醫療保健[4,7,15,40]、從移動設備學習[17,38]、s-等領域特別有用購物城市[25],通信網絡[49],在這些地方保護隱私至關重要。盡管FL提供了豐富的機會,但在FL易于應用于現實世界的數據分布之前,仍有一些基本的研究問題需要解決。目前大多數旨在跨非iid設備學習單個全局模型的方法都遇到了挑戰,例如并行FL meth-的非保證收斂性和模型權值發散[35,37,68],以及序列FL方法的嚴重災難性遺忘問題[7,16,57]。

雖然大多數研究工作都集中在改進FL中的優化過程上,但我們的論文旨在通過重新思考聯邦模型中架構的選擇來提供一個新的視角。我們假設Transformer架構[12,61]特別適合于異構數據分布,因為它們對分布偏移[3]具有驚人的健壯性。這一特性導致了變形金剛在自監督學習中的流行,其中異質性通過未標記的預訓練數據和標記的測試數據[11]之間的分布轉移表現出來,以及在圖像和文本等基本異構輸入模式上的多模態學習[24,60]。為了研究這一假設,我們在一套聯邦算法、真實世界的基準測試和異構數據分割中對幾個神經架構進行了第一次大規模的實證基準測試。為了表示Transformer網絡,我們在圖像任務上使用Vision Transformer[12,41]的標準實現,包括圖像分類[31,42]和醫學圖像分類[27]。

我們的結果表明,VIT -FL(視覺變形聯邦學習)在大多數異構設備分裂的設置中表現得特別好,隨著異構性的增加,VIT -FL和ResNets[19]的FL之間的差距顯著增加。為了理解這些結果,我們發現改進的主要來源在于Transformer模型對異構數據的魯棒性的增加,這減少了在本質上不同的新設備上訓練時對以前設備的災難性遺忘。變形金剛一起,收斂更快,并達到一個更好的全球模型,適用于大多數設備。通過與專門設計用于對抗異構數據的FL方法進行比較,我們發現VIT -FL在不使用訓練啟發式、額外的超參數調優或額外的訓練的情況下提供了立即的改進。此外,值得注意的是,我們的VIT-FL與現有的基于優化的FL方法是正交的,可以很容易地應用于提高它們的性能。為此,我們得出結論,變形金剛應該被視為未來研究FL問題的一個自然起點。

2. Related Work

聯合學習。聯邦學習(FL)旨在跨大規模分布式設備[47]在私有數據上訓練機器學習模型。為了實現跨異構設備的有效分布式訓練,出現了兩類方法:(1)并行FL方法涉及以同步或異步的方式并行訓練每個本地客戶端(如經典的FedA VG[47]),而(2)串行方法以串行和循環的方式訓練每個客戶端(如循環權重傳輸(CWT) [7])分裂學習[62])。FedAVG[47]和CWT[7]的示意圖如圖2所示。FL的核心問題是訓練數據在客戶端的分布存在數據異質性,導致并行FL方法出現非保證收斂和模型權值發散[21,37,66,68],串行FL方法出現嚴重的災難性遺忘問題[7,16,57]。

在經典FedA VG算法[47]的最近發展中,包括使用服務器動量(FedA VGM)來緩解每個客戶端分布漂移和不平衡[22],在所有用戶之間全局共享小數據子集(FedA VG- share)[68],使用局部目標的近距離項(FedProx)來減少潛在的權重分歧[37],或使用其他優化啟發方法,如協作重放[52],無監督對比學習[69],匹配用戶模型[64,65]的特征層,或模型蒸餾[14]來處理異質性。

同時,最近的一些努力旨在緩解連續和串行學習中的災難性遺忘:限制對先前看到的任務或客戶端很重要的權重的更新(彈性權重整合(EWC)[30]),應用深度生成回放來模擬來自先前客戶端或任務的數據[52,58],以及應用循環加權目標來減輕跨標簽分布偏誤[2]的性能損失等等。然而,所有這些方法都主要集中在改進優化算法上,而沒有研究架構設計中提高數據分布變化的魯棒性的潛力。在我們的工作中,我們展示了架構中的簡單選擇實際上會產生很大的不同,并且應該成為與當前工作的主要焦點優化方法并行的積極研究領域。

Transformer。Transformer架構首先被提出用于序列到序列的機器翻譯[61],隨后在許多NLP任務中建立了最先進的性能,特別是在自監督范式[11]中訓練時。最近,變形金剛也被發現廣泛適用于涉及圖像和視頻的任務。例如,Parmar等人[50]將自注意應用于圖像的局部鄰域,而視覺轉換器(ViT)[12]通過直接將具有全局自注意的變壓器應用于全尺寸圖像,實現了ImageNet分類的最新水平。

相對于語言(即LSTMs[20])和視覺(即cnn[19,34])的經典架構,其令人感興趣的性能提升最近激發了人們對理解其有效性背后原因的興趣。在幾個特別相關的發現中,ViTs對嚴重咬合、攝動、區域移位[3,48]以及合成和自然對抗例子[44,51]具有高度魯棒性。此外,最近的研究表明變壓器也適用于異構和多模態數據[24,43,60]。受這些發現的啟發,我們為什么假設ViTs也將非常有效地適應FL的數據異質性,并提供詳細的實證分析來檢驗這一假設。

3. Transformers in Federated Learning

在本節中,我們將介紹Transformer體系結構和聯邦學習方法的背景。

3.1. Vision Architectures

CNN。對于基于卷積的架構,我們使用ResNet[19]模型族(ResNet-50、ResNet-152和ResNeXt-101 (32x8d))和EfficientNet[59]模型族(EfficientNet- b1、EfficientNet- b5和EfficientNet- b7),其中包含一系列卷積、ReLU、池化和批處理歸一化層。ResNet和EfficientNet是圖像分類中最流行的體系結構,也是圖像數據FL中使用的標準體系結構[1,39]。

Transformer。作為比較,我們使用視覺變形金剛(ViT(S), ViT(T), ViT(B))[12]模型族和Swin變形金剛模型族(Swin(T), Swin(S)和Swin(B))[41],它們不使用傳統的卷積層。相反,圖像特征提取與圖像序列化和補丁嵌入策略。每個模型的參數數量見圖1。

3.2. Federated Learning Methods

我們應用最流行的并行方法(FedA VG[47])和串行方法(CWT[7])作為訓練算法(參見圖2中的示意圖描述)。
聯邦平均算法。FedAVG將每個客戶端的局部隨機梯度下降(SGD)與平均[47]的迭代模型結合起來。具體來說,在每一輪通信中隨機抽取一部分本地客戶機,服務器將當前全局模型發送給每個客戶機客戶。每個選定的客戶端然后對其本地訓練數據執行本地SGD的E epoch,并將本地梯度發送回中央服務器進行同步聚合。然后,服務器應用平均梯度來更新其全局模型,并重復此過程。

循環權重轉移。與FedAVG中每個本地客戶端以同步和并行的方式訓練不同,CWT中的本地客戶端以串行和循環的方式訓練。在每一輪訓練中,CWT在一個本地客戶端上用它的本地數據訓練一個全局模型,訓練若干個epoch E,然后將這個全局模型轉移到下一個客戶端進行訓練,直到所有本地客戶端都在一次[7]上訓練完畢。然后,訓練過程在客戶端中重復循環,直到模型收斂或達到預定義的通信輪數。

4. Experiments

我們的實驗旨在回答以下研究問題,這些問題對FL方法的實際部署很重要,同時也有助于我們理解(視覺)Transformer架構。
?與cnn相比,變形金剛能夠在FL設置中學習更好的全局模型嗎? cnn已經成為FL任務的實際方法(第4.2節)?transformer是否特別能夠處理異構數據分區(第4.3.1節)?
?與cnn相比,變壓器是否降低了通信成本(第4.3.2節)?
?transformer能否應用于進一步改進現有的基于優化的FL方法(第4.4節)?
?對于從業人員在FL中部署transformer有哪些實用的提示(第4.5節)?

4.1. Experimental Setup
按照[7,21],我們在研究中評估了Kaggle糖尿病視網膜病變競賽數據集(記為Retina)[27]、CIFAR-10數據集[31]和現實世界CelebA數據集[42]上的FL。

Retina和CIFAR-10:我們將Retina數據集中的標簽二值化為健康(陽性)和患病(陰性),隨機選擇6000張平衡圖像進行訓練,3000張圖像作為全局驗證數據集,3000張圖像作為[7]之后的全局測試數據集。

我們使用CIFAR-10中的原始測試集作為全局測試數據集,從原始訓練數據集中留出5000張圖像作為全局驗證數據集,并使用剩余的45,000張圖像作為訓練數據集。我們模擬三組數據分區:一個iid數據分區和兩個標簽分布傾斜的非iid數據分區。視網膜和CIFAR-10中的每個數據分區分別包含4和5個模擬客戶端。我們使用每兩個客戶端之間的平均KolmogorovSmirnov (KS)統計量來衡量標簽分布的偏度。KS = 0表示IID數據分區,而KS = 1則是一個非常非IID的數據分區,每個客戶端擁有完全不同的標簽分布(詳細的預處理和數據分區見附錄A.1)。

CelebA是一個大規模的人臉屬性數據集超過20萬張名人照片。我們使用LEAF基準測試[5]提供的聯邦版CelebA,它基于身份劃分設備。在[5]之后,我們對二元分類任務(存在微笑)進行測試,并丟棄大于8個樣本的客戶端,以增加任務難度。共納入227例患者,平均5.34±1.11例,共1213例。
4.2. 使用不同神經架構和(理想的)集中訓練的FL的比較:無論應用哪種架構,CWT和FedAVG都可以在IID設置上實現與在中央托管數據(記為Central)上訓練的模型相當的結果(圖3)。然而,我們觀察到在CNNs上的測試準確性顯著降低

CWT和FedA VG的異構數據分區,特別是在極端異構的數據分區上(Split 3, KS-1 of CIFAR-10)(圖3和圖1)。通過簡單地用vit替換cnn, CWT和FedA VG即使在高度異構的非iid設置中也成功地保持了模型的準確性。在高度異構的CIFAR-10數據集Split-3, KS-1上,ViT(S)-CWT和ViT(S)-FedA VG的測試精度相對于ResNet(50)-CWT和ResNet(50)-FedA VG分別提高了77.70%和37.34%。因此,VIT特別適合于異構數據。

Comparison with existing FL methods:

我們還比較了VIT -FL與兩種最先進的基于優化的FL方法:FedProx[37]和視網膜和CIFAR-10上的FedA VG-Share[68]。我們使用ResNet(50)作為其他比較方法的骨干網,使用ViT(S)作為我們的方法。我們用網格搜索在Split-2數據集上優化最佳參數(FedProx的近項懲罰常數μ),并將相同的參數應用于所有剩余的數據分區。我們允許每個客戶在FedAVGShare中彼此共享5%的數據。如圖4所示,在非iid數據分區中,vvi -FL優于所有其他FL方法,特別是在高度異構的非iid設置上。盡管仔細調優了優化參數,FedProx[37]在高度異構的數據分區上仍會出現嚴重的性能下降。同樣,即使在所有客戶端之間共享5%的本地數據,FedA VG-Share在高度異構的數據分區Split-3上也會遭受性能下降的影響(CIFAR-10數據集上的Split-3為94.4%,而Split-1為97%)。我們得出結論,簡單地使用它優于最近為FL設計的幾種方法,這些方法通常需要仔細調整優化參數。請注意,vit的使用與現有的優化方法是正交的,兩者的組合可以產生更強的性能(詳見第4.4節)。

4.3. Analyzing the Effectiveness of Transformers

鑒于這些有希望的實證結果,我們現在進行了仔細的實證分析,以揭示究竟是什么導致了Transformers成績的提高。

4.3.1 Transformers generalize better in non-IID settings

FL的分布式特性意味著跨客戶端的數據分布可能存在很大的異質性。

先前的研究表明,使用FedA VG或CWT訓練FL模型分別會引起權重發散和災難性遺忘等問題[30,57]。我們認為,cnn中使用的局部卷積已被證明更多地依賴于局部高頻模式[13,26,63],可能對異構設備特別敏感。這個問題在醫療保健數據的FL中尤其普遍,因為不同機構捕獲的輸入圖像由于不同的醫學成像協議可能在局部模式(強度、對比度等)上存在顯著差異[16,55],以及由于用戶說話[33]、鍵入[17]和書寫[28]的習慣而在自然數據分割中存在顯著差異。
另一方面,vit使用自我注意來學習全局交互[53],與cnn相比,它已被證明對局部模式的偏見較小。這一特性可能有助于它們對分布的驚人健壯性位移和對抗性擾動[3,48]。為了進一步分析變形金剛在異構數據間的泛化能力,我們設計了以下實驗:跨異構設備的災難性遺忘:cnn通常在分布外數據上工作得更差。這種現象在連續FL法CWT中尤為嚴重。由于其順序和串行的訓練策略,在CWT范式中訓練cnn通常會導致在非iid數據分區上的災難性遺忘:在具有不同數據分布的新客戶端上更新幾次后,模型在先前客戶端上的性能突然下降[3,48]。這將導致較差和較慢的收斂,這在FL中是不受歡迎的。在遷移學習文獻中也發現了類似的遺忘問題[8,9,56]。

我們在CIFAR-10數據集的Split-3上評估CWT,以說明這種災難性遺忘現象。在圖5中,我們繪制了隨著更多的客戶端參與CWT學習,Client-3驗證數據集(與其訓練數據集共享相同的數據分布)上預測精度的演變。當在Client-3上將訓練良好的模型轉移到Client-4上時,之前Client-3驗證數據集上的預測精度會突然急劇下降(從> 98%下降到< 1%精度)。然而,以ViT為骨干訓練的模型(ViT(S)CWT)能夠將知識從Client-3轉移到Client4,同時只丟失少量Client3上的信息(保持98%的準確性)。因此,vit可以更好地泛化到新的數據分布,而不會忘記舊的數據分布。

我們進一步比較了ViT(S)-CWT與專門用于減輕災難性遺忘的優化方法EWC30。

CWT在CIFAR-10的Split-3上的串行訓練可以看作是一個增量類學習任務,其中每個客戶端包含數據集中的一個類的獨占子集。

每個客戶端模型將相同的分類器共享到標準化的聯合標簽空間[23]。然而,從圖5中可以看出,EWC勉強解決了高度異構的數據分區上的災難性遺忘問題,這也與[23]中報告的結果相匹配。該實驗進一步證明了ViT的有效性,超越了為FL設計的優化方法。

2. Generalization of VIT-FL on real-world federated datasets:

訓練有素的聯邦模型應該在其他未見客戶端的非分布測試數據集上表現良好。為了測試變形金剛的可泛化性,我們將其應用于現實世界聯邦CelebA數據集[42]和將其與ResNet對應的FedProx[37]和FedA VG-Share進行比較[68]。我們在表1中報告了使用不同FL方法訓練的模型對來自所有本地客戶端的測試數據的并集的測試精度。我們的VIT-FL方法優于最先進的FL方法,也減少了方差。這表明變形金剛學習了比cnn更好的全局模型

3.VIT -FL在極端大規模環境下的泛化:為了驗證VIT-FL在更大規模的現實世界分布式學習環境下的有效性,其中涉及數千個客戶端,我們進一步將不同的FL方法應用于Retina和CIFAR-10數據集上的極端邊緣情況。這里的邊緣情況定義為一個客戶機只持有一個數據樣本,這在醫療保健領域非常常見,因為患者只持有屬于自己的一個數據樣本。這導致了大量的異構客戶端:Retina有6000個,CIFAR-10有45000個。從表2中可以看出,vit在這種極端異構的邊緣情況下仍然學習了一個有前途的全局模型,顯著優于ResNet模型(Retina上從50%到80%,CIFAR-10上從30%到90%)。

4.3.2 Transformers converge faster to better optimum

一個強大的FL方法不僅應該在IID和非IID數據分區上健壯地執行,而且還應該具有較低的通信成本,以便在通信有限的帶寬上進行部署。通信成本由收斂前的輪數和收斂前的輪數決定模型參數。我們計算了達到一個預先定義的目標測試集準確率為一個集中訓練的ResNet(50)預測準確率的95%所需的通信輪數。具體來說,我們將Retina和CIFAR-10數據集的目標精度分別設置為77.5%和91.5%。我們將串行CWT方法上的一個通信回合定義為跨所有聯邦本地客戶端的一個完整訓練周期。

從圖4和表3中可以看出,所有評估的FL方法在同構數據分區上快速收斂到目標測試性能。然而,ResNet(50)-FedA VG和ResNet(50)-CWT的收斂速度隨著異構性的增加而下降,甚至在高度異構的數據分區上達到一個平臺(永遠達不到目標精度)。相比之下,VIT-FL在異構數據上仍然快速收斂。例如,在CIFAR-10上的異構數據分區Split-2和Split-3上,由于嚴重的災難性遺忘,ResNet(50)-CWT完全發散,而ViT(S)-CWT在34輪和85輪通信后達到了目標性能。

4.4. In Conjunction with Existing Methods

由于我們對架構選擇的調查在很大程度上與現有的基于FL方法的優化正交,因此我們的發現可以很容易地與后者結合使用。我們將Vision transformer與基于優化的方法(FedProx[37]和FedAVG-Share[68])結合起來,并將其應用于Retina和CIFAR-10數據集。從表3和圖6,當應用到現有的FL優化

4.5. Take-aways for Practical Usage

局部訓練周期:標準使用E表示局部模型通過其局部數據集的輪數。已知E強烈影響FedA VG[47]和CWT[7]的性能。我們對局部訓練周期E對VITFL的影響進行了實驗研究。對于ViT(B)-FedA VG,我們考慮E∈{1,5,10},對于ViT(B)-CWT,我們考慮E∈{1,5}。從圖7中,我們發現ViT表現出與CNN相似的現象,即較大的E加速了ViT(B)-FedA VG在同質數據分區上的收斂,但可能導致異構數據分區上的最終性能下降。

類似地,ViT(B)-CWT也有利于每個客戶端之間的頻繁傳輸速率,就像ResNet(50)-CWT[7]在非iid數據分區上一樣。因此,我們建議用戶在同質數據上應用大E以減少通信,而在高度異構的情況下應用小E (vv - feda VG E≤5,vv - cwt E = 1)。

預訓練對VIT- fl的影響:有證據表明,從零開始訓練[12]時,VIT通常需要更大量的訓練數據才能比cnn表現得更好。我們通過實驗研究了預訓練對vvi - fl的影響。我們使用FedA VG作為訓練算法,使用Swin(T)[41]作為骨干網,并在CIFAR-10上進行測試。我們在訓練期間應用與[41]相同的增強和正則化策略,并將最大通信輪數設置為300。如表4所示,在理想的中央托管和FL設置下,從頭訓練Swin(T)的性能都會下降。盡管如此,它的性能在高度異構的數據分區上,從頭訓練時的Split-3(64.50%)比ResNet(50)-FedA VG(圖3上的59.68%)要好得多。在實際應用中,建議用戶將VIT作為首選,因為在應用預訓練模型時,VIT- fl的性能始終優于cnn(圖1和圖3)。如果沒有大規模的預訓練數據集,可以選擇自監督預訓練[6,18]。

其他訓練提示:FL中VIT的訓練策略可以直接繼承VIT訓練,如使用線性熱身和學習率衰減,梯度剪切。相對較小的學習率和梯度范數剪輯是CWT中穩定VIT訓練的必要條件,特別是在高度異構的數據分區中。梯度范數剪輯也有助于在異構數據上訓練具有cnn的FL,因為它已被證明可以減少局部更新與當前全局模型[37]之間的權重差異。更多的一般提示和實驗分析請參見附錄B.1。

5. Conclusion

盡管FL最近取得了進展,但在處理異構數據時,在收斂和遺忘方面仍然存在挑戰。與以前改進優化的方法不同,我們通過重新思考FL中的架構設計提供了一個新的視角。使用transformer對異構數據和分布偏移的魯棒性,我們進行了廣泛的分析,并證明了transformer在減輕災難性遺忘、加速收斂以及達到并行和串行FL方法的更好最優方面的優勢。我們發布代碼和模型是為了鼓勵在優化的同時開發健壯的體系結構。

總結

以上是生活随笔為你收集整理的Rethinking Architecture Design for Tackling Data Heterogeneity in Federated Learning的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。