(Model-Contrastive Federated Learning)模型对比联邦学习
摘要
聯(lián)邦學(xué)習(xí)使多方能夠在不交流本地數(shù)據(jù)的情況下協(xié)作訓(xùn)練機(jī)器學(xué)習(xí)模型。 聯(lián)邦學(xué)習(xí)的一個關(guān)鍵挑戰(zhàn)是處理各方本地數(shù)據(jù)分布的異質(zhì)性。 盡管已經(jīng)提出了許多研究來應(yīng)對這一挑戰(zhàn),但我們發(fā)現(xiàn)它們無法在具有深度學(xué)習(xí)模型的圖像數(shù)據(jù)集中實現(xiàn)高性能。 在本文中,我們提出了 MOON:模型對比聯(lián)邦學(xué)習(xí)。 MOON 是一個簡單而 有效的聯(lián)邦學(xué)習(xí)框架。 MOON 的關(guān)鍵思想是利用模型表示之間的相似性來糾正各個方的局部訓(xùn)練,即在模型級別進(jìn)行對比學(xué)習(xí)。 我們的大量實驗表明,MOON 在各種圖像分類任務(wù)上明顯優(yōu)于其他最先進(jìn)的聯(lián)邦學(xué)習(xí)算法。
1、簡介
深度學(xué)習(xí)需要數(shù)據(jù)。模型訓(xùn)練可以從大型且具有代表性的數(shù)據(jù)集(例如 ImageNet [6] 和 COCO [31])中受益很多。然而,數(shù)據(jù)在實踐中通常分散在不同的各方(例如,移動設(shè)備和公司)之間。由于越來越多的隱私問題和數(shù)據(jù)保護(hù)法規(guī) [40],各方無法將他們的私人數(shù)據(jù)發(fā)送到中央服務(wù)器來訓(xùn)練模型。 為了解決上述挑戰(zhàn),聯(lián)邦學(xué)習(xí) [20, 44, 27, 26] 使多方能夠在不交換本地數(shù)據(jù)的情況下共同學(xué)習(xí)機(jī)器學(xué)習(xí)模型。 一種流行的聯(lián)邦學(xué)習(xí)算法是 FedAvg [34]。在每一輪 FedAvg 中,更新各方的本地模型被傳送到服務(wù)器,服務(wù)器進(jìn)一步聚合本地模型以更新全局模型。在學(xué)習(xí)過程中不交換原始數(shù)據(jù)。聯(lián)邦學(xué)習(xí)已經(jīng)成為一個重要的機(jī)器學(xué)習(xí)領(lǐng)域并吸引了許多研究興趣 [34, 28, 22, 25, 41, 5, 16, 2, 11]。此外,它已應(yīng)用于許多應(yīng)用,例如醫(yī)學(xué)成像 [21, 23]、物體檢測 [32] 和地標(biāo)分類 [15]。 聯(lián)邦學(xué)習(xí)的一個關(guān)鍵挑戰(zhàn)是不同方數(shù)據(jù)分布的異質(zhì)性 [20]。在許多實際應(yīng)用中,數(shù)據(jù)可能會在各方之間以不同的方式分布,這會降低聯(lián)邦學(xué)習(xí)的性能 [22, 29, 24]。當(dāng)各方更新其本地模型時,其本地目標(biāo)可能與全局目標(biāo)相距甚遠(yuǎn)。因此,平均全局模型遠(yuǎn)離全局最優(yōu)。有一些研究試圖解決本地訓(xùn)練階段的非 IID 問題 [28, 22]。 FedProx [28] 直接通過“2-范數(shù)距離”限制局部更新,而 SCAFFOLD [22] 通過方差減少 [19] 校正局部更新。 然而,正如我們在實驗中所展示的(參見第 4 節(jié)),這些方法無法在具有深度學(xué)習(xí)模型的圖像數(shù)據(jù)集上實現(xiàn)良好的性能,這可能與 FedAvg 一樣糟糕。
在這項工作中,我們基于直觀觀察從一個新穎的角度解決了非 IID 問題:在整個數(shù)據(jù)集上訓(xùn)練的全局模型能夠?qū)W習(xí)比在偏斜子集上訓(xùn)練的局部模型更好的表示。 具體來說,我們提出了模型對比學(xué)習(xí)(MOON),它通過最大化當(dāng)前局部模型學(xué)習(xí)的表示與全局模型學(xué)習(xí)的表示的一致性來糾正局部更新。 與傳統(tǒng)的對比學(xué)習(xí)方法 [3, 4, 12, 35] 通過比較不同圖像的表示在學(xué)習(xí)視覺表示方面達(dá)到最先進(jìn)的結(jié)果不同,MOON 通過比較表示在模型級別進(jìn)行對比學(xué)習(xí) 通過不同的模型學(xué)習(xí)。 總的來說,MOON 是一個簡單有效的聯(lián)邦學(xué)習(xí)框架,并且 通過基于模型的對比學(xué)習(xí)的新穎設(shè)計解決了非 IID 數(shù)據(jù)問題。
我們進(jìn)行了大量實驗來評估 MOON 的有效性。 MOON 在包括 CIFAR-10、CIFAR-100 和 Tiny-Imagenet 在內(nèi)的各種圖像分類數(shù)據(jù)集上明顯優(yōu)于其他最先進(jìn)的聯(lián)邦學(xué)習(xí)算法 [34、28、22]。 僅對 FedAvg 進(jìn)行輕量級修改,MOON 在大多數(shù)情況下比現(xiàn)有方法的準(zhǔn)確率至少高出 2%。 此外,在某些設(shè)置上,MOON 的改進(jìn)非常顯著。 例如,在 100 方的 CIFAR-100 數(shù)據(jù)集上,MOON 達(dá)到了 61.8% 的 top-1 準(zhǔn)確率,而現(xiàn)有研究的最佳 top-1 準(zhǔn)確率是 55%。
2、背景及相關(guān)工作
2.1.聯(lián)邦學(xué)習(xí)
FedAvg [34] 一直是聯(lián)邦學(xué)習(xí)的一種事實上的方法。 FedAvg的框架如圖1所示,每輪FedAvg有四個步驟。首先,服務(wù)器向各方發(fā)送一個全局模型。其次,雙方執(zhí)行隨機(jī)梯度下降 (SGD) 以在本地更新他們的模型。第三,本地模型被發(fā)送到中央服務(wù)器。最后,服務(wù)器對模型權(quán)重進(jìn)行平均以生成用于下一輪訓(xùn)練的全局模型。 有相當(dāng)多的研究試圖改進(jìn)非 IID 數(shù)據(jù)的 FedAvg。這些研究可以分為兩類:局部訓(xùn)練的改進(jìn)(即圖 1 的步驟 2)和聚合(即圖 1 的步驟 4)。 本研究屬于第一類。至于改進(jìn)本地培訓(xùn)的研究,FedProx [28] 在本地培訓(xùn)期間將近端項引入目標(biāo)。近端項是根據(jù)當(dāng)前全局模型和當(dāng)前全局模型之間的“2-范數(shù)距離”計算得出的。 本地模式。因此,局部模型更新在局部訓(xùn)練期間受到近端項的限制。 SCAFFOLD [22] 通過引入控制變量來糾正局部更新。與訓(xùn)練模型一樣,控制變量也在局部訓(xùn)練期間由各方更新。局部控制變量和全局控制變量之間的差異用于校正局部訓(xùn)練中的梯度。然而,FedProx 僅展示了多項邏輯回歸在 MNIST 和 EMNIST 上的實驗,而 SCAFFOLD 僅展示了帶有邏輯回歸和 2 層全連接層的 EMNIST 實驗。 FedProx 和 SCAFFOLD 在具有深度學(xué)習(xí)模型的圖像數(shù)據(jù)集上的有效性尚未得到很好的探索。正如我們的實驗所示,這些研究與 FedAvg 相比幾乎沒有優(yōu)勢,甚至沒有優(yōu)勢,這促使這項研究采用一種新的方法來處理具有深度學(xué)習(xí)模型的非 IID 圖像數(shù)據(jù)集。我們還注意到,在準(zhǔn)備這篇論文時,還有其他相關(guān)的當(dāng)代工作 [1, 30, 43]。我們將 MOON 與這些當(dāng)代作品之間的比較留作未來研究。 對于改進(jìn)聚合階段的研究,FedMA [41] 利用貝葉斯非參數(shù)方法以分層方式匹配和平均權(quán)重。 FedAvgM [14] 在更新服務(wù)器上的全局模型時應(yīng)用動量。最近的另一項研究 FedNova [42] 在平均之前對本地更新進(jìn)行了標(biāo)準(zhǔn)化。我們的研究與它們是正交的,當(dāng)我們在本地訓(xùn)練階段工作時,可能會與這些技術(shù)相結(jié)合。另一個研究方向是個性化聯(lián)邦學(xué)習(xí) [8, 7, 10, 47, 17],它試圖為每一方學(xué)習(xí)個性化的本地模型。在本文中,我們研究了典型的聯(lián)邦學(xué)習(xí),它試圖為所有各方學(xué)習(xí)一個單一的全局模型。
2.2.對比學(xué)習(xí)
自監(jiān)督學(xué)習(xí) [18, 9, 3, 4, 12, 35] 是最近的一個熱門研究方向,它試圖從未標(biāo)記的數(shù)據(jù)中學(xué)習(xí)良好的數(shù)據(jù)表示。在這些研究中,對比學(xué)習(xí)方法 [3, 4, 12, 35] 在學(xué)習(xí)視覺表示方面取得了最先進(jìn)的結(jié)果。對比學(xué)習(xí)的關(guān)鍵思想是減少同一圖像的不同增強視圖(即正對)的表示之間的距離,并增加不同圖像(即,負(fù)對)的增強視圖的表示之間的距離。一個典型的對比學(xué)習(xí)框架是 SimCLR [3]。給定圖像 x,SimCLR 首先使用不同的數(shù)據(jù)增強算子創(chuàng)建該圖像的兩個相關(guān)視圖,表示為xix_{i}xi?和xjx_{j}xj?。訓(xùn)練基本編碼器 f(·) 和投影頭 g(·) 分別提取表示向量并將表示映射到潛在空間。然后,對比損失(即 NT-Xent [38])應(yīng)用于投影向量 g(f(·)),它試圖最大化同一圖像的不同增強視圖之間的一致性。具體來說,給定 2N 個增強視圖和同一圖像的一對視圖 xix_{i}xi?和xjx_{j}xj?,這對的對比損失定義為
其中 sim(·;·) 是余弦相似度函數(shù),τ\tauτ 表示溫度參數(shù)。最終的損失是通過對小批量中相同圖像的所有對的對比損失求和來計算的。 除了 SimCLR,還有其他對比學(xué)習(xí)框架,如 CPC [36]、CMC [39] 和 MoCo [12]。我們選擇 SimCLR 是因為它在許多計算機(jī)視覺任務(wù)中的簡單性和有效性。盡管如此,對比學(xué)習(xí)的基本思想在這些研究中是相似的:從不同圖像獲得的表征應(yīng)該彼此遠(yuǎn)離,從同一圖像獲得的表征應(yīng)該彼此相關(guān)。這個想法很直觀,并且已被證明是有效的。 最近的一項研究 [46] 將聯(lián)邦學(xué)習(xí)與對比學(xué)習(xí)相結(jié)合。他們專注于無監(jiān)督學(xué)習(xí)環(huán)境。與 SimCLR 一樣,他們使用對比損失來比較不同圖像的表示。在本文中,我們專注于監(jiān)督學(xué)習(xí)設(shè)置并提出模型對比學(xué)習(xí)來比較不同模型學(xué)習(xí)的表示。
3. 模型對比聯(lián)邦學(xué)習(xí)
3.1. 問題陳述
假設(shè)有 N 個參與方,記為P1P_{1}P1?… PNP_{N}PN? 。 Party PiP_{i}Pi? 有一個本地數(shù)據(jù)集DiD^{i}Di。 我們的目標(biāo)是在中央服務(wù)器的幫助下,在數(shù)據(jù)集 D, Si2[N] Di 上學(xué)習(xí)機(jī)器學(xué)習(xí)模型 w,同時不交換原始數(shù)據(jù)。 目標(biāo)是解決
其中 Li(w) = E(x;y)~Di[‘i(w; (x; y))] 是 Pi 的經(jīng)驗損失。
3.2.動機(jī)
MOON 基于一個直觀的想法:在整個數(shù)據(jù)集上訓(xùn)練的模型能夠提取比在偏斜子集上訓(xùn)練的模型更好的特征表示。例如,給定一個在狗和貓圖像上訓(xùn)練的模型,我們不能期望模型學(xué)習(xí)到的特征能夠區(qū)分訓(xùn)練期間從未存在過的鳥類和青蛙。 為了進(jìn)一步驗證這種直覺,我們對 CIFAR-10 進(jìn)行了一個簡單的實驗。具體來說,我們首先在 CIFAR-10 上訓(xùn)練一個 CNN 模型(詳細(xì)結(jié)構(gòu)見第 4.1 節(jié))。我們使用 t-SNE [33] 來可視化來自測試數(shù)據(jù)集的圖像的隱藏向量,如圖 2a 所示。然后,我們以不平衡的方式將數(shù)據(jù)集劃分為 10 個子集(有關(guān)劃分策略,請參見第 4.1 節(jié))并在每個子集上訓(xùn)練一個 CNN 模型。圖 2b 顯示了 t-SNE 隨機(jī)選擇的模型的可視化。顯然,在子集上訓(xùn)練的模型學(xué)習(xí)的特征很差。大多數(shù)類的特征表示甚至是混合的,無法區(qū)分。然后,我們在 10 個子集上運行 FedAvg 算法,并在圖 2c 中顯示全局模型學(xué)習(xí)的表示和圖 2d 中選擇的局部模型(基于全局模型訓(xùn)練)學(xué)習(xí)的表示。我們可以觀察到,與圖 2c 相比,圖 2d 中具有相同類別的點更加發(fā)散(例如,參見第 9 類)。由于偏斜的局部數(shù)據(jù)分布,局部訓(xùn)練階段甚至導(dǎo)致模型學(xué)習(xí)到更糟糕的表示。這進(jìn)一步驗證了全局模型應(yīng)該能夠比局部模型學(xué)習(xí)更好的特征表示,并且局部更新存在漂移。因此,在非 IID 數(shù)據(jù)場景下,我們應(yīng)該控制漂移并彌合局部模型和全局模型學(xué)習(xí)的表示之間的差距。
3.3.方法
基于上述直覺,我們提出了 MOON。 MOON 被設(shè)計為一種基于 FedAvg 的簡單有效的方法,僅在本地訓(xùn)練階段引入輕量級但新穎的修改。由于局部訓(xùn)練總是存在漂移,全局模型學(xué)習(xí)到的表示比局部模型更好,MOON旨在減少局部模型學(xué)習(xí)到的表示與全局模型學(xué)習(xí)的表示之間的距離,并增加與局部模型學(xué)習(xí)的表示之間的距離。本地模型學(xué)習(xí)到的表示和之前的本地模型學(xué)習(xí)到的表示。我們從對比學(xué)習(xí)的靈感中實現(xiàn)了這一點,對比學(xué)習(xí)現(xiàn)在主要用于學(xué)習(xí)視覺表示。下面,我們介紹網(wǎng)絡(luò)架構(gòu)、本地學(xué)習(xí)目標(biāo)和學(xué)習(xí)過程。最后,我們討論了對比學(xué)習(xí)的關(guān)系。
3.3.1 網(wǎng)絡(luò)架構(gòu)
該網(wǎng)絡(luò)由三個組件組成:基本編碼器、投影頭和輸出層。 基本編碼器用于從輸入中提取表示向量。 像[3]一樣,引入了一個額外的投影頭來將表示映射到具有固定維度的空間。 最后,當(dāng)我們研究監(jiān)督設(shè)置時,輸出層用于為每個類生成預(yù)測值。 為了便于表示,使用模型權(quán)重 w,我們使用 Fw(·) 表示整個網(wǎng)絡(luò),使用 Rw(·) 表示輸出層之前的網(wǎng)絡(luò)(即,Rw(x) 是輸入 x 的映射表示向量)
3.3.2 局部目標(biāo)
如圖 3 所示,我們的局部損失由兩部分組成。 第一部分是監(jiān)督學(xué)習(xí)中的典型損失項(例如交叉熵?fù)p失),表示為“sup”。 第二部分是我們提出的模型對比損失項,表示為“con”。 假設(shè)派派正在進(jìn)行本地培訓(xùn)。 它從服務(wù)器接收全局模型 wt 并在本地訓(xùn)練階段將模型更新為 wt i。 對于每個輸入 x,我們從全局模型 wt(即 zglob = Rwt(x))中提取 x 的表示,從上一輪 wt?1 i 的局部模型中提取 x 的表示(即 zprev = Rwt?1 i (x)),以及來自正在更新的本地模型的 x 表示 w i(即 z = Rwt i (x))。 由于全局模型應(yīng)該能夠提取更好的表示,我們的目標(biāo)是減少 z 和 zglob 之間的距離,并增加 z 和 z prev 之間的距離。 與 NT-Xent 損失 [38] 類似,我們將模型對比損失定義為
其中 τ 表示溫度參數(shù)。 aninput (x; y) 的損失由下式計算
其中 μ 是控制模型對比損失權(quán)重的超參數(shù)。 局部目標(biāo)是最小化
整體的聯(lián)邦學(xué)習(xí)算法如算法1所示。在每一輪中,服務(wù)器向各方發(fā)送全局模型,從各方接收本地模型,并使用加權(quán)平均更新全局模型。 在局部訓(xùn)練中,每一方使用隨機(jī)梯度下降用其局部數(shù)據(jù)更新全局模型,而目標(biāo)在等式中定義。 (5).
為簡單起見,我們在算法 1 中不應(yīng)用采樣技術(shù)來描述 MOON。當(dāng)每輪只有一組樣本方參與聯(lián)邦學(xué)習(xí)時,MOON 仍然適用。 與 FedAvg 一樣,每一方都維護(hù)其本地模型,該模型將被全局模型取代,并且只有在該方被選中參與一輪時才會更新。 MOON 只需要該方擁有的最新本地模型,即使它可能不會在第 (t-1) 輪中更新(例如,wt-1 i = wit-2)。
值得注意的是,考慮到理想情況下局部模型足夠好并且學(xué)習(xí)(幾乎)與全局模型相同的表示(即 zglob = zprev),模型對比損失將是一個常數(shù)(即 - log 1 2)。 因此,MOON 將產(chǎn)生與 FedAvg 相同的結(jié)果,因為不存在異質(zhì)性問題。 從這個意義上說,無論漂移量如何,我們的方法都是穩(wěn)健的。
3.4. 與對比學(xué)習(xí)的比較
MOON 和 SimCLR 之間的比較如圖 4 所示。模型對比損失比較了不同模型學(xué)習(xí)的表示,而對比損失比較了不同圖像的表示。 我們還強調(diào)了 MOON 與傳統(tǒng)對比學(xué)習(xí)之間的主要區(qū)別:MOON 目前用于聯(lián)邦環(huán)境中的監(jiān)督學(xué)習(xí),而對比學(xué)習(xí)用于集中環(huán)境中的無監(jiān)督學(xué)習(xí)。 從對比學(xué)習(xí)中汲取靈感,MOON 是一種新的學(xué)習(xí)方法,用于處理聯(lián)邦學(xué)習(xí)中各方之間的非 IID 數(shù)據(jù)分布。
4. 實驗
4.1. 實驗裝置
我們將 MOON 與三種最先進(jìn)的方法進(jìn)行比較,包括 (1) FedAvg [34]、(2) FedProx [28] 和 (3) SCAFFOLD [22]。我們還比較了一種名為 SOLO 的基線方法,其中每一方都使用其本地數(shù)據(jù)訓(xùn)練模型,而無需聯(lián)合學(xué)習(xí)。我們在三個數(shù)據(jù)集上進(jìn)行了實驗,包括 CIFAR-10、CIFAR-100 和 Tiny-Imagenet1(100,000 張圖像,200 個類別)。此外,我們嘗試了兩種不同的網(wǎng)絡(luò)架構(gòu)。對于 CIFAR-10,我們使用 CNN 網(wǎng)絡(luò)作為基本編碼器,它有兩個 5x5 卷積層,然后是 2x2 最大池化(第一個具有 6 個通道,第二個具有 16 個通道)和兩個具有 ReLU 激活的全連接層(第一個120 個單位,第二個單位為 84 個單位)。對于 CIFAR-100 和 Tiny-Imagenet,我們使用 ResNet-50 [13] 作為基本編碼器。對于所有數(shù)據(jù)集,如 [3],我們使用 2 層 MLP 作為投影頭。投影頭的輸出尺寸默認(rèn)設(shè)置為256。請注意,為了公平比較,所有基線都使用與 MOON 相同的網(wǎng)絡(luò)架構(gòu)(包括投影頭)。
我們使用 PyTorch [37] 來實現(xiàn) MOON 和其他基線。該代碼是公開可用的2。我們對所有方法使用學(xué)習(xí)率為 0.01 的 SGD 優(yōu)化器。 SGD 權(quán)重衰減設(shè)置為 0.00001,SGD 動量設(shè)置為 0.9。批量大小設(shè)置為 64。 SOLO 的本地 epoch 數(shù)設(shè)置為 300。除非明確指定,否則所有聯(lián)合學(xué)習(xí)方法的本地 epoch 數(shù)都設(shè)置為 10。 CIFAR-10/100 的通信輪數(shù)設(shè)置為 100,Tiny-ImageNet 的通信輪數(shù)設(shè)置為 20,其中所有聯(lián)合學(xué)習(xí)方法在更多通信時幾乎沒有或沒有準(zhǔn)確度增益。對于 MOON,我們將溫度參數(shù)默認(rèn)設(shè)置為 0.5,如 [3]。
與之前的研究 [45, 41] 一樣,我們使用 Dirichlet 分布來生成各方之間的非 IID 數(shù)據(jù)分區(qū)。具體來說,我們對 pk ~ DirN(β) 進(jìn)行采樣,并將 k 類實例的 pk;j 比例分配給第 j 方,其中 Dir(β) 是具有濃度參數(shù) β(默認(rèn)為 0.5)的狄利克雷分布。通過上述劃分策略,每一方在某些類別中可以擁有相對較少(甚至沒有)的數(shù)據(jù)樣本。默認(rèn)情況下,我們將參與方的數(shù)量設(shè)置為 10。默認(rèn)設(shè)置下各方的數(shù)據(jù)分布如圖5所示,更多實驗結(jié)果請參考附錄。
4.2. 精度比較
對于 MOON,我們從 f0:1 調(diào)整 μ; 1; 5; 10g并報告最佳結(jié)果。 CIFAR-10、CIFAR-100 和 Tiny-Imagenet 的最佳 MOON μ 分別為 5、1 和 1。 請注意,FedProx 還有一個超參數(shù) μ 來控制其近端項的權(quán)重(即 LF edP rox = ‘F edAvg + μ‘prox)。 對于 FedProx,我們從 f0:001 調(diào)整 μ; 0:01; 0:1; 1g(范圍也在之前的論文[28]中使用)并報告最佳結(jié)果。 用于 CIFAR-10、CIFAR-100 和 Tiny-Imagenet 的 FedProx 的最佳 μ 分別為 0:01、0:001 和 0:001。 除非明確指定,否則我們將這些 μ 設(shè)置用于所有剩余的實驗。
表 1 顯示了具有上述默認(rèn)設(shè)置的所有方法的 top-1 測試精度。 在非 IID 設(shè)置下,SOLO 表現(xiàn)出比其他聯(lián)邦學(xué)習(xí)方法差得多的準(zhǔn)確性。 這證明了聯(lián)邦學(xué)習(xí)的好處。 比較不同的聯(lián)邦學(xué)習(xí)方法,我們可以觀察到 MOON 始終是所有任務(wù)中最好的方法。 它可以在所有任務(wù)的平均準(zhǔn)確率上超過 FedAvg 2.6%。 對于 FedProx,其準(zhǔn)確性非常接近 FedAvg。 FedProx 中的近端項對訓(xùn)練幾乎沒有影響,因為 μ 很小。 但是,當(dāng) μ 沒有設(shè)置為非常小的值時,FedProx 的收斂速度非常慢(參見第 4.3 節(jié)),并且 FedProx 的準(zhǔn)確性很差。 對于 SCAFFOLD,它在 CIFAR-100 和 Tiny-Imagenet 上的準(zhǔn)確度比其他聯(lián)邦學(xué)習(xí)方法要差得多。
4.3.溝通效率
圖 6 顯示了訓(xùn)練期間每一輪的準(zhǔn)確率。正如我們所看到的,模型對比損失項對最佳 μ 的收斂速度幾乎沒有影響。 MOON 的準(zhǔn)確率提升速度與開始時的 FedAvg 幾乎相同,但后期可以從模型對比損失中獲得更好的準(zhǔn)確率。由于 FedProx 中的最佳 μ 值通常較小,因此具有最佳 μ 的 FedProx 非常接近 FedAvg,尤其是在 CIFAR-10 和 CIFAR-100 上。然而,當(dāng)設(shè)置 μ = 1 時,由于附加的近端項,FedProx 變得非常慢。這意味著限制局部模型和全局模型之間的“2-范數(shù)距離”不是有效的解決方案。我們的模型對比損失可以在不減慢收斂速度的情況下有效提高準(zhǔn)確性。
我們在表 2 中顯示了與在 CIFAR-10/100 上運行 FedAvg 100 輪或在 Tiny-Imagenet 上運行 20 輪相同精度的通信輪數(shù)。我們可以觀察到,在 MOON 中通信輪數(shù)顯著減少。月亮
與 FedAvg 相比,在 CIFAR-100 和 Tiny-Imagenet 上需要大約一半的通信輪數(shù)。在 CIFAR-10 上,MOON 的加速比甚至接近 4。MOON 的通信效率比其他方法高得多。
4.4.本地時代的數(shù)量
我們研究了局部時期數(shù)對最終模型準(zhǔn)確性的影響。結(jié)果如圖7所示,當(dāng)local epochs為1時,local update很小。因此,在通信輪數(shù)相同的情況下,訓(xùn)練速度較慢,準(zhǔn)確度相對較低。所有方法都具有接近的準(zhǔn)確性(MOON 仍然是最好的)。當(dāng)局部 epoch 數(shù)變得太大時,所有方法的準(zhǔn)確度都會下降,這是由于局部更新的漂移,即局部最優(yōu)與全局最優(yōu)不一致。盡管如此,MOON 顯然優(yōu)于其他方法。這進(jìn)一步驗證了 MOON 可以有效減輕過多局部更新帶來的漂移的負(fù)面影響。
4.5.可擴(kuò)展性
為了展示 MOON 的可擴(kuò)展性,我們在 CIFAR-100 上嘗試了更多的參與方。具體來說,我們嘗試了兩種設(shè)置:(1)我們將數(shù)據(jù)集劃分為 50 方,每一方都參與聯(lián)邦學(xué)習(xí)。 (2) 我們將數(shù)據(jù)集劃分為 100 方,每輪隨機(jī)抽取 20 方參與聯(lián)邦學(xué)習(xí)(FedAvg [34] 中引入的客戶端采樣技術(shù))。這
結(jié)果顯示在表 3 和圖 8 中。對于 MOON,我們顯示了 μ = 1(第 4.2 節(jié)中的最佳 μ)和 μ = 10 的結(jié)果。對于 MOON (μ = 1),它的性能優(yōu)于 FedAvg 和 FedProx 超過 2% 50 方的 200 輪準(zhǔn)確率和 100 方的 500 輪準(zhǔn)確率 3%。此外,對于 MOON (μ = 10),雖然大的模型對比損失在開始時減慢了訓(xùn)練速度,如圖 8 所示,但 MOON 可以通過更多的通信輪次遠(yuǎn)遠(yuǎn)優(yōu)于其他方法。與 FedAvg 和 FedProx 相比,MOON 在 50 方的 200 輪和 100 方的 500 輪時的準(zhǔn)確率提高了約 7%。 SCAFFOLD 的準(zhǔn)確性較低,參與方相對較多。
4.6. 異質(zhì)性
我們通過改變 Dirichlet 分布的濃度參數(shù) β 來研究數(shù)據(jù)異質(zhì)性對 CIFAR-100 的影響。 對于較小的β,分區(qū)將更加不平衡。 結(jié)果如表 4 所示。 MOON 在三個不平衡級別中始終達(dá)到最佳精度。當(dāng)不平衡級別降低時(即 β = 5),FedProx 比 FedAvg 差,而 MOON 仍然以 2% 以上的精度優(yōu)于 FedAvg。 實驗證明了 MOON 的有效性和魯棒性。
4.7.損失函數(shù)
為了最大化全局模型學(xué)習(xí)到的表示與局部模型學(xué)習(xí)到的表示之間的一致性,我們的模型對比損失’con 是受 NT-Xent 損失 [3] 的啟發(fā)而提出的。另一個直觀的選擇是使用‘2正則化,局部損失為
‘ = ‘
sup + μ kz ? zglobk2 (6)
在這里,我們比較了使用不同類型的損失函數(shù)來限制表示的方法:沒有附加項(即 FedAvg:L = ‘sup)、‘2 范數(shù)和我們的模型對比損失。結(jié)果如表 5 所示。我們可以觀察到,與 CIFAR-10 上的 FedAvg 相比,僅使用 2 范數(shù)甚至無法提高準(zhǔn)確性。使用‘2范數(shù)可以提高在 CIFAR-100 和
Tiny-Imagenet,準(zhǔn)確率還是低于MOON。我們的模型對比損失是約束表示的有效方法。
我們的模型對比損失從兩個方面影響局部模型。首先,局部模型學(xué)習(xí)到全局模型的近似表示。其次,局部模型也學(xué)習(xí)到比前一個更好的表示,直到局部模型足夠好(即 z = zglob 并且“con”成為一個常數(shù))。
5. 結(jié)論
聯(lián)邦學(xué)習(xí)已成為解決醫(yī)學(xué)成像、對象檢測和地標(biāo)分類等許多領(lǐng)域中數(shù)據(jù)孤島難題的一種很有前途的方法。非 IID 是聯(lián)邦學(xué)習(xí)有效性的關(guān)鍵挑戰(zhàn)。為了提高聯(lián)合深度學(xué)習(xí)模型在非 IID 數(shù)據(jù)集上的性能,我們提出了模型對比學(xué)習(xí) (MOON),這是一種簡單有效的聯(lián)合學(xué)習(xí)方法。 MOON 引入了一個新的學(xué)習(xí)概念,即模型級的對比學(xué)習(xí)。我們廣泛的實驗表明,在各種圖像分類任務(wù)上,MOON 比最先進(jìn)的方法取得了顯著的改進(jìn)。由于 MOON 不要求輸入為圖像,因此它可能適用于非視覺問題。
致謝
這項研究由新加坡國家研究基金會根據(jù)其人工智能新加坡計劃(AISG 獎號:AISG2-RP-2020-018)提供支持。本材料中表達(dá)的任何意見、發(fā)現(xiàn)和結(jié)論或建議均為作者的觀點,并不反映新加坡國家研究基金會的觀點。感謝Jianxin Wu、Chaoyang He、Shixuan Sun、Yaqi Xie 和 Yuhang Chen 的反饋。作者還要感謝趙玉志、王偉和莫莎對計算資源的支持。
總結(jié)
以上是生活随笔為你收集整理的(Model-Contrastive Federated Learning)模型对比联邦学习的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: GP232RL与FT232RL操作区别
- 下一篇: 向国外发送邮件用什么邮箱?