【论文导读】Selecting Data Augmentation for Simulating Interventions
這一篇從數(shù)據(jù)增強(qiáng)的角度切入因果AI,主要處理的也是OOD generalization的問題
目錄
【摘要】
【Introduction】
【Method】
2.2. 基于因果關(guān)系的領(lǐng)域泛化和數(shù)據(jù)擴(kuò)充
2.3. 模擬的干預(yù)措施
2.4.?為域泛化選擇數(shù)據(jù)擴(kuò)充
【摘要】
用純粹的觀察數(shù)據(jù)和經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化原則(Vapnik, 1992)訓(xùn)練的機(jī)器學(xué)習(xí)模型可能無法推廣到看不見的領(lǐng)域。在這篇論文中,我們關(guān)注的是由于觀測域和實(shí)際任務(wù)標(biāo)簽之間的虛假關(guān)聯(lián)而產(chǎn)生的問題。我們發(fā)現(xiàn)許多域泛化方法并沒有明確地考慮到這種偽相關(guān)。相反,特別是在更面向應(yīng)用的研究領(lǐng)域,如醫(yī)學(xué)成像或機(jī)器人,基于啟發(fā)式的數(shù)據(jù)增強(qiáng)技術(shù)被用于學(xué)習(xí)領(lǐng)域不變特征。為了彌合理論和實(shí)踐之間的差距,我們對領(lǐng)域泛化問題發(fā)展了一個(gè)因果觀點(diǎn)。我們認(rèn)為因果概念可以通過描述它們?nèi)绾蜗魅跤^察域和任務(wù)標(biāo)簽之間的虛假相關(guān)性來解釋數(shù)據(jù)增強(qiáng)的成功。我們證明了數(shù)據(jù)增強(qiáng)可以作為模擬介入數(shù)據(jù)的工具。我們使用這些理論見解來推導(dǎo)出一個(gè)簡單的算法,該算法能夠選擇數(shù)據(jù)增強(qiáng)技術(shù),從而實(shí)現(xiàn)更好的領(lǐng)域泛化。
【Introduction】
盡管在深度學(xué)習(xí)的推動下,機(jī)器學(xué)習(xí)最近取得了進(jìn)步,但Azulay和Weiss(2019)等研究表明,深度學(xué)習(xí)方法可能無法推廣到訓(xùn)練分布之外的輸入。然而,在醫(yī)療成像、機(jī)器人和自動駕駛汽車等安全關(guān)鍵領(lǐng)域,機(jī)器學(xué)習(xí)模型對環(huán)境變化的魯棒性至關(guān)重要。如果沒有概括的能力,機(jī)器學(xué)習(xí)模型就不能安全地部署在現(xiàn)實(shí)世界中。
在域泛化領(lǐng)域,人們試圖找到一種跨不同環(huán)境(稱為域)進(jìn)行泛化的表示,每個(gè)環(huán)境的輸入具有不同的移位。當(dāng)域中的更改與實(shí)際任務(wù)標(biāo)簽中的更改偽關(guān)聯(lián)時(shí),這個(gè)問題尤其具有挑戰(zhàn)性。例如,當(dāng)數(shù)據(jù)收集過程有偏差時(shí)就會發(fā)生這種情況。Arjovsky等人舉了一個(gè)例子(2019):如果我們考慮奶牛和駱駝在其自然棲息地的圖像數(shù)據(jù)集,那么動物類型和圖像中的景觀之間存在很強(qiáng)的相關(guān)性,例如,一只站在沙漠中的駱駝。如果我們現(xiàn)在訓(xùn)練一個(gè)機(jī)器學(xué)習(xí)模型來預(yù)測給定圖像中的動物,該模型很容易利用動物類型和景觀類型之間的虛假相關(guān)性。因此,該模型可能無法識別站在綠色牧場上的駱駝或站在沙漠中的奶牛。
近年來,一個(gè)大型的方法語料庫被設(shè)計(jì)用來學(xué)習(xí)跨領(lǐng)域泛化的表示。雖然所提出的方法能夠在各種領(lǐng)域泛化基準(zhǔn)上取得良好的結(jié)果,但大多數(shù)方法都缺乏理論基礎(chǔ)。在最壞的情況下,這些方法強(qiáng)制執(zhí)行錯(cuò)誤類型的不變性,如附錄A.6.1所示。有趣的是,我們發(fā)現(xiàn),特別是在更多的應(yīng)用領(lǐng)域,如醫(yī)學(xué)成像和機(jī)器人,研究人員已經(jīng)找到了一種實(shí)用的方法來處理領(lǐng)域和實(shí)際任務(wù)之間的虛假相關(guān)性。數(shù)據(jù)增強(qiáng)結(jié)合經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化(ERM) (Vapnik, 1992)被用來加強(qiáng)機(jī)器學(xué)習(xí)模型在領(lǐng)域變化方面的不變性。因此,利用先驗(yàn)知識來指導(dǎo)選擇合適的數(shù)據(jù)增強(qiáng)方法。在附錄a .7.1中,我們詳細(xì)總結(jié)了兩個(gè)成功的數(shù)據(jù)應(yīng)用。
然而,數(shù)據(jù)增強(qiáng)的成功往往被描述為“人為擴(kuò)展標(biāo)記訓(xùn)練數(shù)據(jù)集”(Li, 2020)和“減少過擬合”(Krizhevsky等人,2012)等模糊的術(shù)語。在本文中,我們提出了領(lǐng)域泛化背景下的數(shù)據(jù)增強(qiáng)的因果視角,并以以下方式對該領(lǐng)域做出了貢獻(xiàn):
1.首先,我們引入了干預(yù)增強(qiáng)方差(intervention augmentation equivariance?)的概念,它形式化了數(shù)據(jù)增強(qiáng)和領(lǐng)域特征上的干預(yù)之間的關(guān)系。我們表明,如果干預(yù)-增強(qiáng)等方差成立,我們可以使用數(shù)據(jù)增強(qiáng)來成功地模擬僅使用觀測數(shù)據(jù)的干預(yù)。
2.其次,我們推導(dǎo)出一個(gè)簡單的算法,該算法能夠從給定的轉(zhuǎn)換列表中選擇數(shù)據(jù)增強(qiáng)技術(shù)。我們將我們的方法與各種領(lǐng)域泛化方法在三個(gè)領(lǐng)域泛化基準(zhǔn)上進(jìn)行比較。我們證明了我們能夠始終優(yōu)于所有其他方法。
【Method】
2.1 Domain generalization
我們首先按照Muandet等人(2013)中使用的符號將域泛化問題形式化。我們假設(shè)在訓(xùn)練過程中,我們從N個(gè)不同的域訪問樣本S,其中。每個(gè)域的n_i個(gè)樣本包含在訓(xùn)練集中。訓(xùn)練數(shù)據(jù)被表示為從p(x, y, d)觀測分布中采樣的元組(x, y, d)。域泛化的目標(biāo)是開發(fā)能夠很好地泛化到不可見域的機(jī)器學(xué)習(xí)方法。為了測試機(jī)器學(xué)習(xí)模型的泛化能力,我們使用樣本,來自一個(gè)之前不可見的測試域d=N+1。
在本文中,我們對觀察域d和目標(biāo)y在訓(xùn)練數(shù)據(jù)集中虛假相關(guān)的一般情況感興趣,即,我們可能有p(y|d = i) != p(y|d = j), i, j∈{1,…N}。由于d和y之間的相關(guān)性被假設(shè)為虛假的,它不一定對測試域d = N + 1成立。
2.2. 基于因果關(guān)系的領(lǐng)域泛化和數(shù)據(jù)擴(kuò)充
對于不熟悉因果關(guān)系概念的讀者,可以在附錄a .5中簡單介紹全文中使用的因果概念。如需深入介紹,請參閱Pearl(2009)或Peters等人(2017)。
首先,我們引入了一個(gè)結(jié)構(gòu)因果模型(SCM),以描述我們認(rèn)為在許多情況下反映了域泛化問題的潛在因果結(jié)構(gòu)。SCM如圖1(右)所示,其中c是一個(gè)隱藏的混雜因素(和一個(gè)外生變量),d是域,(d就是我們想要去除的confounder,)y是目標(biāo),hd高級特征,如顏色和方向,由d引起,hy高級特征,如形狀和紋理,由y引起,x是輸入。為了清晰起見,我們省略了噪聲變量。對應(yīng)的有向無環(huán)圖(DAG)如圖1(左)所示,其中灰色節(jié)點(diǎn)表示變量被觀察到,白色節(jié)點(diǎn)對應(yīng)潛在(未觀察到)變量。提出的DAG與Subbaswamy & Saria(2019)和Castro等人(2019)構(gòu)建的DAG類似。在圖1中,節(jié)點(diǎn)c是一個(gè)隱藏的混雜器。隱藏的混雜因素c打開一條后門路徑(非因果路徑)d←?c?→y (Pearl, 2009)。這條路徑允許d通過后門進(jìn)入y。
因此,定義域d和目標(biāo)y一般不再獨(dú)立,p(y, d) != p(y)p(d)。由于高級特征hd是d的子特征,它們也與y虛假相關(guān),即hd成為y的預(yù)測。我們現(xiàn)在假設(shè)我們使用ERM (Vapnik, 1992)和圖1中DAG產(chǎn)生的觀察數(shù)據(jù)來訓(xùn)練機(jī)器學(xué)習(xí)模型。我們的任務(wù)是從x中預(yù)測y,這本身是反因果的。由于d和y是相關(guān)的,所以機(jī)器學(xué)習(xí)模型很可能會依賴于所有的高級特征hd和hy來預(yù)測y,此外,我們假設(shè)d和y的相關(guān)是虛假的。因此,在一般情況下不會保持,在干預(yù)下會打破。因此,依賴于由d引起的高級特征hd的機(jī)器學(xué)習(xí)模型很可能無法推廣到不可見的領(lǐng)域。回到我們對圖像中的動物進(jìn)行分類的介紹性例子,隱藏的混雜器可以用來模擬這樣一個(gè)事實(shí):動物的類型和圖像中的景觀有一個(gè)共同的原因。例如,混淆器可以是某張照片拍攝的國家,例如,在瑞士,我們更有可能看到一頭奶牛站在綠色的牧場上,而不是駱駝或沙漠。
2.3. 模擬的干預(yù)措施
處理d和y之間虛假相關(guān)的一種可能的方法是對d執(zhí)行干預(yù)。這樣的干預(yù)將使d和y獨(dú)立,即p(y|do(d)) = p(y)。在圖2(左)中,我們看到與圖1相同的DAG,但在我們干預(yù)d之后。我們發(fā)現(xiàn)在圖2(左)中,沒有更多的箭頭連接隱藏的混淆器c和域d。后門路徑d←?c?→y已經(jīng)消失。在動物和景觀的例子中,為了干預(yù)景觀,我們必須把一頭牛搬到沙漠中。很明顯,這些干預(yù)必須發(fā)生在現(xiàn)實(shí)世界中,而不是對已經(jīng)收集到的觀察數(shù)據(jù)進(jìn)行操作。在大多數(shù)領(lǐng)域泛化問題中,用特定的干預(yù)措施來收集新數(shù)據(jù)是不可行的。
在圖2(中間)中,我們展示了解決變量d和y相關(guān)問題的第二種方法。理論上,我們可以對所有高級特征hd進(jìn)行干預(yù),即do(hd),因?yàn)閐只通過hd間接影響x,在我們的例子中,hd可以代表景觀的顏色和紋理。同樣,在現(xiàn)實(shí)世界的數(shù)據(jù)收集過程中需要進(jìn)行這樣的干預(yù),例如,將沙子移到牧場。
然而,我們認(rèn)為在某些情況下,我們可以利用數(shù)據(jù)增強(qiáng)結(jié)合觀測數(shù)據(jù)來模擬介入分布p(x, y|do(hd))的數(shù)據(jù)。例如,我們可以隨機(jī)打亂動物圖像中的顏色。這種類型的增強(qiáng)在hd上模擬了一種噪聲干預(yù),即do(h_d = ξ),其中ξ從噪聲分布N_ξ中采樣(Peters等人,2016)。
理論上,我們可以通過將h_d設(shè)置為固定值來干預(yù)h_d,而不是執(zhí)行噪聲干預(yù)。然而,為了使用數(shù)據(jù)增強(qiáng)來模擬這種干涉分布的數(shù)據(jù),我們需要觀察h_d,而我們認(rèn)為一般無法觀測h_d。在附錄a .7.1中,我們描述了現(xiàn)有的數(shù)據(jù)增強(qiáng)方法,在將所有樣本的h_d設(shè)置為固定值之前,試圖推斷每個(gè)樣本x的h_d,但這些增強(qiáng)似乎比隨機(jī)抽樣增強(qiáng)效果更差。
通過只增加由d引起的高級特征h_d,我們保證目標(biāo)y和特征hy不變。數(shù)據(jù)增強(qiáng)后,(, y)應(yīng)該與介入分布p(x, y|do(h_d))中的樣本非常相似。在圖2(右)中,我們看到我們只需要DAG的觀察數(shù)據(jù),不需要任何干預(yù)。雖然每個(gè)增強(qiáng)樣本單獨(dú)可以被視為反事實(shí),但我們認(rèn)為,通過從每個(gè)x生成大量的增強(qiáng)樣本xaug,我們有效地邊緣化了反事實(shí)分布。我們認(rèn)為,對于正確選擇的數(shù)據(jù)增強(qiáng),我們無法區(qū)分圖2中三種模型中任何一種生成的數(shù)據(jù)。
如果我們選擇數(shù)據(jù)增強(qiáng) = aug(x),作為應(yīng)用于觀察數(shù)據(jù)x的轉(zhuǎn)換aug(·),以模擬d對高階特征hd的干預(yù),我們需要對數(shù)據(jù)的因果生成過程做出假設(shè)。正式地說,我們要求將數(shù)據(jù)x擴(kuò)展為 = aug(x) 和在生成數(shù)據(jù)之前使用干預(yù)do(hd)的操作是交換的(Formally, we require that augmenting the data x to xaug = aug(x) commutes with an intervention do(hd) prior to the data generation.)。我們稱之為干預(yù)增強(qiáng)方差(intervention-augmentation equivariance)。更詳細(xì)地說,假設(shè)我們從方程式1中得到因果過程:。然后通過aug(·)增加x:
(2)
如果對于X∈X上的每個(gè)考慮的隨機(jī)數(shù)據(jù)增強(qiáng)變換aug(·),我們在Hd∈Hd上有相應(yīng)的噪聲干預(yù)do(·),則我們可以說因果過程是干預(yù)-增強(qiáng)的等變(ntervention-augmentation equivarian),例如:
。(3)
干涉-增強(qiáng)等方差在圖3中用交換圖表示。我們認(rèn)為我們首先需要通過 對真正的因果過程做出強(qiáng)有力的假設(shè)識別由d引起的高層次特征hd。其次,我們必須選擇數(shù)據(jù)增強(qiáng)aug(x)使得在因果過程fX(hd, hy)下與相應(yīng)的干預(yù)do(hd)可交換。干涉-增強(qiáng)方差的特殊情況出現(xiàn)在G等變圖fX的經(jīng)典情況(in the classical case of an G-equivariant map fX)中,其中G可以是任何(半)群。為此,我們需要G作用于Hy, Hd, X空間,我們需要確保G作用于Hy空間。因此,任何元素g∈G都可以將元素X∈X轉(zhuǎn)換為g·X∈X,我們將其解釋為數(shù)據(jù)增強(qiáng),如第4節(jié)所示。元素g∈G也將hd∈hd轉(zhuǎn)化為g·hd∈hd,我們認(rèn)為這是一種特殊的介入類型。此外,我們假設(shè)hy∈Hy對于所有g(shù)∈G都保持固定g·hy = hy,因此我們放入:
,(4)
,(5)
其中,我們假設(shè)元素g∈G是從G上的某個(gè)分布p(g)中隨機(jī)抽樣的。在這種情況下,任何G-等變的圖fX都會自動地保持干涉-增強(qiáng)等變,如下所示:
?一個(gè)干涉-增強(qiáng)等方差的線性例子可以在附錄中找到。
一般來說,我們發(fā)現(xiàn)大多數(shù)經(jīng)常使用的數(shù)據(jù)增強(qiáng)都可以表示為簡單的群作用(group actions)。例如,對輸入圖像x進(jìn)行隨機(jī)旋轉(zhuǎn),可以理解為對二維旋轉(zhuǎn)組SO(2)中的元素g進(jìn)行隨機(jī)采樣,并將其應(yīng)用在二維像素網(wǎng)格上。隨機(jī)改變圖像x的色調(diào)對應(yīng)于從二維旋轉(zhuǎn)組SO(2)中隨機(jī)采樣并應(yīng)用元素g,因?yàn)樯{(diào)可以表示為顏色空間中的一個(gè)角度。對圖像x的顏色通道應(yīng)用隨機(jī)排列,在三個(gè)獨(dú)立顏色通道的情況下,相當(dāng)于對排列組S3中的元素g進(jìn)行隨機(jī)抽樣并應(yīng)用。
2.4.?為域泛化選擇數(shù)據(jù)擴(kuò)充
Selecting data augmentations for domain generalization
在圖2(中間)中,我們可以看到如果我們成功地使用數(shù)據(jù)增強(qiáng)在hd上模擬干預(yù),那么從d到hd的箭頭就會消失。基于這一理論見解,我們提出了一種算法,該算法能夠選擇能夠改善領(lǐng)域泛化的數(shù)據(jù)增強(qiáng)技術(shù),而不是手動選擇它們。下面我們將把這種算法稱為選擇數(shù)據(jù)增強(qiáng)(Select Data Augmentation, SDA)。與Cubuk等人(2019)類似,我們從一系列數(shù)據(jù)增強(qiáng)技術(shù)開始,包括:“亮度”、“對比度”、“飽和度”、“色調(diào)”、“旋轉(zhuǎn)”、“平移”、“縮放”、“剪切”、“垂直翻轉(zhuǎn)”和“水平翻轉(zhuǎn)”。由于這些轉(zhuǎn)換不相互影響,因此可以分別對它們進(jìn)行測試。每個(gè)增強(qiáng)的超參數(shù)可以在附錄中找到。本文提出的SDA算法包括三個(gè)步驟:
1.我們將訓(xùn)練域中的所有樣本分成一個(gè)訓(xùn)練和驗(yàn)證集。
2. 我們訓(xùn)練分類器來從輸入x預(yù)測域d。在訓(xùn)練過程中,我們對訓(xùn)練集的樣本應(yīng)用列表中的第一個(gè)數(shù)據(jù)增強(qiáng)。訓(xùn)練后將域精度保存在驗(yàn)證集中。我們對列表中的所有數(shù)據(jù)擴(kuò)展重復(fù)此步驟。
3.我們選擇了五個(gè)種子上平均域精度最低的數(shù)據(jù)增強(qiáng)。如果多個(gè)數(shù)據(jù)增強(qiáng)在所選數(shù)據(jù)的標(biāo)準(zhǔn)誤差范圍內(nèi),它們也被選中,即增強(qiáng)之間沒有統(tǒng)計(jì)學(xué)上的顯著差異。
直觀上,SDA會選擇破壞x中d信息的數(shù)據(jù)增強(qiáng)技術(shù)。從因果關(guān)系的角度來看,這相當(dāng)于削弱了從d到h_d的箭頭。在附錄A.1.1中,我們進(jìn)行了一項(xiàng)消融研究,表明如果列表中包含具有不同超參數(shù)的相同增廣,SDA也可以可靠地選擇最合適的數(shù)據(jù)增廣。
不過也有一個(gè)警告。在整個(gè)章節(jié)中,我們假設(shè)我們成功地增強(qiáng)了所有由d引起的高級特征hd。在真實(shí)的應(yīng)用中,我們通常沒有方法來驗(yàn)證這個(gè)假設(shè),也就是說,我們可能只增強(qiáng)了hd的一個(gè)子集。此外,我們甚至可能增加由目標(biāo)節(jié)點(diǎn)y引起的高級特征hy。盡管如此,我們認(rèn)為,在某些情況下,我們?nèi)匀猾@得更好的泛化性能,而不是沒有數(shù)據(jù)增強(qiáng)提高訓(xùn)練的機(jī)器學(xué)習(xí)模型。這種情況可能發(fā)生在削弱hd對y的偽混淆影響比對y破壞的特征的數(shù)據(jù)增強(qiáng)恢復(fù)更多y的反因果信號的情況下。我們將在第4節(jié)對這一假設(shè)進(jìn)行實(shí)證評估
3 Related Work
3.1. 學(xué)習(xí)數(shù)據(jù)中的對稱性
Learning symmetries from data
在上一節(jié)中,我們認(rèn)為為數(shù)據(jù)擴(kuò)充選擇正確的對稱組依賴于先驗(yàn)知識,例如,預(yù)先選擇要測試的轉(zhuǎn)換列表。雖然這是我們方法的一個(gè)明顯的實(shí)際限制,但就我們所知,目前還沒有任何方法能夠從純粹的觀測數(shù)據(jù)中學(xué)習(xí)對稱性。當(dāng)代方法如拉格朗日神經(jīng)網(wǎng)絡(luò)(Cranmer等人,2020年)、圖神經(jīng)網(wǎng)絡(luò)(Kipf & Welling, 2017年)和群等變神經(jīng)網(wǎng)絡(luò)(Cohen & Welling, 2016年)正在強(qiáng)制執(zhí)行先驗(yàn)選擇對稱,而不是學(xué)習(xí)它們。
3.2. 理解數(shù)據(jù)增強(qiáng)
Understanding data augmentation
最近,Gontijo-Lopes等人(2020)提出了兩種衡量標(biāo)準(zhǔn):親和性和多樣性(affinity and diversity)。這些措施用于量化現(xiàn)有數(shù)據(jù)增強(qiáng)方法的有效性。他們發(fā)現(xiàn),親和度和多樣性得分高的增強(qiáng)能帶來更好的泛化性能。雖然親和性和多樣性依賴于iid假設(shè),但我們?yōu)榉莍id數(shù)據(jù)集提供了另一種選擇。Lyle等人(2020)研究了如何使用數(shù)據(jù)增強(qiáng)將不變性納入機(jī)器學(xué)習(xí)模型。他們表明,雖然數(shù)據(jù)增強(qiáng)可以導(dǎo)致更緊的PAC-Bayes界限,數(shù)據(jù)增強(qiáng)不保證導(dǎo)致不變性。在公式3中,我們形式化了在何種情況下(即干涉-增強(qiáng)等方差)數(shù)據(jù)增強(qiáng)會導(dǎo)致不變性。
3.3. 先進(jìn)的數(shù)據(jù)增強(qiáng)技術(shù)
?Advanced data augmentation techniques?
Zhang et al.(2018)引入了一種名為mixup的方法,通過在兩個(gè)現(xiàn)有的示例(xi, yi)和(xj, yj)之間線性插值來構(gòu)建新的訓(xùn)練示例。在Gowal等人(2019)和Perez & Wang(2017)中,生成對抗網(wǎng)絡(luò)(GAN)被用于執(zhí)行所謂的“對抗混合”。GAN能夠生成新的屬于同一個(gè)類y但具有不同風(fēng)格的訓(xùn)練示例。此外,Perez和Wang(2017)提出了一種名為“神經(jīng)增強(qiáng)”的新方法,他們訓(xùn)練模型的第一部分,從具有相同類y的兩個(gè)訓(xùn)練示例生成增強(qiáng)圖像。
3.4. 因果關(guān)系
Peters等人(2016)提出了一種不變因果預(yù)測(ICP)的方法。它建立在給定不同的實(shí)驗(yàn)設(shè)置、因果特征是穩(wěn)定的這個(gè)假設(shè)上。給定完整的因果特征集,目標(biāo)變量y的條件分布在干預(yù)下(例如域的改變)必須保持不變。然而,依靠非因果特征的機(jī)器學(xué)習(xí)模型做出的預(yù)測在干預(yù)下通常是不穩(wěn)定的。最近,Arjovsky等人(2019)提出了一個(gè)名為“不變風(fēng)險(xiǎn)最小化”(IRM)的框架,該框架與ICP有著相同的目標(biāo)。在IRM中,一種結(jié)合了ERM術(shù)語的軟懲罰被用來平衡學(xué)習(xí)機(jī)器學(xué)習(xí)模型的不變性和預(yù)測能力。與ICP相比,IRM可以用于非結(jié)構(gòu)化數(shù)據(jù)的任務(wù),例如圖像。然而,雖然兩種方法(ICP和IRM)試圖學(xué)習(xí)y的父特征,我們認(rèn)為,對于大多數(shù)域泛化問題,從x預(yù)測y的任務(wù)是反因果的。因此,我們感興趣的是只增加由d引起的特征,即d的后代,并假設(shè)剩下的特征是由y引起的。在Arjovsky等人(2019)中,他們認(rèn)為導(dǎo)致x的真實(shí)標(biāo)簽(部分真實(shí)因果機(jī)制)和人類標(biāo)簽產(chǎn)生的注釋之間存在差異。學(xué)習(xí)這種“標(biāo)簽函數(shù)”將導(dǎo)致良好的泛化表現(xiàn),即使它可能依賴于反因果或非因果的模式。在這種情況下,IRM目標(biāo)變得無效。
Heinze-Deml & Meinshausen(2019)引入了條件方差正則化(Conditional variance Regularization, CoRe)。CoRe使用分組觀察(例如,具有相同的類y但不同風(fēng)格的訓(xùn)練樣本)來學(xué)習(xí)不變表示。樣本是通過一個(gè)額外的ID變量分組的,這個(gè)ID變量不同于標(biāo)簽y。我們發(fā)現(xiàn)在大多數(shù)情況下很難獲得一個(gè)額外的ID變量,例如第4節(jié)的數(shù)據(jù)集中沒有一個(gè)數(shù)據(jù)集具有這樣的變量。如果不存在這樣的ID變量,CoRe可以使用原始圖像和增強(qiáng)圖像對學(xué)習(xí)不變表示。
當(dāng)我們關(guān)注圖1中的DAG時(shí),Bareinboim & Pearl(2016)和Mooij等人(2019)已經(jīng)開發(fā)了跨領(lǐng)域相關(guān)數(shù)據(jù)生成過程的通用圖形表示。如果觀察到混淆器c,可以使用找到穩(wěn)定特征集的方法,如RojasCarulla等人(2018)和Magliacane等人(2018)。此外,Subbaswamy等人(2019)表明,可以根據(jù)觀測數(shù)據(jù)擬合干預(yù)分布,而不是在某些情況下進(jìn)行干預(yù)。然而,成像數(shù)據(jù)提出了一個(gè)挑戰(zhàn),現(xiàn)有的基于原因的方法不具備處理,從而激勵使用數(shù)據(jù)增強(qiáng)。
4. 實(shí)驗(yàn)
我們在四個(gè)數(shù)據(jù)集上評估數(shù)據(jù)增強(qiáng)與經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化(ERM)相結(jié)合的性能。第一個(gè)是合成數(shù)據(jù)集,其他三個(gè)是域泛化基準(zhǔn)圖像數(shù)據(jù)集(旋轉(zhuǎn)的MNIST、彩色的MNIST和PACS),其中域d和目標(biāo)y是混淆的。利用合成數(shù)據(jù)集研究了域引起的高級特征和標(biāo)簽引起的高級特征增強(qiáng)時(shí)數(shù)據(jù)增強(qiáng)對模型性能的影響。對于基準(zhǔn)圖像數(shù)據(jù)集,我們首先使用SDA來選擇最佳的數(shù)據(jù)增強(qiáng)技術(shù)。第一步的結(jié)果可以在附錄中的表5中找到。然后,我們利用所選的數(shù)據(jù)增強(qiáng),利用ERM訓(xùn)練各自的模型。最后,我們進(jìn)行了消融研究,將所有數(shù)據(jù)增強(qiáng)應(yīng)用于所有三個(gè)圖像數(shù)據(jù)集,而不是選定的圖像數(shù)據(jù)集。
Code to replicate all experiments can be found under? https://github.com/AMLab-Amsterdam/ DataAugmentationInterventions.
4.1 合成數(shù)據(jù)集
?對于第一個(gè)實(shí)驗(yàn),我們在圖4(右)中模擬了線性高斯SCM的數(shù)據(jù),對應(yīng)的DAG在圖4(左)中可以看到。
?
?我們選擇c d y hd和hy作為五維向量。此外,我們從N (0, I)開始采樣W_[c→d}, W_{c→y}, W_{d-→hd}和W_{y→hy}的方陣元素,在所有的實(shí)驗(yàn)中σ_c =I和σ = 0.1·I。我們的任務(wù)是從x回歸,其中x = [hd, hy]是一個(gè)10維特征向量。在訓(xùn)練過程中,使用圖4(左)中的DAG生成數(shù)據(jù),其中由于混淆器c,特征hd和y是虛假相關(guān)的。測試時(shí)設(shè)置d:= N (0, I),保持W_{c→d}, W_{c→y}, W_{d→hd}和W_{y→hy}與訓(xùn)練時(shí)相同。因此,特征hd和y不再相關(guān)。一個(gè)依賴于hd特征的模型將不能很好地推廣到測試數(shù)據(jù)。在所有的實(shí)驗(yàn)中,我們使用線性回歸來最小化經(jīng)驗(yàn)風(fēng)險(xiǎn)。我們選擇添加從均勻分布U[?10,10]采樣的噪聲作為我們的數(shù)據(jù)增強(qiáng)技術(shù)。我們改變增加的hd和hy的維數(shù)。每個(gè)實(shí)驗(yàn)重復(fù)50次,在圖5中我們繪制了均方誤差(MSE)的均值和標(biāo)準(zhǔn)誤差。
在圖5中,我們看到僅使用hy(粉色線)特性的ERM實(shí)現(xiàn)了最低的MSE。接下來,我們對hd的1、2、3、4和5個(gè)維度進(jìn)行數(shù)據(jù)增強(qiáng),同時(shí)保持hy(橙色線)不變。我們發(fā)現(xiàn),如果將數(shù)據(jù)增廣應(yīng)用于hd的所有五個(gè)維度,我們可以用特征hy匹配ERM的MSE。在這種情況下,我們滿足方程3中的條件。此外,我們不出所料地發(fā)現(xiàn),使用 應(yīng)用于特征hy的數(shù)據(jù)增強(qiáng) 訓(xùn)練的模型的MSE增加(綠色,紅色,紫色和棕色線)。然而,我們可以看到,只要我們將數(shù)據(jù)增強(qiáng)應(yīng)用到至少三個(gè)hd維度上,使用hd和hy(藍(lán)線)所有特征,得到的MSE低于ERM(as long as we apply data augmentation to at least three dimensions of hd the resulting MSE is lower than ERM using all features hd and hy (blue line).)。也許這個(gè)實(shí)驗(yàn)最令人驚訝的結(jié)果是,在存在的條件下,對d引起的特征和y引起的特征進(jìn)行數(shù)據(jù)增強(qiáng)會比使用所有特征的ERM產(chǎn)生更好的泛化性能。(there exist conditions under which applying data augmentation to features caused by d and features caused by y will result in better generalization performance compared to ERM using all features)
4.2. 旋轉(zhuǎn)MNIST
我們根據(jù)Li等人(2018)構(gòu)建了旋轉(zhuǎn)的MNIST數(shù)據(jù)集。這個(gè)數(shù)據(jù)集由四個(gè)不同的域d和十個(gè)不同的類別y,每個(gè)域?qū)?yīng)不同的旋轉(zhuǎn)角度:d ={0?,30?,60?,90?}。我們首先從MNIST訓(xùn)練數(shù)據(jù)集中隨機(jī)選擇圖像x的子集,然后對該子集的每個(gè)圖像應(yīng)用旋轉(zhuǎn)。對于下一個(gè)域,我們隨機(jī)選擇一個(gè)新的子集。為了保證p(y)在各域之間的方差,每個(gè)數(shù)字類y的訓(xùn)練示例數(shù)從均勻分布U[80,160]中隨機(jī)選取。
對于每個(gè)實(shí)驗(yàn),選擇三個(gè)領(lǐng)域進(jìn)行訓(xùn)練和一個(gè)領(lǐng)域進(jìn)行測試。對于測試域,對MNIST測試集的10000個(gè)示例應(yīng)用相應(yīng)的旋轉(zhuǎn)。在表2中,我們將結(jié)合ERM的數(shù)據(jù)增強(qiáng)與ERM、域?qū)股窠?jīng)網(wǎng)絡(luò)(DANN) (Ganin等人,2016)和條件域?qū)股窠?jīng)網(wǎng)絡(luò)(CDANN) (Li等人,2018)進(jìn)行了比較。所有方法都使用LeNet (LeCun et al., 1998)型架構(gòu),每個(gè)實(shí)驗(yàn)重復(fù)10次。首先,我們使用SDA來尋找最佳的數(shù)據(jù)增強(qiáng)技術(shù),其中我們對域分類器使用相同的LeNet模型和訓(xùn)練過程,只從訓(xùn)練域中獲取樣本。在所有四種情況下,領(lǐng)域精度最低的數(shù)據(jù)增強(qiáng)是“旋轉(zhuǎn)”,我們在其中留下一個(gè)領(lǐng)域進(jìn)行測試。此外,我們進(jìn)行了消融研究,結(jié)果表明SDA可靠地選擇了最合適的超參數(shù),結(jié)果見附錄中的表4。其次,我們應(yīng)用0?和359?之間的隨機(jī)旋轉(zhuǎn)圖像x在培訓(xùn)期間,由DA表示。如果我們假設(shè)hd等于給定圖像x中MNIST數(shù)字的旋轉(zhuǎn)角度,對x施加隨機(jī)旋轉(zhuǎn)就等于對hd進(jìn)行噪聲干預(yù),見公式3。如第2節(jié)所述,對x進(jìn)行隨機(jī)旋轉(zhuǎn)可以理解為從二維旋轉(zhuǎn)組SO(2)中隨機(jī)抽樣元素g。注意元素g∈SO(2)對hy的作用很簡單:旋轉(zhuǎn)不會改變數(shù)字的形狀。結(jié)果是d和y是獨(dú)立的訓(xùn)練數(shù)據(jù)集。在表2中,我們看到DA的結(jié)果對于所有四個(gè)測試域都是相似的。此外,我們發(fā)現(xiàn)DA優(yōu)于ERM、DANN和CDANN,其中CDANN是專門為d和y虛假相關(guān)的情況設(shè)計(jì)的。?
?
?4.3. 彩色MNIST
在Arjovsky等人(2019)之后,我們創(chuàng)建了一個(gè)版本的MNIST數(shù)據(jù)集,其中每個(gè)數(shù)字的顏色與一個(gè)二進(jìn)制標(biāo)簽y虛假相關(guān)。我們構(gòu)建了兩個(gè)訓(xùn)練域和一個(gè)測試域,其中原始MNIST類' 0 '到' 4 '的數(shù)字被標(biāo)記為y = 0,類' 5 '到' 9 '的數(shù)字被標(biāo)記為y = 1。隨后,對于25%的數(shù)字,我們翻轉(zhuǎn)標(biāo)簽y。現(xiàn)在我們將標(biāo)記為y = 0的數(shù)字涂上紅色,標(biāo)記為y = 1的數(shù)字涂上綠色。最后,我們在第一個(gè)訓(xùn)練域和第二個(gè)訓(xùn)練域分別以0.2和0.1的概率翻轉(zhuǎn)一個(gè)數(shù)字的顏色。在測試域的情況下,數(shù)字的顏色翻轉(zhuǎn)的概率為0.9。根據(jù)設(shè)計(jì),每個(gè)數(shù)字(' 0 '到' 9 ')的原始MNIST類是新標(biāo)簽y的直接原因,而每個(gè)數(shù)字的顏色是新標(biāo)簽y的后代。
彩色MNIST的DAG,如圖6所示,與圖1中的DAG稍有偏差,盡管如此,第2節(jié)中的推理仍然是有效的。在表1中,我們看到,雖然ERM在訓(xùn)練領(lǐng)域表現(xiàn)良好,但它未能推廣到測試領(lǐng)域,因?yàn)樗鞘褂妙伾畔眍A(yù)測y。相反,IRM (Arjovsky等人,2019)和REx (Krueger等人,2020)推廣到測試領(lǐng)域很好。同樣,我們使用SDA來找到適當(dāng)?shù)臄?shù)據(jù)增強(qiáng)。對于域分類器,我們使用與Arjovsky等人(2019)相同的MLP和訓(xùn)練程序。我們想要強(qiáng)調(diào)的是,SDA只依賴于來自兩個(gè)訓(xùn)練域的樣本,而IRM和REx的超參數(shù)則對來自測試域的樣本進(jìn)行了調(diào)整,如Krueger等人(2020)所述。對于有色MNIST數(shù)據(jù)集,選擇的數(shù)據(jù)增強(qiáng)是“hue”和“translate”,用DA表示。如第2節(jié)所述,對x的色調(diào)值應(yīng)用隨機(jī)排列,相當(dāng)于從排列群SO(2)中隨機(jī)抽樣并應(yīng)用元素g。我們認(rèn)為元素g不會改變hy:包含關(guān)于每個(gè)數(shù)字形狀的信息的高級特征。在我們的實(shí)驗(yàn)中,我們使用與Arjovsky等人(2019)描述的相同的網(wǎng)絡(luò)架構(gòu)和訓(xùn)練程序。每個(gè)實(shí)驗(yàn)重復(fù)10次。我們發(fā)現(xiàn)DA可以成功地削弱d域?qū)的雜散影響,見表1
4.4。PACS
PACS數(shù)據(jù)集(Li et al., 2017a)被引入為具有較大域偏移特征的域泛化方法的強(qiáng)基準(zhǔn)數(shù)據(jù)集。f每個(gè)域的鏡像數(shù)量分別為1670、2048、2344、3929。有七個(gè)類:y =[狗,大象,長頸鹿,吉他,馬,房子,人]。我們微調(diào)alexnet模型(Krizhevsky等人,2012),該模型在ImageNet上進(jìn)行了預(yù)訓(xùn)練,使用ERM結(jié)合數(shù)據(jù)增強(qiáng)。在接下來的實(shí)驗(yàn)中,我們使用SDA來選擇數(shù)據(jù)增強(qiáng)。對于域分類器,我們?nèi)缟纤鰧lexnet模型進(jìn)行微調(diào)。此外,我們使用交叉驗(yàn)證過程,其中我們?nèi)サ粢粋€(gè)域,使用三個(gè)域進(jìn)行培訓(xùn)。SDA確定了四種有用的數(shù)據(jù)增強(qiáng)技術(shù):“亮度”、“對比度”、“飽和度”和“色調(diào)”。在組合這四種增強(qiáng)通常被稱為顏色抖動或顏色擾動。通過隨機(jī)應(yīng)用顏色擾動,我們?nèi)趸薶d對y的偽混淆影響,如第2節(jié)所述。在表3中,我們將DA與各種域泛化方法進(jìn)行比較:CDANN (Li等人,2018年)、L2G (Li等人,2017b)、GLCM (Wang等人,2018年)、SSN (Mancini等人,2018年)、IRM (Arjovsky等人,2019年)、REx (Krueger等人,2020年)、MetaReg (Balaji等人,2018年)、JigSaw (Carlucci等人,2019年),其中所有方法都使用相同的預(yù)訓(xùn)練alexnet模型。每個(gè)實(shí)驗(yàn)重復(fù)5次,報(bào)告平均準(zhǔn)確率。我們發(fā)現(xiàn)DA的平均準(zhǔn)確率最高。與ERM相比,DA在“藝術(shù)繪畫”和“素描”兩個(gè)測試領(lǐng)域的成績提高最大。例如,域“草圖”由白色背景上的七個(gè)對象類的黑色草圖組成,參見圖7。由于對象的顏色與類不相關(guān),依賴于顏色特征的模型將很難推廣到“草圖”領(lǐng)域。然而,通過隨機(jī)改變訓(xùn)練域中(“藝術(shù)繪畫”、“卡通”、“照片”)圖像的顏色,我們發(fā)現(xiàn)DA能夠更好地概括。
消融研究:使用所有數(shù)據(jù)增強(qiáng)技術(shù)我們使用附錄中列出的所有數(shù)據(jù)增強(qiáng)技術(shù),在旋轉(zhuǎn)MNIST、有色MNIST和PACS上重復(fù)之前的實(shí)驗(yàn)。我們比較了使用所有數(shù)據(jù)增強(qiáng)技術(shù)訓(xùn)練的分類器和使用SDA訓(xùn)練的分類器的準(zhǔn)確性。我們發(fā)現(xiàn),同時(shí)使用所有數(shù)據(jù)增強(qiáng)技術(shù)會導(dǎo)致所有三個(gè)數(shù)據(jù)集的性能顯著下降:旋轉(zhuǎn)MNIST的性能下降25.4%,有色MNIST的性能下降8.7%,PACS的性能下降16.1%。我們觀察到數(shù)據(jù)集和數(shù)據(jù)增強(qiáng)技術(shù)的組合本身會導(dǎo)致性能的急劇下降,例如PACS數(shù)據(jù)集和隨機(jī)旋轉(zhuǎn)。我們認(rèn)為,沒有隨機(jī)旋轉(zhuǎn)訓(xùn)練的模型利用了一個(gè)事實(shí),例如,動物或人的方向通常是直立的。這個(gè)例子表明,我們不能簡單地將數(shù)據(jù)增強(qiáng)描述為“標(biāo)簽保存轉(zhuǎn)換”,因?yàn)樾D(zhuǎn)后的動物或人仍然會有相同的標(biāo)簽。
5. 結(jié)論
這篇論文中,從因果的角度研究了領(lǐng)域泛化中數(shù)據(jù)增強(qiáng)的有效性。通過使用SCM,我們解決了區(qū)域泛化的一個(gè)核心問題:區(qū)域變量d和目標(biāo)變量y的虛假相關(guān)性。雖然在理論上,我們可以對區(qū)域變量d進(jìn)行干預(yù),但這種解決方案是不切實(shí)際的,因?yàn)槲覀兗僭O(shè)我們只能獲得觀測數(shù)據(jù)。然而,我們表明,數(shù)據(jù)增強(qiáng)可以作為模擬領(lǐng)域變量d及其子變量干預(yù)的替代工具。因此,先驗(yàn)知識可以用來選擇只作用于目標(biāo)變量y的非后代的數(shù)據(jù)增強(qiáng)技術(shù)。此外,我們表明,隨機(jī)應(yīng)用數(shù)據(jù)增強(qiáng)可以理解為從常見對稱群中隨機(jī)抽樣元素。此外,我們提出了一個(gè)簡單的算法來從給定的轉(zhuǎn)換列表中選擇合適的增廣技術(shù)。我們使用一個(gè)域分類器來衡量每個(gè)增強(qiáng)在多大程度上削弱了領(lǐng)域d和由d引起的hd高級特征之間的因果聯(lián)系。我們在四個(gè)不同的數(shù)據(jù)集上評估了這種方法,能夠表明經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化結(jié)合準(zhǔn)確選擇的數(shù)據(jù)增強(qiáng)產(chǎn)生良好的泛化性能。本文的分析可進(jìn)一步應(yīng)用于利用干涉增強(qiáng)等方差設(shè)計(jì)干涉數(shù)據(jù)增強(qiáng)來模擬領(lǐng)域泛化方法的干涉數(shù)據(jù)集
比較吸引我的點(diǎn)在于:
1.用圖1的因果圖+共因來解釋spurious relation的產(chǎn)生
2.用切斷d和hd的方式(do-calculus)分離hd的影響
3.用隨機(jī)域分類器實(shí)現(xiàn)切斷※※
總結(jié)
以上是生活随笔為你收集整理的【论文导读】Selecting Data Augmentation for Simulating Interventions的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 妇产科学习题---有答案
- 下一篇: Word中插入三线格算法公式,放大不变形