當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【论文导读】Selecting Data Augmentation for Simulating Interventions

發(fā)布時(shí)間：2024/8/1 编程问答 52 豆豆

生活随笔收集整理的這篇文章主要介紹了【论文导读】Selecting Data Augmentation for Simulating Interventions 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

這一篇從數(shù)據(jù)增強(qiáng)的角度切入因果AI，主要處理的也是OOD generalization的問題

【摘要】

【Introduction】

【Method】

2.2. 基于因果關(guān)系的領(lǐng)域泛化和數(shù)據(jù)擴(kuò)充

2.3. 模擬的干預(yù)措施

2.4.?為域泛化選擇數(shù)據(jù)擴(kuò)充

【摘要】

用純粹的觀察數(shù)據(jù)和經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化原則(Vapnik, 1992)訓(xùn)練的機(jī)器學(xué)習(xí)模型可能無法推廣到看不見的領(lǐng)域。在這篇論文中，我們關(guān)注的是由于觀測域和實(shí)際任務(wù)標(biāo)簽之間的虛假關(guān)聯(lián)而產(chǎn)生的問題。我們發(fā)現(xiàn)許多域泛化方法并沒有明確地考慮到這種偽相關(guān)。相反，特別是在更面向應(yīng)用的研究領(lǐng)域，如醫(yī)學(xué)成像或機(jī)器人，基于啟發(fā)式的數(shù)據(jù)增強(qiáng)技術(shù)被用于學(xué)習(xí)領(lǐng)域不變特征。為了彌合理論和實(shí)踐之間的差距，我們對領(lǐng)域泛化問題發(fā)展了一個(gè)因果觀點(diǎn)。我們認(rèn)為因果概念可以通過描述它們?nèi)绾蜗魅跤^察域和任務(wù)標(biāo)簽之間的虛假相關(guān)性來解釋數(shù)據(jù)增強(qiáng)的成功。我們證明了數(shù)據(jù)增強(qiáng)可以作為模擬介入數(shù)據(jù)的工具。我們使用這些理論見解來推導(dǎo)出一個(gè)簡單的算法，該算法能夠選擇數(shù)據(jù)增強(qiáng)技術(shù)，從而實(shí)現(xiàn)更好的領(lǐng)域泛化。

【Introduction】

盡管在深度學(xué)習(xí)的推動下，機(jī)器學(xué)習(xí)最近取得了進(jìn)步，但Azulay和Weiss(2019)等研究表明，深度學(xué)習(xí)方法可能無法推廣到訓(xùn)練分布之外的輸入。然而，在醫(yī)療成像、機(jī)器人和自動駕駛汽車等安全關(guān)鍵領(lǐng)域，機(jī)器學(xué)習(xí)模型對環(huán)境變化的魯棒性至關(guān)重要。如果沒有概括的能力，機(jī)器學(xué)習(xí)模型就不能安全地部署在現(xiàn)實(shí)世界中。

在域泛化領(lǐng)域，人們試圖找到一種跨不同環(huán)境(稱為域)進(jìn)行泛化的表示，每個(gè)環(huán)境的輸入具有不同的移位。當(dāng)域中的更改與實(shí)際任務(wù)標(biāo)簽中的更改偽關(guān)聯(lián)時(shí)，這個(gè)問題尤其具有挑戰(zhàn)性。例如，當(dāng)數(shù)據(jù)收集過程有偏差時(shí)就會發(fā)生這種情況。Arjovsky等人舉了一個(gè)例子(2019):如果我們考慮奶牛和駱駝在其自然棲息地的圖像數(shù)據(jù)集，那么動物類型和圖像中的景觀之間存在很強(qiáng)的相關(guān)性，例如，一只站在沙漠中的駱駝。如果我們現(xiàn)在訓(xùn)練一個(gè)機(jī)器學(xué)習(xí)模型來預(yù)測給定圖像中的動物，該模型很容易利用動物類型和景觀類型之間的虛假相關(guān)性。因此，該模型可能無法識別站在綠色牧場上的駱駝或站在沙漠中的奶牛。

近年來，一個(gè)大型的方法語料庫被設(shè)計(jì)用來學(xué)習(xí)跨領(lǐng)域泛化的表示。雖然所提出的方法能夠在各種領(lǐng)域泛化基準(zhǔn)上取得良好的結(jié)果，但大多數(shù)方法都缺乏理論基礎(chǔ)。在最壞的情況下，這些方法強(qiáng)制執(zhí)行錯(cuò)誤類型的不變性，如附錄A.6.1所示。有趣的是，我們發(fā)現(xiàn)，特別是在更多的應(yīng)用領(lǐng)域，如醫(yī)學(xué)成像和機(jī)器人，研究人員已經(jīng)找到了一種實(shí)用的方法來處理領(lǐng)域和實(shí)際任務(wù)之間的虛假相關(guān)性。數(shù)據(jù)增強(qiáng)結(jié)合經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化(ERM) (Vapnik, 1992)被用來加強(qiáng)機(jī)器學(xué)習(xí)模型在領(lǐng)域變化方面的不變性。因此，利用先驗(yàn)知識來指導(dǎo)選擇合適的數(shù)據(jù)增強(qiáng)方法。在附錄a .7.1中，我們詳細(xì)總結(jié)了兩個(gè)成功的數(shù)據(jù)應(yīng)用。

然而，數(shù)據(jù)增強(qiáng)的成功往往被描述為“人為擴(kuò)展標(biāo)記訓(xùn)練數(shù)據(jù)集”(Li, 2020)和“減少過擬合”(Krizhevsky等人，2012)等模糊的術(shù)語。在本文中，我們提出了領(lǐng)域泛化背景下的數(shù)據(jù)增強(qiáng)的因果視角，并以以下方式對該領(lǐng)域做出了貢獻(xiàn):

1.首先，我們引入了干預(yù)增強(qiáng)方差（intervention augmentation equivariance?）的概念，它形式化了數(shù)據(jù)增強(qiáng)和領(lǐng)域特征上的干預(yù)之間的關(guān)系。我們表明，如果干預(yù)-增強(qiáng)等方差成立，我們可以使用數(shù)據(jù)增強(qiáng)來成功地模擬僅使用觀測數(shù)據(jù)的干預(yù)。

2.其次，我們推導(dǎo)出一個(gè)簡單的算法，該算法能夠從給定的轉(zhuǎn)換列表中選擇數(shù)據(jù)增強(qiáng)技術(shù)。我們將我們的方法與各種領(lǐng)域泛化方法在三個(gè)領(lǐng)域泛化基準(zhǔn)上進(jìn)行比較。我們證明了我們能夠始終優(yōu)于所有其他方法。

【Method】

2.1 Domain generalization

我們首先按照Muandet等人(2013)中使用的符號將域泛化問題形式化。我們假設(shè)在訓(xùn)練過程中，我們從N個(gè)不同的域訪問樣本S，其中。每個(gè)域的n_i個(gè)樣本包含在訓(xùn)練集中。訓(xùn)練數(shù)據(jù)被表示為從p(x, y, d)觀測分布中采樣的元組(x, y, d)。域泛化的目標(biāo)是開發(fā)能夠很好地泛化到不可見域的機(jī)器學(xué)習(xí)方法。為了測試機(jī)器學(xué)習(xí)模型的泛化能力，我們使用樣本，來自一個(gè)之前不可見的測試域d=N+1。

在本文中，我們對觀察域d和目標(biāo)y在訓(xùn)練數(shù)據(jù)集中虛假相關(guān)的一般情況感興趣，即，我們可能有p(y|d = i) != p(y|d = j)， i, j∈{1，…N}。由于d和y之間的相關(guān)性被假設(shè)為虛假的，它不一定對測試域d = N + 1成立。

2.2. 基于因果關(guān)系的領(lǐng)域泛化和數(shù)據(jù)擴(kuò)充

對于不熟悉因果關(guān)系概念的讀者，可以在附錄a .5中簡單介紹全文中使用的因果概念。如需深入介紹，請參閱Pearl(2009)或Peters等人(2017)。

首先，我們引入了一個(gè)結(jié)構(gòu)因果模型(SCM)，以描述我們認(rèn)為在許多情況下反映了域泛化問題的潛在因果結(jié)構(gòu)。SCM如圖1(右)所示，其中c是一個(gè)隱藏的混雜因素(和一個(gè)外生變量)，d是域，(d就是我們想要去除的confounder，)y是目標(biāo)，hd高級特征，如顏色和方向，由d引起，hy高級特征，如形狀和紋理，由y引起，x是輸入。為了清晰起見，我們省略了噪聲變量。對應(yīng)的有向無環(huán)圖(DAG)如圖1(左)所示，其中灰色節(jié)點(diǎn)表示變量被觀察到，白色節(jié)點(diǎn)對應(yīng)潛在(未觀察到)變量。提出的DAG與Subbaswamy & Saria(2019)和Castro等人(2019)構(gòu)建的DAG類似。在圖1中，節(jié)點(diǎn)c是一個(gè)隱藏的混雜器。隱藏的混雜因素c打開一條后門路徑(非因果路徑)d←?c?→y (Pearl, 2009)。這條路徑允許d通過后門進(jìn)入y。

因此，定義域d和目標(biāo)y一般不再獨(dú)立，p(y, d) ！= p(y)p(d)。由于高級特征hd是d的子特征，它們也與y虛假相關(guān)，即hd成為y的預(yù)測。我們現(xiàn)在假設(shè)我們使用ERM (Vapnik, 1992)和圖1中DAG產(chǎn)生的觀察數(shù)據(jù)來訓(xùn)練機(jī)器學(xué)習(xí)模型。我們的任務(wù)是從x中預(yù)測y，這本身是反因果的。由于d和y是相關(guān)的，所以機(jī)器學(xué)習(xí)模型很可能會依賴于所有的高級特征hd和hy來預(yù)測y，此外，我們假設(shè)d和y的相關(guān)是虛假的。因此，在一般情況下不會保持，在干預(yù)下會打破。因此，依賴于由d引起的高級特征hd的機(jī)器學(xué)習(xí)模型很可能無法推廣到不可見的領(lǐng)域。回到我們對圖像中的動物進(jìn)行分類的介紹性例子，隱藏的混雜器可以用來模擬這樣一個(gè)事實(shí):動物的類型和圖像中的景觀有一個(gè)共同的原因。例如，混淆器可以是某張照片拍攝的國家，例如，在瑞士，我們更有可能看到一頭奶牛站在綠色的牧場上，而不是駱駝或沙漠。

2.3. 模擬的干預(yù)措施

處理d和y之間虛假相關(guān)的一種可能的方法是對d執(zhí)行干預(yù)。這樣的干預(yù)將使d和y獨(dú)立，即p(y|do(d)) = p(y)。在圖2(左)中，我們看到與圖1相同的DAG，但在我們干預(yù)d之后。我們發(fā)現(xiàn)在圖2(左)中，沒有更多的箭頭連接隱藏的混淆器c和域d。后門路徑d←?c?→y已經(jīng)消失。在動物和景觀的例子中，為了干預(yù)景觀，我們必須把一頭牛搬到沙漠中。很明顯，這些干預(yù)必須發(fā)生在現(xiàn)實(shí)世界中，而不是對已經(jīng)收集到的觀察數(shù)據(jù)進(jìn)行操作。在大多數(shù)領(lǐng)域泛化問題中，用特定的干預(yù)措施來收集新數(shù)據(jù)是不可行的。

在圖2(中間)中，我們展示了解決變量d和y相關(guān)問題的第二種方法。理論上，我們可以對所有高級特征hd進(jìn)行干預(yù)，即do(hd)，因?yàn)閐只通過hd間接影響x，在我們的例子中，hd可以代表景觀的顏色和紋理。同樣，在現(xiàn)實(shí)世界的數(shù)據(jù)收集過程中需要進(jìn)行這樣的干預(yù)，例如，將沙子移到牧場。

然而，我們認(rèn)為在某些情況下，我們可以利用數(shù)據(jù)增強(qiáng)結(jié)合觀測數(shù)據(jù)來模擬介入分布p(x, y|do(hd))的數(shù)據(jù)。例如，我們可以隨機(jī)打亂動物圖像中的顏色。這種類型的增強(qiáng)在hd上模擬了一種噪聲干預(yù)，即do(h_d = ξ)，其中ξ從噪聲分布N_ξ中采樣(Peters等人，2016)。

理論上，我們可以通過將h_d設(shè)置為固定值來干預(yù)h_d，而不是執(zhí)行噪聲干預(yù)。然而，為了使用數(shù)據(jù)增強(qiáng)來模擬這種干涉分布的數(shù)據(jù)，我們需要觀察h_d，而我們認(rèn)為一般無法觀測h_d。在附錄a .7.1中，我們描述了現(xiàn)有的數(shù)據(jù)增強(qiáng)方法，在將所有樣本的h_d設(shè)置為固定值之前，試圖推斷每個(gè)樣本x的h_d，但這些增強(qiáng)似乎比隨機(jī)抽樣增強(qiáng)效果更差。

通過只增加由d引起的高級特征h_d，我們保證目標(biāo)y和特征hy不變。數(shù)據(jù)增強(qiáng)后，(, y)應(yīng)該與介入分布p(x, y|do(h_d))中的樣本非常相似。在圖2(右)中，我們看到我們只需要DAG的觀察數(shù)據(jù)，不需要任何干預(yù)。雖然每個(gè)增強(qiáng)樣本單獨(dú)可以被視為反事實(shí)，但我們認(rèn)為，通過從每個(gè)x生成大量的增強(qiáng)樣本xaug，我們有效地邊緣化了反事實(shí)分布。我們認(rèn)為，對于正確選擇的數(shù)據(jù)增強(qiáng)，我們無法區(qū)分圖2中三種模型中任何一種生成的數(shù)據(jù)。

如果我們選擇數(shù)據(jù)增強(qiáng) = aug(x)，作為應(yīng)用于觀察數(shù)據(jù)x的轉(zhuǎn)換aug(·)，以模擬d對高階特征hd的干預(yù)，我們需要對數(shù)據(jù)的因果生成過程做出假設(shè)。正式地說，我們要求將數(shù)據(jù)x擴(kuò)展為 = aug(x) 和在生成數(shù)據(jù)之前使用干預(yù)do(hd)的操作是交換的（Formally, we require that augmenting the data x to xaug = aug(x) commutes with an intervention do(hd) prior to the data generation.）。我們稱之為干預(yù)增強(qiáng)方差（intervention-augmentation equivariance）。更詳細(xì)地說，假設(shè)我們從方程式1中得到因果過程:。然后通過aug(·)增加x:

(2)

如果對于X∈X上的每個(gè)考慮的隨機(jī)數(shù)據(jù)增強(qiáng)變換aug(·)，我們在Hd∈Hd上有相應(yīng)的噪聲干預(yù)do(·)，則我們可以說因果過程是干預(yù)-增強(qiáng)的等變(ntervention-augmentation equivarian)，例如:

。(3)

干涉-增強(qiáng)等方差在圖3中用交換圖表示。我們認(rèn)為我們首先需要通過對真正的因果過程做出強(qiáng)有力的假設(shè)識別由d引起的高層次特征hd。其次，我們必須選擇數(shù)據(jù)增強(qiáng)aug(x)使得在因果過程fX(hd, hy)下與相應(yīng)的干預(yù)do(hd)可交換。干涉-增強(qiáng)方差的特殊情況出現(xiàn)在G等變圖fX的經(jīng)典情況(in the classical case of an G-equivariant map fX)中，其中G可以是任何(半)群。為此，我們需要G作用于Hy, Hd, X空間，我們需要確保G作用于Hy空間。因此，任何元素g∈G都可以將元素X∈X轉(zhuǎn)換為g·X∈X，我們將其解釋為數(shù)據(jù)增強(qiáng)，如第4節(jié)所示。元素g∈G也將hd∈hd轉(zhuǎn)化為g·hd∈hd，我們認(rèn)為這是一種特殊的介入類型。此外，我們假設(shè)hy∈Hy對于所有g(shù)∈G都保持固定g·hy = hy，因此我們放入:

，(4)

，(5)

其中，我們假設(shè)元素g∈G是從G上的某個(gè)分布p(g)中隨機(jī)抽樣的。在這種情況下，任何G-等變的圖fX都會自動地保持干涉-增強(qiáng)等變，如下所示:

?一個(gè)干涉-增強(qiáng)等方差的線性例子可以在附錄中找到。

一般來說，我們發(fā)現(xiàn)大多數(shù)經(jīng)常使用的數(shù)據(jù)增強(qiáng)都可以表示為簡單的群作用（group actions）。例如，對輸入圖像x進(jìn)行隨機(jī)旋轉(zhuǎn)，可以理解為對二維旋轉(zhuǎn)組SO(2)中的元素g進(jìn)行隨機(jī)采樣，并將其應(yīng)用在二維像素網(wǎng)格上。隨機(jī)改變圖像x的色調(diào)對應(yīng)于從二維旋轉(zhuǎn)組SO(2)中隨機(jī)采樣并應(yīng)用元素g，因?yàn)樯{(diào)可以表示為顏色空間中的一個(gè)角度。對圖像x的顏色通道應(yīng)用隨機(jī)排列，在三個(gè)獨(dú)立顏色通道的情況下，相當(dāng)于對排列組S3中的元素g進(jìn)行隨機(jī)抽樣并應(yīng)用。

2.4.?為域泛化選擇數(shù)據(jù)擴(kuò)充

Selecting data augmentations for domain generalization

在圖2(中間)中，我們可以看到如果我們成功地使用數(shù)據(jù)增強(qiáng)在hd上模擬干預(yù)，那么從d到hd的箭頭就會消失。基于這一理論見解，我們提出了一種算法，該算法能夠選擇能夠改善領(lǐng)域泛化的數(shù)據(jù)增強(qiáng)技術(shù)，而不是手動選擇它們。下面我們將把這種算法稱為選擇數(shù)據(jù)增強(qiáng)(Select Data Augmentation, SDA)。與Cubuk等人(2019)類似，我們從一系列數(shù)據(jù)增強(qiáng)技術(shù)開始，包括:“亮度”、“對比度”、“飽和度”、“色調(diào)”、“旋轉(zhuǎn)”、“平移”、“縮放”、“剪切”、“垂直翻轉(zhuǎn)”和“水平翻轉(zhuǎn)”。由于這些轉(zhuǎn)換不相互影響，因此可以分別對它們進(jìn)行測試。每個(gè)增強(qiáng)的超參數(shù)可以在附錄中找到。本文提出的SDA算法包括三個(gè)步驟:

1.我們將訓(xùn)練域中的所有樣本分成一個(gè)訓(xùn)練和驗(yàn)證集。

2. 我們訓(xùn)練分類器來從輸入x預(yù)測域d。在訓(xùn)練過程中，我們對訓(xùn)練集的樣本應(yīng)用列表中的第一個(gè)數(shù)據(jù)增強(qiáng)。訓(xùn)練后將域精度保存在驗(yàn)證集中。我們對列表中的所有數(shù)據(jù)擴(kuò)展重復(fù)此步驟。

3.我們選擇了五個(gè)種子上平均域精度最低的數(shù)據(jù)增強(qiáng)。如果多個(gè)數(shù)據(jù)增強(qiáng)在所選數(shù)據(jù)的標(biāo)準(zhǔn)誤差范圍內(nèi)，它們也被選中，即增強(qiáng)之間沒有統(tǒng)計(jì)學(xué)上的顯著差異。

直觀上，SDA會選擇破壞x中d信息的數(shù)據(jù)增強(qiáng)技術(shù)。從因果關(guān)系的角度來看，這相當(dāng)于削弱了從d到h_d的箭頭。在附錄A.1.1中，我們進(jìn)行了一項(xiàng)消融研究，表明如果列表中包含具有不同超參數(shù)的相同增廣，SDA也可以可靠地選擇最合適的數(shù)據(jù)增廣。

不過也有一個(gè)警告。在整個(gè)章節(jié)中，我們假設(shè)我們成功地增強(qiáng)了所有由d引起的高級特征hd。在真實(shí)的應(yīng)用中，我們通常沒有方法來驗(yàn)證這個(gè)假設(shè)，也就是說，我們可能只增強(qiáng)了hd的一個(gè)子集。此外，我們甚至可能增加由目標(biāo)節(jié)點(diǎn)y引起的高級特征hy。盡管如此，我們認(rèn)為，在某些情況下，我們?nèi)匀猾@得更好的泛化性能，而不是沒有數(shù)據(jù)增強(qiáng)提高訓(xùn)練的機(jī)器學(xué)習(xí)模型。這種情況可能發(fā)生在削弱hd對y的偽混淆影響比對y破壞的特征的數(shù)據(jù)增強(qiáng)恢復(fù)更多y的反因果信號的情況下。我們將在第4節(jié)對這一假設(shè)進(jìn)行實(shí)證評估

3 Related Work

3.1. 學(xué)習(xí)數(shù)據(jù)中的對稱性

Learning symmetries from data

在上一節(jié)中，我們認(rèn)為為數(shù)據(jù)擴(kuò)充選擇正確的對稱組依賴于先驗(yàn)知識，例如，預(yù)先選擇要測試的轉(zhuǎn)換列表。雖然這是我們方法的一個(gè)明顯的實(shí)際限制，但就我們所知，目前還沒有任何方法能夠從純粹的觀測數(shù)據(jù)中學(xué)習(xí)對稱性。當(dāng)代方法如拉格朗日神經(jīng)網(wǎng)絡(luò)(Cranmer等人，2020年)、圖神經(jīng)網(wǎng)絡(luò)(Kipf & Welling, 2017年)和群等變神經(jīng)網(wǎng)絡(luò)(Cohen & Welling, 2016年)正在強(qiáng)制執(zhí)行先驗(yàn)選擇對稱，而不是學(xué)習(xí)它們。

3.2. 理解數(shù)據(jù)增強(qiáng)

Understanding data augmentation

最近，Gontijo-Lopes等人(2020)提出了兩種衡量標(biāo)準(zhǔn):親和性和多樣性（affinity and diversity）。這些措施用于量化現(xiàn)有數(shù)據(jù)增強(qiáng)方法的有效性。他們發(fā)現(xiàn)，親和度和多樣性得分高的增強(qiáng)能帶來更好的泛化性能。雖然親和性和多樣性依賴于iid假設(shè)，但我們?yōu)榉莍id數(shù)據(jù)集提供了另一種選擇。Lyle等人(2020)研究了如何使用數(shù)據(jù)增強(qiáng)將不變性納入機(jī)器學(xué)習(xí)模型。他們表明，雖然數(shù)據(jù)增強(qiáng)可以導(dǎo)致更緊的PAC-Bayes界限，數(shù)據(jù)增強(qiáng)不保證導(dǎo)致不變性。在公式3中，我們形式化了在何種情況下(即干涉-增強(qiáng)等方差)數(shù)據(jù)增強(qiáng)會導(dǎo)致不變性。

3.3. 先進(jìn)的數(shù)據(jù)增強(qiáng)技術(shù)

?Advanced data augmentation techniques?

Zhang et al.(2018)引入了一種名為mixup的方法，通過在兩個(gè)現(xiàn)有的示例(xi, yi)和(xj, yj)之間線性插值來構(gòu)建新的訓(xùn)練示例。在Gowal等人(2019)和Perez & Wang(2017)中，生成對抗網(wǎng)絡(luò)(GAN)被用于執(zhí)行所謂的“對抗混合”。GAN能夠生成新的屬于同一個(gè)類y但具有不同風(fēng)格的訓(xùn)練示例。此外，Perez和Wang(2017)提出了一種名為“神經(jīng)增強(qiáng)”的新方法，他們訓(xùn)練模型的第一部分，從具有相同類y的兩個(gè)訓(xùn)練示例生成增強(qiáng)圖像。

3.4. 因果關(guān)系

Peters等人(2016)提出了一種不變因果預(yù)測(ICP)的方法。它建立在給定不同的實(shí)驗(yàn)設(shè)置、因果特征是穩(wěn)定的這個(gè)假設(shè)上。給定完整的因果特征集，目標(biāo)變量y的條件分布在干預(yù)下(例如域的改變)必須保持不變。然而，依靠非因果特征的機(jī)器學(xué)習(xí)模型做出的預(yù)測在干預(yù)下通常是不穩(wěn)定的。最近，Arjovsky等人(2019)提出了一個(gè)名為“不變風(fēng)險(xiǎn)最小化”(IRM)的框架，該框架與ICP有著相同的目標(biāo)。在IRM中，一種結(jié)合了ERM術(shù)語的軟懲罰被用來平衡學(xué)習(xí)機(jī)器學(xué)習(xí)模型的不變性和預(yù)測能力。與ICP相比，IRM可以用于非結(jié)構(gòu)化數(shù)據(jù)的任務(wù)，例如圖像。然而，雖然兩種方法(ICP和IRM)試圖學(xué)習(xí)y的父特征，我們認(rèn)為，對于大多數(shù)域泛化問題，從x預(yù)測y的任務(wù)是反因果的。因此，我們感興趣的是只增加由d引起的特征，即d的后代，并假設(shè)剩下的特征是由y引起的。在Arjovsky等人(2019)中，他們認(rèn)為導(dǎo)致x的真實(shí)標(biāo)簽(部分真實(shí)因果機(jī)制)和人類標(biāo)簽產(chǎn)生的注釋之間存在差異。學(xué)習(xí)這種“標(biāo)簽函數(shù)”將導(dǎo)致良好的泛化表現(xiàn)，即使它可能依賴于反因果或非因果的模式。在這種情況下，IRM目標(biāo)變得無效。

Heinze-Deml & Meinshausen(2019)引入了條件方差正則化(Conditional variance Regularization, CoRe)。CoRe使用分組觀察(例如，具有相同的類y但不同風(fēng)格的訓(xùn)練樣本)來學(xué)習(xí)不變表示。樣本是通過一個(gè)額外的ID變量分組的，這個(gè)ID變量不同于標(biāo)簽y。我們發(fā)現(xiàn)在大多數(shù)情況下很難獲得一個(gè)額外的ID變量，例如第4節(jié)的數(shù)據(jù)集中沒有一個(gè)數(shù)據(jù)集具有這樣的變量。如果不存在這樣的ID變量，CoRe可以使用原始圖像和增強(qiáng)圖像對學(xué)習(xí)不變表示。

當(dāng)我們關(guān)注圖1中的DAG時(shí)，Bareinboim & Pearl(2016)和Mooij等人(2019)已經(jīng)開發(fā)了跨領(lǐng)域相關(guān)數(shù)據(jù)生成過程的通用圖形表示。如果觀察到混淆器c，可以使用找到穩(wěn)定特征集的方法，如RojasCarulla等人(2018)和Magliacane等人(2018)。此外，Subbaswamy等人(2019)表明，可以根據(jù)觀測數(shù)據(jù)擬合干預(yù)分布，而不是在某些情況下進(jìn)行干預(yù)。然而，成像數(shù)據(jù)提出了一個(gè)挑戰(zhàn)，現(xiàn)有的基于原因的方法不具備處理，從而激勵使用數(shù)據(jù)增強(qiáng)。

4. 實(shí)驗(yàn)

我們在四個(gè)數(shù)據(jù)集上評估數(shù)據(jù)增強(qiáng)與經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化(ERM)相結(jié)合的性能。第一個(gè)是合成數(shù)據(jù)集，其他三個(gè)是域泛化基準(zhǔn)圖像數(shù)據(jù)集(旋轉(zhuǎn)的MNIST、彩色的MNIST和PACS)，其中域d和目標(biāo)y是混淆的。利用合成數(shù)據(jù)集研究了域引起的高級特征和標(biāo)簽引起的高級特征增強(qiáng)時(shí)數(shù)據(jù)增強(qiáng)對模型性能的影響。對于基準(zhǔn)圖像數(shù)據(jù)集，我們首先使用SDA來選擇最佳的數(shù)據(jù)增強(qiáng)技術(shù)。第一步的結(jié)果可以在附錄中的表5中找到。然后，我們利用所選的數(shù)據(jù)增強(qiáng)，利用ERM訓(xùn)練各自的模型。最后，我們進(jìn)行了消融研究，將所有數(shù)據(jù)增強(qiáng)應(yīng)用于所有三個(gè)圖像數(shù)據(jù)集，而不是選定的圖像數(shù)據(jù)集。

Code to replicate all experiments can be found under? https://github.com/AMLab-Amsterdam/ DataAugmentationInterventions.

4.1 合成數(shù)據(jù)集

?對于第一個(gè)實(shí)驗(yàn)，我們在圖4(右)中模擬了線性高斯SCM的數(shù)據(jù)，對應(yīng)的DAG在圖4(左)中可以看到。

?我們選擇c d y hd和hy作為五維向量。此外，我們從N (0, I)開始采樣W_[c→d}, W_{c→y}, W_{d-→hd}和W_{y→hy}的方陣元素，在所有的實(shí)驗(yàn)中σ_c =I和σ = 0.1·I。我們的任務(wù)是從x回歸，其中x = [hd, hy]是一個(gè)10維特征向量。在訓(xùn)練過程中，使用圖4(左)中的DAG生成數(shù)據(jù)，其中由于混淆器c，特征hd和y是虛假相關(guān)的。測試時(shí)設(shè)置d:= N (0, I)，保持W_{c→d}, W_{c→y}, W_{d→hd}和W_{y→hy}與訓(xùn)練時(shí)相同。因此，特征hd和y不再相關(guān)。一個(gè)依賴于hd特征的模型將不能很好地推廣到測試數(shù)據(jù)。在所有的實(shí)驗(yàn)中，我們使用線性回歸來最小化經(jīng)驗(yàn)風(fēng)險(xiǎn)。我們選擇添加從均勻分布U[?10,10]采樣的噪聲作為我們的數(shù)據(jù)增強(qiáng)技術(shù)。我們改變增加的hd和hy的維數(shù)。每個(gè)實(shí)驗(yàn)重復(fù)50次，在圖5中我們繪制了均方誤差(MSE)的均值和標(biāo)準(zhǔn)誤差。

在圖5中，我們看到僅使用hy(粉色線)特性的ERM實(shí)現(xiàn)了最低的MSE。接下來，我們對hd的1、2、3、4和5個(gè)維度進(jìn)行數(shù)據(jù)增強(qiáng)，同時(shí)保持hy(橙色線)不變。我們發(fā)現(xiàn)，如果將數(shù)據(jù)增廣應(yīng)用于hd的所有五個(gè)維度，我們可以用特征hy匹配ERM的MSE。在這種情況下，我們滿足方程3中的條件。此外，我們不出所料地發(fā)現(xiàn)，使用應(yīng)用于特征hy的數(shù)據(jù)增強(qiáng) 訓(xùn)練的模型的MSE增加(綠色，紅色，紫色和棕色線)。然而，我們可以看到，只要我們將數(shù)據(jù)增強(qiáng)應(yīng)用到至少三個(gè)hd維度上，使用hd和hy(藍(lán)線)所有特征，得到的MSE低于ERM（as long as we apply data augmentation to at least three dimensions of hd the resulting MSE is lower than ERM using all features hd and hy (blue line).）。也許這個(gè)實(shí)驗(yàn)最令人驚訝的結(jié)果是，在存在的條件下，對d引起的特征和y引起的特征進(jìn)行數(shù)據(jù)增強(qiáng)會比使用所有特征的ERM產(chǎn)生更好的泛化性能。（there exist conditions under which applying data augmentation to features caused by d and features caused by y will result in better generalization performance compared to ERM using all features）

4.2. 旋轉(zhuǎn)MNIST

我們根據(jù)Li等人(2018)構(gòu)建了旋轉(zhuǎn)的MNIST數(shù)據(jù)集。這個(gè)數(shù)據(jù)集由四個(gè)不同的域d和十個(gè)不同的類別y，每個(gè)域?qū)?yīng)不同的旋轉(zhuǎn)角度:d ={0?，30?，60?，90?}。我們首先從MNIST訓(xùn)練數(shù)據(jù)集中隨機(jī)選擇圖像x的子集，然后對該子集的每個(gè)圖像應(yīng)用旋轉(zhuǎn)。對于下一個(gè)域，我們隨機(jī)選擇一個(gè)新的子集。為了保證p(y)在各域之間的方差，每個(gè)數(shù)字類y的訓(xùn)練示例數(shù)從均勻分布U[80,160]中隨機(jī)選取。

對于每個(gè)實(shí)驗(yàn)，選擇三個(gè)領(lǐng)域進(jìn)行訓(xùn)練和一個(gè)領(lǐng)域進(jìn)行測試。對于測試域，對MNIST測試集的10000個(gè)示例應(yīng)用相應(yīng)的旋轉(zhuǎn)。在表2中，我們將結(jié)合ERM的數(shù)據(jù)增強(qiáng)與ERM、域?qū)股窠?jīng)網(wǎng)絡(luò)(DANN) (Ganin等人，2016)和條件域?qū)股窠?jīng)網(wǎng)絡(luò)(CDANN) (Li等人，2018)進(jìn)行了比較。所有方法都使用LeNet (LeCun et al.， 1998)型架構(gòu)，每個(gè)實(shí)驗(yàn)重復(fù)10次。首先，我們使用SDA來尋找最佳的數(shù)據(jù)增強(qiáng)技術(shù)，其中我們對域分類器使用相同的LeNet模型和訓(xùn)練過程，只從訓(xùn)練域中獲取樣本。在所有四種情況下，領(lǐng)域精度最低的數(shù)據(jù)增強(qiáng)是“旋轉(zhuǎn)”，我們在其中留下一個(gè)領(lǐng)域進(jìn)行測試。此外，我們進(jìn)行了消融研究，結(jié)果表明SDA可靠地選擇了最合適的超參數(shù)，結(jié)果見附錄中的表4。其次，我們應(yīng)用0?和359?之間的隨機(jī)旋轉(zhuǎn)圖像x在培訓(xùn)期間，由DA表示。如果我們假設(shè)hd等于給定圖像x中MNIST數(shù)字的旋轉(zhuǎn)角度，對x施加隨機(jī)旋轉(zhuǎn)就等于對hd進(jìn)行噪聲干預(yù)，見公式3。如第2節(jié)所述，對x進(jìn)行隨機(jī)旋轉(zhuǎn)可以理解為從二維旋轉(zhuǎn)組SO(2)中隨機(jī)抽樣元素g。注意元素g∈SO(2)對hy的作用很簡單:旋轉(zhuǎn)不會改變數(shù)字的形狀。結(jié)果是d和y是獨(dú)立的訓(xùn)練數(shù)據(jù)集。在表2中，我們看到DA的結(jié)果對于所有四個(gè)測試域都是相似的。此外，我們發(fā)現(xiàn)DA優(yōu)于ERM、DANN和CDANN，其中CDANN是專門為d和y虛假相關(guān)的情況設(shè)計(jì)的。?

?4.3. 彩色MNIST

在Arjovsky等人(2019)之后，我們創(chuàng)建了一個(gè)版本的MNIST數(shù)據(jù)集，其中每個(gè)數(shù)字的顏色與一個(gè)二進(jìn)制標(biāo)簽y虛假相關(guān)。我們構(gòu)建了兩個(gè)訓(xùn)練域和一個(gè)測試域，其中原始MNIST類' 0 '到' 4 '的數(shù)字被標(biāo)記為y = 0，類' 5 '到' 9 '的數(shù)字被標(biāo)記為y = 1。隨后，對于25%的數(shù)字，我們翻轉(zhuǎn)標(biāo)簽y。現(xiàn)在我們將標(biāo)記為y = 0的數(shù)字涂上紅色，標(biāo)記為y = 1的數(shù)字涂上綠色。最后，我們在第一個(gè)訓(xùn)練域和第二個(gè)訓(xùn)練域分別以0.2和0.1的概率翻轉(zhuǎn)一個(gè)數(shù)字的顏色。在測試域的情況下，數(shù)字的顏色翻轉(zhuǎn)的概率為0.9。根據(jù)設(shè)計(jì)，每個(gè)數(shù)字(' 0 '到' 9 ')的原始MNIST類是新標(biāo)簽y的直接原因，而每個(gè)數(shù)字的顏色是新標(biāo)簽y的后代。

彩色MNIST的DAG，如圖6所示，與圖1中的DAG稍有偏差，盡管如此，第2節(jié)中的推理仍然是有效的。在表1中，我們看到，雖然ERM在訓(xùn)練領(lǐng)域表現(xiàn)良好，但它未能推廣到測試領(lǐng)域，因?yàn)樗鞘褂妙伾畔眍A(yù)測y。相反，IRM (Arjovsky等人，2019)和REx (Krueger等人，2020)推廣到測試領(lǐng)域很好。同樣，我們使用SDA來找到適當(dāng)?shù)臄?shù)據(jù)增強(qiáng)。對于域分類器，我們使用與Arjovsky等人(2019)相同的MLP和訓(xùn)練程序。我們想要強(qiáng)調(diào)的是，SDA只依賴于來自兩個(gè)訓(xùn)練域的樣本，而IRM和REx的超參數(shù)則對來自測試域的樣本進(jìn)行了調(diào)整，如Krueger等人(2020)所述。對于有色MNIST數(shù)據(jù)集，選擇的數(shù)據(jù)增強(qiáng)是“hue”和“translate”，用DA表示。如第2節(jié)所述，對x的色調(diào)值應(yīng)用隨機(jī)排列，相當(dāng)于從排列群SO(2)中隨機(jī)抽樣并應(yīng)用元素g。我們認(rèn)為元素g不會改變hy:包含關(guān)于每個(gè)數(shù)字形狀的信息的高級特征。在我們的實(shí)驗(yàn)中，我們使用與Arjovsky等人(2019)描述的相同的網(wǎng)絡(luò)架構(gòu)和訓(xùn)練程序。每個(gè)實(shí)驗(yàn)重復(fù)10次。我們發(fā)現(xiàn)DA可以成功地削弱d域?qū)的雜散影響，見表1

4.4。PACS

PACS數(shù)據(jù)集(Li et al.， 2017a)被引入為具有較大域偏移特征的域泛化方法的強(qiáng)基準(zhǔn)數(shù)據(jù)集。f每個(gè)域的鏡像數(shù)量分別為1670、2048、2344、3929。有七個(gè)類:y =[狗，大象，長頸鹿，吉他，馬，房子，人]。我們微調(diào)alexnet模型(Krizhevsky等人，2012)，該模型在ImageNet上進(jìn)行了預(yù)訓(xùn)練，使用ERM結(jié)合數(shù)據(jù)增強(qiáng)。在接下來的實(shí)驗(yàn)中，我們使用SDA來選擇數(shù)據(jù)增強(qiáng)。對于域分類器，我們?nèi)缟纤鰧lexnet模型進(jìn)行微調(diào)。此外，我們使用交叉驗(yàn)證過程，其中我們?nèi)サ粢粋€(gè)域，使用三個(gè)域進(jìn)行培訓(xùn)。SDA確定了四種有用的數(shù)據(jù)增強(qiáng)技術(shù):“亮度”、“對比度”、“飽和度”和“色調(diào)”。在組合這四種增強(qiáng)通常被稱為顏色抖動或顏色擾動。通過隨機(jī)應(yīng)用顏色擾動，我們?nèi)趸薶d對y的偽混淆影響，如第2節(jié)所述。在表3中，我們將DA與各種域泛化方法進(jìn)行比較:CDANN (Li等人，2018年)、L2G (Li等人，2017b)、GLCM (Wang等人，2018年)、SSN (Mancini等人，2018年)、IRM (Arjovsky等人，2019年)、REx (Krueger等人，2020年)、MetaReg (Balaji等人，2018年)、JigSaw (Carlucci等人，2019年)，其中所有方法都使用相同的預(yù)訓(xùn)練alexnet模型。每個(gè)實(shí)驗(yàn)重復(fù)5次，報(bào)告平均準(zhǔn)確率。我們發(fā)現(xiàn)DA的平均準(zhǔn)確率最高。與ERM相比，DA在“藝術(shù)繪畫”和“素描”兩個(gè)測試領(lǐng)域的成績提高最大。例如，域“草圖”由白色背景上的七個(gè)對象類的黑色草圖組成，參見圖7。由于對象的顏色與類不相關(guān)，依賴于顏色特征的模型將很難推廣到“草圖”領(lǐng)域。然而，通過隨機(jī)改變訓(xùn)練域中(“藝術(shù)繪畫”、“卡通”、“照片”)圖像的顏色，我們發(fā)現(xiàn)DA能夠更好地概括。

消融研究:使用所有數(shù)據(jù)增強(qiáng)技術(shù)我們使用附錄中列出的所有數(shù)據(jù)增強(qiáng)技術(shù)，在旋轉(zhuǎn)MNIST、有色MNIST和PACS上重復(fù)之前的實(shí)驗(yàn)。我們比較了使用所有數(shù)據(jù)增強(qiáng)技術(shù)訓(xùn)練的分類器和使用SDA訓(xùn)練的分類器的準(zhǔn)確性。我們發(fā)現(xiàn)，同時(shí)使用所有數(shù)據(jù)增強(qiáng)技術(shù)會導(dǎo)致所有三個(gè)數(shù)據(jù)集的性能顯著下降:旋轉(zhuǎn)MNIST的性能下降25.4%，有色MNIST的性能下降8.7%，PACS的性能下降16.1%。我們觀察到數(shù)據(jù)集和數(shù)據(jù)增強(qiáng)技術(shù)的組合本身會導(dǎo)致性能的急劇下降，例如PACS數(shù)據(jù)集和隨機(jī)旋轉(zhuǎn)。我們認(rèn)為，沒有隨機(jī)旋轉(zhuǎn)訓(xùn)練的模型利用了一個(gè)事實(shí)，例如，動物或人的方向通常是直立的。這個(gè)例子表明，我們不能簡單地將數(shù)據(jù)增強(qiáng)描述為“標(biāo)簽保存轉(zhuǎn)換”，因?yàn)樾D(zhuǎn)后的動物或人仍然會有相同的標(biāo)簽。

5. 結(jié)論

這篇論文中，從因果的角度研究了領(lǐng)域泛化中數(shù)據(jù)增強(qiáng)的有效性。通過使用SCM，我們解決了區(qū)域泛化的一個(gè)核心問題:區(qū)域變量d和目標(biāo)變量y的虛假相關(guān)性。雖然在理論上，我們可以對區(qū)域變量d進(jìn)行干預(yù)，但這種解決方案是不切實(shí)際的，因?yàn)槲覀兗僭O(shè)我們只能獲得觀測數(shù)據(jù)。然而，我們表明，數(shù)據(jù)增強(qiáng)可以作為模擬領(lǐng)域變量d及其子變量干預(yù)的替代工具。因此，先驗(yàn)知識可以用來選擇只作用于目標(biāo)變量y的非后代的數(shù)據(jù)增強(qiáng)技術(shù)。此外，我們表明，隨機(jī)應(yīng)用數(shù)據(jù)增強(qiáng)可以理解為從常見對稱群中隨機(jī)抽樣元素。此外，我們提出了一個(gè)簡單的算法來從給定的轉(zhuǎn)換列表中選擇合適的增廣技術(shù)。我們使用一個(gè)域分類器來衡量每個(gè)增強(qiáng)在多大程度上削弱了領(lǐng)域d和由d引起的hd高級特征之間的因果聯(lián)系。我們在四個(gè)不同的數(shù)據(jù)集上評估了這種方法，能夠表明經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化結(jié)合準(zhǔn)確選擇的數(shù)據(jù)增強(qiáng)產(chǎn)生良好的泛化性能。本文的分析可進(jìn)一步應(yīng)用于利用干涉增強(qiáng)等方差設(shè)計(jì)干涉數(shù)據(jù)增強(qiáng)來模擬領(lǐng)域泛化方法的干涉數(shù)據(jù)集

比較吸引我的點(diǎn)在于：

1.用圖1的因果圖+共因來解釋spurious relation的產(chǎn)生

2.用切斷d和hd的方式（do-calculus）分離hd的影響

3.用隨機(jī)域分類器實(shí)現(xiàn)切斷※※

總結(jié)

以上是生活随笔為你收集整理的【论文导读】Selecting Data Augmentation for Simulating Interventions的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：妇产科学习题---有答案
下一篇： Word中插入三线格算法公式，放大不变形

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

【论文导读】Selecting Data Augmentation for Simulating Interventions

【摘要】

【Introduction】

【Method】

2.1 Domain generalization

2.2. 基于因果關(guān)系的領(lǐng)域泛化和數(shù)據(jù)擴(kuò)充

2.3. 模擬的干預(yù)措施

2.4.?為域泛化選擇數(shù)據(jù)擴(kuò)充

3 Related Work

3.1. 學(xué)習(xí)數(shù)據(jù)中的對稱性

3.2. 理解數(shù)據(jù)增強(qiáng)

3.3. 先進(jìn)的數(shù)據(jù)增強(qiáng)技術(shù)

3.4. 因果關(guān)系

4. 實(shí)驗(yàn)

4.1 合成數(shù)據(jù)集

4.2. 旋轉(zhuǎn)MNIST

?4.3. 彩色MNIST

4.4。PACS

5. 結(jié)論

總結(jié)