《Discriminative Unsupervised Feature Learning with Exemplar Convolutional Neural Networks》阅读笔记
《Context Encoders: Feature Learning by Inpainting》閱讀筆記
摘要
我們提出了一種基于上下文的像素預(yù)測(cè)驅(qū)動(dòng)的無(wú)監(jiān)督視覺(jué)特征學(xué)習(xí)算法。類(lèi)似于自動(dòng)編碼器,我們提出了上下文編碼器-一種經(jīng)過(guò)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò),可以生成以周?chē)h(huán)境為條件的任意圖像區(qū)域的內(nèi)容。為了成功完成此任務(wù),上下文編碼器既需要了解整個(gè)圖像的內(nèi)容,又需要為丟失的部分生成合理的假設(shè)。在訓(xùn)練上下文編碼器時(shí),我們已經(jīng)嘗試了標(biāo)準(zhǔn)的逐像素重建損失,以及重建加上對(duì)抗損失。后者可產(chǎn)生更清晰的結(jié)果,因?yàn)樗梢愿玫靥幚磔敵鲋械亩喾N模式。我們發(fā)現(xiàn)上下文編碼器學(xué)習(xí)的表示形式不僅捕獲外觀,而且捕獲視覺(jué)結(jié)構(gòu)的語(yǔ)義。我們定量地證明了我們所學(xué)習(xí)的特征對(duì)于CNN進(jìn)行分類(lèi),檢測(cè)和分割任務(wù)的預(yù)訓(xùn)練的有效性。此外,上下文編碼器可獨(dú)立或作為非參數(shù)方法的初始化用于語(yǔ)義修復(fù)任務(wù)。
1 介紹
我們的視覺(jué)世界非常多樣化,但結(jié)構(gòu)高度結(jié)構(gòu)化,人類(lèi)具有不可思議的能力來(lái)理解這種結(jié)構(gòu)。在這項(xiàng)工作中,我們探索了最新的計(jì)算機(jī)視覺(jué)算法是否可以做到這一點(diǎn)。考慮圖1a所示的圖像。盡管圖像的中心部分丟失了,但是我們大多數(shù)人都可以輕松地從周?chē)南袼刂邢胂蟪銎鋬?nèi)容,而無(wú)需看過(guò)確切的場(chǎng)景。我們中有些人甚至可以繪制它,如圖1b所示。 這種能力來(lái)自以下事實(shí):盡管自然圖像具有多樣性,但結(jié)構(gòu)高度(例如,立面上窗戶(hù)的規(guī)則圖案)。即使只看到場(chǎng)景的一部分,我們?nèi)祟?lèi)也能夠理解這種結(jié)構(gòu)并做出視覺(jué)預(yù)測(cè)。在本文中,我們表明可以使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)來(lái)學(xué)習(xí)和預(yù)測(cè)這種結(jié)構(gòu),卷積神經(jīng)網(wǎng)絡(luò)是最近在各種圖像理解任務(wù)中都顯示出成功的一類(lèi)模型。
給定具有缺失區(qū)域的圖像(例如圖1a),我們訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)以回歸到缺失像素值(圖1d)。我們將我們的模型稱(chēng)為上下文編碼器,它由將圖像上下文捕獲為緊湊的潛在特征表示形式的編碼器和使用該表示形式產(chǎn)生缺失圖像內(nèi)容的解碼器組成。上下文編碼器與自動(dòng)編碼器[3,20]密切相關(guān),因?yàn)樗蚕硐嗨频木幋a器-解碼器體系結(jié)構(gòu)。 自動(dòng)編碼器會(huì)獲取輸入圖像,并在其穿過(guò)低維“瓶頸”層后嘗試對(duì)其進(jìn)行重構(gòu),目的是獲得場(chǎng)景的緊湊特征表示。不幸的是,該特征表示很可能僅壓縮圖像內(nèi)容而不會(huì)學(xué)習(xí)語(yǔ)義上有意義的表示。去噪自動(dòng)編碼器[38]通過(guò)破壞輸入圖像并要求網(wǎng)絡(luò)消除損害來(lái)解決此問(wèn)題。但是,此損壞過(guò)程通常是非常局部的并且是低級(jí)的,并且不需要大量的語(yǔ)義信息即可撤消。相比之下,我們的上下文編碼器需要解決更艱巨的任務(wù):填充圖像的較大缺失區(qū)域,該區(qū)域無(wú)法從附近像素獲得“提示”。
這需要對(duì)場(chǎng)景進(jìn)行更深入的語(yǔ)義理解,并具有在較大空間范圍內(nèi)合成高級(jí)特征的能力。例如,在圖1a中,需要“憑空”來(lái)構(gòu)想整個(gè)窗口。這在本質(zhì)上類(lèi)似于word2vec [30],后者通過(guò)在給定上下文的情況下預(yù)測(cè)單詞來(lái)從自然語(yǔ)言句子中學(xué)習(xí)單詞表示。像自動(dòng)編碼器一樣,上下文編碼器以完全不受監(jiān)督的方式進(jìn)行訓(xùn)練。我們的結(jié)果表明,為了成功完成此任務(wù),模型既需要理解圖像的內(nèi)容,又需要為缺失的部分提供合理的假設(shè)。但是,此任務(wù)本質(zhì)上是多模式的,因?yàn)橛卸喾N方法可以填充缺失的區(qū)域,同時(shí)還可以保持與給定上下文的一致性。通過(guò)聯(lián)合訓(xùn)練上下文編碼器以使重建損失和對(duì)抗損失最小化,我們?cè)趽p失函數(shù)中消除了這種負(fù)擔(dān)。重建損失(L2)捕獲了與上下文有關(guān)的缺失區(qū)域的整體結(jié)構(gòu),而對(duì)抗損失[16]具有從分布中選擇特定模式的效果。圖1顯示,僅使用重建損失會(huì)產(chǎn)生模糊的結(jié)果,而將對(duì)抗損失相加會(huì)得出更清晰的預(yù)測(cè)。
我們分別評(píng)估編碼器和解碼器。在編碼器方面,我們表明僅對(duì)圖像補(bǔ)丁的上下文進(jìn)行編碼,然后使用結(jié)果特征從數(shù)據(jù)集中檢索最近鄰上下文,就會(huì)產(chǎn)生在語(yǔ)義上與原始(看不見(jiàn)的)補(bǔ)丁相似的補(bǔ)丁。我們通過(guò)針對(duì)各種圖像理解任務(wù)(包括分類(lèi),對(duì)象檢測(cè)和語(yǔ)義分割)微調(diào)編碼器,進(jìn)一步驗(yàn)證了學(xué)習(xí)到的特征表示的質(zhì)量。在這些任務(wù)上,我們與最先進(jìn)的無(wú)監(jiān)督/自我監(jiān)督方法競(jìng)爭(zhēng)。在解碼器方面,我們表明我們的方法通常能夠填充逼真的圖像內(nèi)容。確實(shí),據(jù)我們所知,我們是第一個(gè)能夠?yàn)檎Z(yǔ)義孔填充(即大的缺失區(qū)域)提供合理結(jié)果的參數(shù)修復(fù)算法。上下文編碼器還可以作為更好,用于在非參數(shù)修復(fù)方法中計(jì)算最近鄰的視覺(jué)特征。
2 相關(guān)工作
在過(guò)去的十年中,計(jì)算機(jī)視覺(jué)在語(yǔ)義圖像理解任務(wù)(例如分類(lèi),對(duì)象檢測(cè)和分段)方面取得了巨大進(jìn)步。 最近,卷積神經(jīng)網(wǎng)絡(luò)(CNN)[13,27]大大提高了這些任務(wù)的性能[15,26,28]。 這種圖像分類(lèi)模型的成功為解決更棘手的問(wèn)題鋪平了道路,其中包括無(wú)監(jiān)督的理解和自然圖像的生成。 我們簡(jiǎn)要回顧與本文有關(guān)的每個(gè)子領(lǐng)域中的相關(guān)工作。
-
無(wú)監(jiān)督學(xué)習(xí)
CNN經(jīng)過(guò)ImageNet [37]分類(lèi)訓(xùn)練,有超過(guò)一百萬(wàn)個(gè)帶有標(biāo)簽的示例,其學(xué)習(xí)的功能可以很好地概括各個(gè)任務(wù)[9]。 但是,是否可以?xún)H從原始圖像中學(xué)習(xí)這種語(yǔ)義上有意義且可概括的特征,而無(wú)需任何標(biāo)簽,這仍然是一個(gè)懸而未決的問(wèn)題。 自動(dòng)編碼器是深度無(wú)監(jiān)督學(xué)習(xí)中最早的工作[3,20]。 沿著相似的路線(xiàn),去噪自動(dòng)編碼器[38]從局部損壞中重建圖像,以使編碼對(duì)于此類(lèi)損壞具有魯棒性。 盡管可以將上下文編碼器視為去噪自動(dòng)編碼器的一種變體,但應(yīng)用于模型輸入的損壞在空間上要大得多,需要更多的語(yǔ)義信息才能撤消。 -
弱監(jiān)督和自監(jiān)督學(xué)習(xí)
最近,人們非常關(guān)注使用弱監(jiān)督和自我監(jiān)督學(xué)習(xí)來(lái)學(xué)習(xí)有意義的表示形式。 一種有用的監(jiān)督來(lái)源是使用視頻中包含的時(shí)間信息。 跨時(shí)間框架的一致性已被用作監(jiān)督學(xué)習(xí)嵌入的方法,這些嵌入在許多任務(wù)上表現(xiàn)良好[17,34]。 使用一致性的另一種方法是跟蹤視頻幀中包含任務(wù)相關(guān)屬性的補(bǔ)丁,并使用跟蹤補(bǔ)丁的一致性來(lái)指導(dǎo)訓(xùn)練[39]。 從非視覺(jué)傳感器讀取的自我運(yùn)動(dòng)已被用作監(jiān)督信號(hào),以訓(xùn)練視覺(jué)特征等。 [1,21]。與本文最密切相關(guān)的是努力利用空間背景作為自由和豐富的監(jiān)督信號(hào)的來(lái)源。 Visual Memex [29]使用上下文來(lái)非參數(shù)地建模對(duì)象關(guān)系并預(yù)測(cè)場(chǎng)景中被遮罩的對(duì)象,而[6]使用上下文來(lái)建立無(wú)監(jiān)督對(duì)象發(fā)現(xiàn)的對(duì)應(yīng)關(guān)系。但是,這兩種方法都依賴(lài)于手工設(shè)計(jì)的功能,并且沒(méi)有執(zhí)行任何表示學(xué)習(xí)。最近,Doersch等人。 [7]使用預(yù)測(cè)圖像中相鄰小塊的相對(duì)位置的任務(wù)作為訓(xùn)練無(wú)監(jiān)督的深層特征表示的方法。我們與Doersch等人擁有相同的高級(jí)目標(biāo)。但是在方法上根本不同:[7]正在解決區(qū)分性任務(wù)(補(bǔ)丁A在補(bǔ)丁B之上還是在補(bǔ)丁B以下?),我們的上下文編碼器解決了一個(gè)純粹的預(yù)測(cè)問(wèn)題(什么像素強(qiáng)度應(yīng)該進(jìn)入孔中?)。有趣的是,在使用語(yǔ)言上下文學(xué)習(xí)單詞嵌入時(shí)也存在類(lèi)似的區(qū)別:Collobert和Weston [5]提倡一種判別方法,而word2vec [30]將其表述為單詞預(yù)測(cè)。我們的方法的一個(gè)重要好處是我們的監(jiān)控信號(hào)要豐富得多:上下文編碼器需要為每個(gè)訓(xùn)練示例預(yù)測(cè)大約15,000個(gè)實(shí)際值,而在[7]的8個(gè)選擇中只有一個(gè)選項(xiàng)。可能是由于這種差異所引起的,我們的上下文編碼器花費(fèi)的時(shí)間比[7]少得多。此外,與[7]相比,色差部分解決了任務(wù),基于上下文的預(yù)測(cè)也很難“欺騙”,因?yàn)榈图?jí)圖像特征(例如色差)不會(huì)提供任何有意義的信息。另一方面,尚不清楚是否需要通過(guò)穩(wěn)定的像素生成來(lái)學(xué)習(xí)良好的視覺(jué)特征。
-
圖像生成
自然圖像的生成模型已經(jīng)引起了廣泛的研究興趣[16、24、35]。 最近,Radford等人。 [33]提出了新的卷積架構(gòu)和針對(duì)生成對(duì)抗網(wǎng)絡(luò)(GAN)的優(yōu)化超參數(shù)[16],產(chǎn)生了令人鼓舞的結(jié)果。 我們使用對(duì)手與重建損失一起訓(xùn)練上下文編碼器,以生成修復(fù)結(jié)果。 我們將在3.2節(jié)中對(duì)此進(jìn)行詳細(xì)討論。 Dosovitskiy等。 [10]和Rifai等。 [36]證明了CNN可以學(xué)習(xí)生成特定對(duì)象類(lèi)別(分別為椅子和面部)的新穎圖像,但是依賴(lài)帶有這些類(lèi)別示例的大型標(biāo)記數(shù)據(jù)集。 相反,上下文編碼器可以應(yīng)用于任何未標(biāo)記的圖像數(shù)據(jù)庫(kù),并學(xué)習(xí)基于周?chē)舷挛纳蓤D像。 -
修補(bǔ)和填孔
重要的是要指出,我們的孔填充任務(wù)無(wú)法通過(guò)經(jīng)典的修補(bǔ)[4,32]或紋理合成[2,11]方法來(lái)處理,因?yàn)槿鄙俚膮^(qū)域太大,無(wú)法局部使用非語(yǔ)義方法。 在計(jì)算機(jī)圖形學(xué)中,通常通過(guò)場(chǎng)景完成來(lái)完成大洞的填充[19],其中涉及使用數(shù)百萬(wàn)個(gè)圖像數(shù)據(jù)集中的最近鄰進(jìn)行剪切粘貼公式化。 但是,場(chǎng)景完成是為了填補(bǔ)通過(guò)移除整個(gè)對(duì)象而留下的空洞,并且它很難填補(bǔ)任意空洞,例如 部分遮擋的對(duì)象的無(wú)模態(tài)完成。 此外,之前的完成取決于手工制作的距離量度,例如 Gist [31]用于最近鄰計(jì)算,該算法劣于學(xué)習(xí)距離的度量。 我們證明了我們的方法通常能夠以參數(shù)化方式來(lái)修補(bǔ)語(yǔ)義上有意義的內(nèi)容,并為基于最近鄰的修補(bǔ)方法提供更好的功能。
3 用于圖像生成的上下文編碼器
現(xiàn)在,我們介紹上下文編碼器:CNN 可以從周?chē)h(huán)境中預(yù)測(cè)場(chǎng)景的缺失部分。 我們首先給出總體架構(gòu)的概述,然后提供學(xué)習(xí)過(guò)程的詳細(xì)信息,最后提出用于圖像區(qū)域去除的各種策略。
- 3.1 編解碼器途徑
總體架構(gòu)是一個(gè)簡(jiǎn)單的編碼器-解碼器管道。編碼器獲取缺少區(qū)域的輸入圖像,并生成該圖像的潛在特征表示。解碼器采用此特征表示并生成丟失的圖像內(nèi)容。我們發(fā)現(xiàn)通過(guò)通道的全連接層連接編碼器和解碼器很重要,這允許解碼器中的每個(gè)單元推理整個(gè)圖像內(nèi)容。圖2顯示了我們的體系結(jié)構(gòu)的概述。
- 編碼器
- 我們的編碼器源自AlexNet架構(gòu)[26]。給定大小為227×227的輸入圖像,我們使用前五個(gè)卷積層和隨后的合并層(稱(chēng)為pool5)來(lái)計(jì)算抽象的6×6×256維特征表示。與AlexNet相比,我們的模型沒(méi)有針對(duì)ImageNet分類(lèi)進(jìn)行訓(xùn)練;而是訓(xùn)練網(wǎng)絡(luò)使用隨機(jī)初始化的權(quán)重“從頭開(kāi)始”進(jìn)行上下文預(yù)測(cè)。
但是,如果編碼器體系結(jié)構(gòu)僅限于卷積層,則無(wú)法將信息直接從特征圖的一個(gè)角傳播到另一個(gè)角。之所以如此,是因?yàn)榫矸e層將所有要素圖連接在一起,但從未直接將特定要素圖中的所有位置連接在一起。在當(dāng)前體系結(jié)構(gòu)中,此信息傳播由全連接層或內(nèi)部產(chǎn)生層處理,其中所有激活都直接相互連接。在我們的體系結(jié)構(gòu)中,編碼器和解碼器的潛在特征尺寸均為6×6×256 = 9216。之所以如此,是因?yàn)榕c自動(dòng)編碼器不同,我們不重建原始輸入,因此不必具有較小的瓶頸。但是,完全連接編碼器和解碼器會(huì)導(dǎo)致爆炸。參數(shù)的數(shù)量(超過(guò)100M!),以至于難以在當(dāng)前GPU上進(jìn)行有效訓(xùn)練。為了緩解此問(wèn)題,我們使用通道級(jí)全連接層將編碼器功能部件連接到解碼器,下面將詳細(xì)介紹。 - 通道級(jí)全連接層
- 該層實(shí)質(zhì)上是成組的全連接層,旨在在每個(gè)要素圖的激活范圍內(nèi)傳播信息。如果輸入層具有m個(gè)大小為n×n的特征圖,則該層將輸出m個(gè)大小為n×n的特征圖。然而,與完全連接的圖層不同,它沒(méi)有連接不同要素圖的參數(shù),僅在要素圖內(nèi)傳播信息。因此,與完全連接層中的m2n4m^2n^4m2n4參數(shù)相比(忽略偏置項(xiàng)),此通道方式完全連接層中的參數(shù)數(shù)量為mn4mn^4mn4。隨后是步幅1卷積,以跨通道傳播信息。
- 解碼器
- 現(xiàn)在我們討論流水線(xiàn)的后半部分,即解碼器,它使用編碼器功能生成圖像的像素。 “編碼器功能”使用通道方式的完全連接層連接到“解碼器功能”。通道級(jí)完全連接層后面是一系列五個(gè)向上卷積的層[10、28、40],這些層具有學(xué)習(xí)的濾波器,每個(gè)濾波器都具有整流線(xiàn)性單元(ReLU)激活功能。向上卷積只是導(dǎo)致高分辨率圖像的卷積。可以理解為先進(jìn)行升采樣再進(jìn)行卷積(如[10]中所述),或進(jìn)行帶小步幅的卷積(如[28]中所述)。這背后的直覺(jué)很直接-一系列的向上卷積和非線(xiàn)性包括編碼器產(chǎn)生的特征的非線(xiàn)性加權(quán)向上采樣,直到我們大致達(dá)到原始目標(biāo)大小為止。
- 3.2 損失函數(shù)
- 我們通過(guò)回歸缺失(丟失)區(qū)域的真值內(nèi)容來(lái)訓(xùn)練上下文編碼器。然而,通常有多種同樣合理的方式來(lái)填充與上下文一致的缺失圖像區(qū)域。我們通過(guò)具有解耦的聯(lián)合損失函數(shù)來(lái)處理此行為,以處理上下文中的連續(xù)性和輸出中的多個(gè)模式。重建(L2)損失負(fù)責(zé)捕獲缺失區(qū)域的整體結(jié)構(gòu)并就其上下文進(jìn)行連貫,但往往會(huì)將預(yù)測(cè)中的多個(gè)模式平均在一起。另一方面,對(duì)抗性損失[16]試圖使預(yù)測(cè)看起來(lái)真實(shí),并具有從分布中選擇特定模式的效果。對(duì)于每個(gè)真值圖像xxx,我們的上下文編碼器F產(chǎn)生輸出F(x)F(x)F(x)。設(shè)M^\widehat{M}M為與丟棄的圖像區(qū)域相對(duì)應(yīng)的二進(jìn)制掩碼,在任何丟棄的像素處值為1,對(duì)于輸入的像素為0。在訓(xùn)練期間,將針對(duì)每個(gè)圖像和訓(xùn)練迭代自動(dòng)生成這些蒙版,如第3.3節(jié)中所述。現(xiàn)在我們描述損失函數(shù)的不同組成部分
- 重建損失 我們使用masked L2距離作為我們的重建損失函數(shù)LrecLrecLrec,
Lrec(x)=∣∣M^⊙(x?F((1?M^)⊙x))∣∣2Lrec(x)= ||\hat{M} \odot (x-F((1-\hat{M})\odot x))||_2Lrec(x)=∣∣M^⊙(x?F((1?M^)⊙x))∣∣2?
其中,⊙\odot⊙是元素乘積運(yùn)算。 我們對(duì)L1和L2損耗進(jìn)行了實(shí)驗(yàn),發(fā)現(xiàn)它們之間沒(méi)有顯著差異。 盡管這種簡(jiǎn)單的損失促使解碼器生成了預(yù)測(cè)對(duì)象的粗略輪廓,但它常常無(wú)法捕獲任何高頻細(xì)節(jié)(見(jiàn)圖1c)。 這是由于L2(或L1)的損失通常比模糊的紋理更傾向于模糊的解決方案。 我們相信,發(fā)生這種情況是因?yàn)長(zhǎng)2損失預(yù)測(cè)分布的均值“更安全”,因?yàn)檫@會(huì)最小化平均像素方向的誤差,但會(huì)導(dǎo)致平均圖像模糊。 我們通過(guò)增加對(duì)抗性損失緩解了這個(gè)問(wèn)題。 - 對(duì)抗性損失 我們的對(duì)抗性損失是基于生成對(duì)抗性網(wǎng)絡(luò)(GAN)[16]。為了學(xué)習(xí)數(shù)據(jù)分布的生成模型G,GAN提議共同學(xué)習(xí)對(duì)抗性判別模型D,以為生成模型提供損失梯度。 G和D是參數(shù)函數(shù)(例如,深層網(wǎng)絡(luò)),其中G:Z→X將樣本從噪聲分布Z映射到數(shù)據(jù)分布X。學(xué)習(xí)過(guò)程是一個(gè)兩人游戲,對(duì)手辨別器D接受G樣本和地面真實(shí)樣本的預(yù)測(cè),并試圖區(qū)分它們,而G試圖通過(guò)產(chǎn)生盡可能“真實(shí)”的樣本來(lái)混淆D。判別目標(biāo)是邏輯似然,指示輸入是真實(shí)樣本還是預(yù)測(cè)樣本:
最近,這種方法在圖像的生成建模中顯示出令人鼓舞的結(jié)果[33]。因此,我們通過(guò)上下文編碼器對(duì)生成器進(jìn)行建模,從而使該框架適用于上下文預(yù)測(cè)。即G=FG =FG=F。為了為此任務(wù)定制GAN,可以以給定的上下文信息為條件。即遮罩M^⊙x\hat{M}\odot xM^⊙x。但是,條件GAN很難訓(xùn)練上下文預(yù)測(cè)任務(wù),因?yàn)閷?duì)抗性鑒別器D可以輕松利用生成區(qū)域和原始上下文中的感知不連續(xù)性輕松地對(duì)預(yù)測(cè)樣本與真實(shí)樣本進(jìn)行分類(lèi)。因此,我們通過(guò)在上下文中僅對(duì)生成器(而不是鑒別器)進(jìn)行條件化來(lái)使用另一種表述。我們還發(fā)現(xiàn),當(dāng)發(fā)生器不以噪聲矢量為條件時(shí),結(jié)果會(huì)得到改善。我們的上下文編碼器的GAN目標(biāo)如下:因此,上下文編碼器LadvLadvLadv的對(duì)抗損失為
在實(shí)踐中,使用交替的SGD對(duì)F和D進(jìn)行聯(lián)合優(yōu)化。 請(qǐng)注意,此目標(biāo)鼓勵(lì)上下文編碼器的整個(gè)輸出看起來(lái)逼真,而不僅僅是方程(1)中的缺失區(qū)域。
- 3.2 區(qū)域遮罩
上下文編碼器的輸入是一幅圖像,其中一個(gè)或多個(gè)區(qū)域“掉線(xiàn)”; 也就是說(shuō),假設(shè)輸入為零,則將其設(shè)置為零。 刪除的區(qū)域可以是任何形狀,在此我們提出三種不同的策略:
中央?yún)^(qū)域最簡(jiǎn)單的這種形狀是圖像中的中央正方形斑塊,如圖3a所示。盡管這對(duì)于修復(fù)效果很好,但是網(wǎng)絡(luò)學(xué)習(xí)的是低級(jí)圖像特征,而不是鎖定在中央蒙版的邊界上。這些低級(jí)圖像特征往往不能很好地推廣到?jīng)]有遮罩的圖像,因此學(xué)到的特征不是很普遍。隨機(jī)塊為了防止網(wǎng)絡(luò)在被遮罩區(qū)域的恒定邊界上鎖存,我們將遮罩過(guò)程隨機(jī)化。與其在固定位置選擇一個(gè)較大的遮罩,不如刪除許多較小的可能重疊的遮罩,這些遮罩最多覆蓋圖像的1 4。這樣的一個(gè)例子在圖3b中示出。但是,隨機(jī)塊遮罩仍然具有明顯的邊界,卷積特征可能會(huì)鎖定在其上。隨機(jī)區(qū)域?yàn)榱送耆切┻吔?#xff0c;我們嘗試了從圖像中刪除任意形狀,這些圖像是從PASCAL VOC 2012數(shù)據(jù)集中的隨機(jī)蒙版獲得的[12]。我們將這些形狀變形并粘貼到其他圖像的任意位置(不是來(lái)自PASCAL),再次覆蓋圖像的1 4。請(qǐng)注意,我們完全隨機(jī)化了區(qū)域遮罩過(guò)程,并且不希望或不希望源分割遮罩和圖像之間有任何關(guān)聯(lián)。我們僅使用這些區(qū)域來(lái)防止網(wǎng)絡(luò)學(xué)習(xí)與刪除的蒙版相對(duì)應(yīng)的底層功能。參見(jiàn)圖3c中的示例。在實(shí)踐中,我們發(fā)現(xiàn)區(qū)域和隨機(jī)塊遮罩會(huì)產(chǎn)生相似的一般特征,同時(shí)明顯優(yōu)于中心區(qū)域特征。我們對(duì)所有基于特征的實(shí)驗(yàn)都使用隨機(jī)區(qū)域缺失。
總結(jié)
以上是生活随笔為你收集整理的《Discriminative Unsupervised Feature Learning with Exemplar Convolutional Neural Networks》阅读笔记的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 【5 操作系统调度】
- 下一篇: 简易打字测试