當(dāng)前位置：首頁 > 人文社科 > 生活经验 >内容正文

生活经验

图像分类：CVPR2020论文解读

發(fā)布時(shí)間：2023/11/28 生活经验 37 豆豆

生活随笔收集整理的這篇文章主要介紹了图像分类：CVPR2020论文解读小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

圖像分類：CVPR2020論文解讀

Towards Robust Image Classi?cation Using Sequential
Attention Models

論文鏈接：https://arxiv.org/pdf/1912.02184.pdf

摘要

在這篇文章中，我們提出用一個(gè)受人類感知啟發(fā)的注意力模型來擴(kuò)充一個(gè)現(xiàn)代的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。具體地說，我們對一個(gè)神經(jīng)模型進(jìn)行了逆向訓(xùn)練和分析，該模型包含了一個(gè)受人啟發(fā)的視覺注意成分，由一個(gè)自上而下的循環(huán)順序過程引導(dǎo)。我們的實(shí)驗(yàn)評估揭示了關(guān)于這個(gè)新模型的穩(wěn)健性和行為的幾個(gè)顯著發(fā)現(xiàn)。首先，對該模型的關(guān)注顯著地提高了對抗的穩(wěn)健性，從而在廣泛的隨機(jī)目標(biāo)攻擊強(qiáng)度下獲得最先進(jìn)的ImageNet精度。其次，我們表明，通過改變模型展開的注意步驟（瀏覽/調(diào)整）的數(shù)量，我們能夠使其防御能力更強(qiáng)，即使是在更強(qiáng)大的攻擊下——導(dǎo)致攻擊者和防御者之間的“計(jì)算競賽”。最后，我們證明了攻擊我們的模型所產(chǎn)生的一些對抗性例子與傳統(tǒng)的對抗性例子有很大的不同——它們包含來自目標(biāo)類的全局的、顯著的和空間上連貫的結(jié)構(gòu)，即使是人類也可以識別出來，把模型的注意力從原始圖像中的主要對象轉(zhuǎn)移開。

Introduction

在這項(xiàng)工作中，我們建議使用asoft，順序，空間，自上而下的注意機(jī)制（我們簡稱為S3TA）[39]，從靈長類視覺系統(tǒng)中汲取靈感。雖然我們不認(rèn)為這是一個(gè)生物學(xué)上合理的模型，但我們確實(shí)認(rèn)為這個(gè)模型捕捉到了視覺皮層的一些功能，即注意力瓶頸和順序的自上而下的控制。我們在ImageNet圖像上對該模型進(jìn)行了對抗性訓(xùn)練，表明該模型對對抗性攻擊具有最先進(jìn)的魯棒性（重點(diǎn)是投影梯度下降或PGD[32，36]攻擊）。我們表明，通過增加展開模型的步驟數(shù)，可以更好地抵御更強(qiáng)的攻擊，從而在攻擊者和防御者之間產(chǎn)生“計(jì)算競賽”。最后，但重要的是，我們表明，由此產(chǎn)生的對抗性例子通常（盡管并不總是）包括全局的、顯著的結(jié)構(gòu)，這些結(jié)構(gòu)將被人類感知和解釋（圖1）。此外，我們還發(fā)現(xiàn)，攻擊往往試圖將模型的注意力吸引到圖像的不同部分，而不是直接擾動源圖像中的主要對象。

Related Work

對抗性訓(xùn)練：對抗性訓(xùn)練旨在建立對抗性攻擊的模型。

反復(fù)注意模型：注意機(jī)制被廣泛應(yīng)用于許多序列建模問題，如問答[24]、機(jī)器翻譯[6，52]、視頻分類和字幕[46，33]、圖像分類和字幕[37，11，17，1，55，60，53，5，57]、文本分類[58，47]、生成模型[42，59，30]，目標(biāo)跟蹤[29]和強(qiáng)化學(xué)習(xí)[10]。

注意對抗性穩(wěn)健性：已經(jīng)有一些工作研究注意的使用，以加強(qiáng)分類對抗對抗性攻擊。

Model

我們強(qiáng)調(diào)了模型的重要組成部分，如圖2所示。關(guān)于全部細(xì)節(jié)，我們請讀者參閱[39]和補(bǔ)充材料。該模型首先將輸入圖像通過一個(gè)“視覺”網(wǎng)絡(luò)-一個(gè)卷積神經(jīng)網(wǎng)絡(luò)（這里我們使用一個(gè)修改過的ResNet152，見下文）。我們對所有時(shí)間步使用相同的輸入圖像，因此ResNet的輸出只需要計(jì)算一次。然后，生成的輸出張量沿著通道維度分割，以生成鍵張量和值張量。對于這兩個(gè)張量，我們連接一個(gè)固定的空間基張量，該張量使用傅立葉表示對空間位置進(jìn)行編碼。這個(gè)空間基礎(chǔ)是重要的，因?yàn)槲覀兊淖⒁饬ζ款i和空間導(dǎo)致這些張量的空間結(jié)構(gòu)消失，這個(gè)基礎(chǔ)允許傳遞空間位置信息。

在這種情況下，關(guān)于我們的模型版本的幾個(gè)要點(diǎn)：

?注意力瓶頸使得模型的決策可能很大程度上依賴于圖像。這可能是由于注意圖在每個(gè)時(shí)間步的形狀，以及這些圖在時(shí)間步之間可以有很大的變化。這會導(dǎo)致局部對抗性干擾[38]的效果降低。我們在第6節(jié)中對此進(jìn)行了討論，并表明實(shí)際上，我們經(jīng)常觀察到攻擊者需要全局?jǐn)_動才能成功進(jìn)行攻擊。

?在最后一點(diǎn)之后，注意圖有一個(gè)單獨(dú)的通道將所有的價(jià)值通道調(diào)制在一起，這一事實(shí)限制了這些通道的內(nèi)容在空間上是一致的。在常規(guī)ResNet體系結(jié)構(gòu)中，讀取最后一個(gè)塊輸出，并在每個(gè)通道上獨(dú)立完成平均池，這允許網(wǎng)絡(luò)在信息到達(dá)最后一層時(shí)丟失空間結(jié)構(gòu)。

?為了使空間元素，因此注意力瓶頸的影響更加明顯，我們修改ResNet架構(gòu)，使最終輸出具有更大的空間維度。這是通過在除了第二個(gè)剩余塊以外的所有塊中將跨步更改為1來完成的。對于ImageNet輸入（224×224像素），得到的地圖是28×28像素大（而在常規(guī)ResNet中是7×7）。

?注意機(jī)制的自上而下性質(zhì)是，查詢來自LSTM的狀態(tài)，而不是來自輸入。因此，模型可以根據(jù)其內(nèi)部狀態(tài)而不僅僅是輸入來主動選擇相關(guān)信息。這允許模型在查詢圖像和生成輸出時(shí)考慮自身的不確定性。

模型的這些順序性質(zhì)允許在不改變參數(shù)數(shù)量的情況下增加計(jì)算能力。我們在第5節(jié)中證明了這有助于增強(qiáng)健壯性。

Adversarial Risk

在本文中，我們考慮圖像預(yù)測在圖像x的球內(nèi)保持不變的具體情況，其中相對于在0和1之間縮放的像素強(qiáng)度，允許的最大擾動為=16/255。具體來說，我們關(guān)注ImageNet數(shù)據(jù)集[12]，我們主要將目標(biāo)PGD攻擊視為威脅模型，其中目標(biāo)類是根據(jù)[2、28、56]一致隨機(jī)選擇的，前提是未目標(biāo)攻擊可能導(dǎo)致ImageNet上不太有意義的比較（例如，非常相似犬種的錯(cuò)誤分類）。

4.1. AdversarialTraining

為了訓(xùn)練對抗性攻擊的模型，我們遵循了[36]和最近的[56]提出的對抗性訓(xùn)練方法。根據(jù)等式（1）中的對抗風(fēng)險(xiǎn)，我們希望最小化以下鞍點(diǎn)問題：

其中，內(nèi)部最大化問題是找出能使損失最大化的x的對抗擾動；外部最小化問題旨在更新模型參數(shù)，從而使對抗風(fēng)險(xiǎn)p(θ)最小化。

4.2. AdversarialEvaluation

在本文中，我們使用PGD攻擊來評估該模型，該模型在社區(qū)中被視為一個(gè)強(qiáng)攻擊1，并且有幾篇已發(fā)表的論文將其作為基準(zhǔn)。在我們不能采用解析梯度的情況下，或者在它們不有用的情況下，我們可以使用無梯度優(yōu)化來近似梯度。使用無梯度方法，我們可以驗(yàn)證魯棒性是否源于模型體系結(jié)構(gòu)的梯度模糊。在這項(xiàng)工作中，我們使用SPSA算法[48]，它非常適合于高維優(yōu)化問題，即使在不確定目標(biāo)的情況下。我們使用[51]中的SPSA公式來產(chǎn)生對抗性攻擊。在SPSA算法中，首先從Rademacher分布（即Bernoulli±1）中抽取一批n個(gè)樣本，即，然后用隨機(jī)方向上的有限差分估計(jì)逼近梯度。具體來說，對于第i個(gè)樣本，估計(jì)的梯度gi計(jì)算如下：

式中，δ是擾動大小，xt是第t次迭代時(shí)的擾動圖像，f是要評估的模型。最后，SPSA對估計(jì)的梯度進(jìn)行聚合，并在輸入文本上執(zhí)行投影梯度下降。整個(gè)過程按預(yù)先確定的迭代次數(shù)進(jìn)行迭代。

Experiments Results

第一組模型采用10步PGD對抗性訓(xùn)練。這些模型通常比使用30個(gè)PGD步驟（見下文）訓(xùn)練的模型更弱，但訓(xùn)練所需的時(shí)間和資源更少。圖3顯示了這些模型對于ImageNet測試數(shù)據(jù)集在廣泛的隨機(jī)靶向PGD攻擊強(qiáng)度下的top1準(zhǔn)確性，與ResNet-152基線相比（在對抗性訓(xùn)練期間也訓(xùn)練了10個(gè)PGD步驟）。最薄弱的模型S3TA-2只有兩個(gè)注意步驟，只能發(fā)送兩個(gè)查詢，一個(gè)在它看到圖像之前，另一個(gè)在第一步處理答案之后。這就強(qiáng)調(diào)了注意力瓶頸本身，而不是模型的順序性。可以看到，瓶頸本身已經(jīng)允許模型在ResNet-152基線上顯著改進(jìn)。通過增加注意步驟的數(shù)量，我們可以進(jìn)一步提高對抗精度：展開16個(gè)步驟（S3TA-16）顯著提高了穩(wěn)健性-S3TA16模型比ResNet-152模型更能抵抗1000個(gè)PGD攻擊步驟。事實(shí)上，在對抗性訓(xùn)練中使用10個(gè)PGD步驟訓(xùn)練的S3TA-16模型比使用30個(gè)PGD步驟訓(xùn)練的ResNet-152更加健壯（見圖4）。這表明在攻擊強(qiáng)度和我們允許模型具有的計(jì)算步驟之間存在一種“計(jì)算競賽”。模型的計(jì)算步驟越多，對強(qiáng)攻擊的防御能力就越強(qiáng)。超過1000個(gè)攻擊步驟并不會改變圖片，因?yàn)榇蠖鄶?shù)模型的飽和性能接近1000個(gè)步驟。完整的結(jié)果，包括攻擊成功率和名義精度，可以在表1和補(bǔ)充材料中找到。

我們現(xiàn)在來比較30步PGD對抗訓(xùn)練的模型。這些模型一般都要強(qiáng)大得多，在各種攻擊強(qiáng)度下都能獲得良好的魯棒性結(jié)果，但需要大量的資源和時(shí)間進(jìn)行訓(xùn)練。圖4顯示了S3TA16-30模型（其中-30表示訓(xùn)練過程中的30個(gè)PGD步驟）與ResNet-152模型相比的最高精確度，并對其進(jìn)行去噪[56]，后者是目前對抗穩(wěn)健性方面的最新技術(shù)。可以看出，S3TA-16的性能遠(yuǎn)遠(yuǎn)優(yōu)于這兩種機(jī)型，為隨機(jī)目標(biāo)攻擊奠定了新的技術(shù)水平。圖5顯示了到目前為止討論的所有模型的攻擊成功率。在評估防御策略時(shí)，當(dāng)模型的名義精度較高且具有可比性時(shí)，測量攻擊成功率是有意義的。對于這里展示的所有模型，這是正確的（見表1）。值得注意的是，這個(gè)方法的結(jié)果是：更多的注意步驟有助于降低攻擊成功率，而更多的PGD步驟則有助于訓(xùn)練。對S3TA-16-30的攻擊成功率比去噪（越低越好）低25%左右。

文獻(xiàn)中大多數(shù)健壯性度量都是針對有目標(biāo)的、基于梯度的攻擊。然而，僅對目標(biāo)攻擊具有魯棒性的模型弱于對非目標(biāo)攻擊具有魯棒性的模型[15]。在表2中，我們使用200 PGD步驟報(bào)告針對S3TA-16-30與ResNet-152、去噪和LLR的非目標(biāo)攻擊的結(jié)果[43]。在這種情況下，我們的型號非常有競爭力，無論是=4/255還是=16/255。我們還探索了無梯度方法，以確保模型不會混淆梯度【51,3】。具體來說，我們使用隨機(jī)目標(biāo)SPSA[51]，其批大小為4096，在=16/255下迭代100次，用于無梯度攻擊。我們使用迭代符號梯度[32，56]和由SPSA估計(jì)的梯度。在隨機(jī)選擇的1000個(gè)圖像子集上的結(jié)果見表3。我們可以觀察到，與基于梯度的攻擊相比，SPSA并不降低準(zhǔn)確性。這提供了一個(gè)額外的證據(jù)，證明模型的強(qiáng)大性能不是由于梯度掩蔽。由于SPSA的對抗精度較低（即所有模型的防御能力都優(yōu)于基于梯度的方法），因此模型之間的性能差異并不是很明顯。

另一種確保梯度不被混淆的方法是通過可視化損失景觀[43,50]。圖6顯示了S3TA-4和S3TA-16的損失景觀俯視圖。為了可視化損失景觀，我們沿著線性空間改變輸入，線性空間由PGD發(fā)現(xiàn)的更差擾動和隨機(jī)方向確定。u軸和v軸分別表示在這些方向上添加的擾動的大小，z軸表示損耗。對于兩個(gè)面板，菱形代表在標(biāo)稱圖像周圍投影的尺寸為16/255的L∞球。我們可以觀察到，兩個(gè)損失景觀都相當(dāng)平滑，這提供了一個(gè)額外的證據(jù)，證明強(qiáng)勁的表現(xiàn)不是因?yàn)樘荻饶：?/p>

最近一個(gè)有趣的數(shù)據(jù)集是“自然對抗性例子”[23]。該數(shù)據(jù)集由來自ImageNet的200個(gè)類的一個(gè)子集的自然圖像組成。選擇這些圖像時(shí)，即使沒有對圖像進(jìn)行實(shí)際的修改，也會導(dǎo)致現(xiàn)代圖像分類人員以較高的可信度對圖像進(jìn)行錯(cuò)誤分類。圖像通常包含不尋常位置的物體，從不尋常的角度拍攝，或以各種方式被遮擋或損壞。我們比較了一個(gè)S3TA-16模型去噪，ResNet基線和“擠壓和激勵(lì)”[27]（ResNet+SE）的變化在原來的報(bào)告。圖7顯示了使用本文中所用測量方法得出的結(jié)果：Top-1精度、測量每個(gè)模型的可信度與其實(shí)際誤差率之間差異的校準(zhǔn)誤差、允許計(jì)算精度的AURRA，同時(shí)給分類者一個(gè)機(jī)會，如果他們在預(yù)測中不滿意的話，可以棄權(quán)。

圖8顯示了幾個(gè)生成的敵對的例子對手訓(xùn)練的S3TA模型（帶4個(gè)展開步驟）和對手訓(xùn)練的ResNet-152的不同攻擊強(qiáng)度示例。我們觀察到，生成的圖像通常（但肯定不總是）包含與目標(biāo)類相關(guān)的顯著結(jié)構(gòu)。然而，盡管對于ResNet示例來說，這些擾動的性質(zhì)充其量是局部的，但是對于S3TA全局的、一致的和人類感興趣的結(jié)構(gòu)出現(xiàn)了。這為我們模型的內(nèi)部推理過程提供了一些線索，暗示它以一種連貫的方式在全球、跨空間進(jìn)行推理。重要的是要注意，在許多情況下，對手的例子似乎不包含任何顯著的結(jié)構(gòu)（即使有許多攻擊步驟）。它們在訓(xùn)練模型的中途出現(xiàn)的頻率要高得多，而模型已經(jīng)是一個(gè)很好的分類，但還沒有達(dá)到魯棒性的頂峰。在訓(xùn)練接近尾聲時(shí)，似乎很難產(chǎn)生這些，可能是模型學(xué)習(xí)的防御策略的一部分。關(guān)于訓(xùn)練中途生成的一些示例以及更多可見和不可見的擾動圖像，請參見補(bǔ)充材料。了解這些例子在什么情況下出現(xiàn)，留給以后的研究。由于注意力是我們模型中不可或缺的一部分，所以我們可以看到當(dāng)網(wǎng)絡(luò)受到攻擊并對圖像進(jìn)行錯(cuò)誤標(biāo)記時(shí)，它是否起到了作用。我們可以可視化每個(gè)時(shí)間步驟生成的注意力圖，并查看在不同攻擊場景下如何使用注意力。圖9顯示了用于攻擊S3TA-16模型的圖像的這種注意地圖。注意力疊加在原始圖像上-突出顯示的區(qū)域比深色區(qū)域更受關(guān)注。可以看到，攻擊可以產(chǎn)生刺激，吸引一些注意力離開圖像中的主要對象，在這種情況下，朝向與背景中的目標(biāo)類稍微相似的對象。

Conclusions

在本文中，我們證明了一個(gè)由靈長類視覺系統(tǒng)啟發(fā)的遞歸注意模型能夠?qū)崿F(xiàn)對隨機(jī)目標(biāo)對抗攻擊的最新魯棒性。允許更多的注意步驟可以提高在更強(qiáng)攻擊下的準(zhǔn)確性。我們證明，由此產(chǎn)生的對抗性例子通常（但并不總是）包含了對人類觀察者可見和可解釋的全局結(jié)構(gòu)。為什么在攻擊像這樣的模特？

我們假設(shè)有兩個(gè)因素。注意機(jī)制從圖像的大部分集中數(shù)據(jù)，這意味著梯度在整個(gè)圖像中迅速傳播，而不僅僅是局部的。此外，由于模型展開了幾個(gè)步驟，圖像的更多部分可能會受到關(guān)注，因此梯度可能會在那里傳播。

我們看到了這一點(diǎn)的證據(jù)，事實(shí)上攻擊者通常會將注意力從圖像中的主要對象吸引開，暗示著注意力在攻擊策略中起著至關(guān)重要的作用。

在復(fù)雜的數(shù)據(jù)集中，要實(shí)現(xiàn)對抗性的健壯性還有很多工作要做。即使是像所提出的模型，當(dāng)攻擊者足夠強(qiáng)大時(shí)，也常常失敗，而且與名義精度相比，性能仍然很低，但是在某一點(diǎn)上，我們可能會問-如果一個(gè)圖像被足夠的干擾，以至于它與原始圖像不相似，并且看起來像來自目標(biāo)類的另一個(gè)圖像，這仍然是有效的對抗性干擾嗎？像這里展示的模型可能會讓我們在未來到達(dá)這一前沿。

總結(jié)

以上是生活随笔為你收集整理的图像分类：CVPR2020论文解读的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： CVPR2020论文解读：手绘草图卷积网
下一篇：给手绘图着色（添加颜色或色彩）：CVPR