當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

最新综述：图像分类中的对抗机器学习

發(fā)布時(shí)間：2024/10/8 编程问答 34 豆豆

生活随笔收集整理的這篇文章主要介紹了最新综述：图像分类中的对抗机器学习小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

?PaperWeekly 原創(chuàng) ·?作者｜孫裕道

學(xué)校｜北京郵電大學(xué)博士生

研究方向｜GAN圖像生成、人臉對(duì)抗樣本生成

論文標(biāo)題：

Adversarial Machine Learning in Image Classification

論文鏈接：

https://arxiv.org/abs/2009.03728

引言

最近百度自動(dòng)駕駛出租車 Apollo GO 服務(wù)在北京全面開放，可見 AI 的各類應(yīng)用在我們的日常生活中的滲透的廣度和深度。需要提高警惕的是根植于深度神經(jīng)網(wǎng)絡(luò)模型的一個(gè)安全 bug（對(duì)樣樣本）也會(huì)隨著各類 AI 應(yīng)用的廣泛鋪展增多起來，自然對(duì)對(duì)抗攻擊的防御性手段需要格外重視。

在該論文中，作者旨在為所有讀者從防御者的角度上提供一個(gè)關(guān)于對(duì)抗機(jī)器學(xué)習(xí)在圖像分類中的最新研究進(jìn)展，并且作者對(duì)現(xiàn)有的對(duì)抗攻擊和對(duì)抗防御的方法以及對(duì)抗樣本產(chǎn)生的原因進(jìn)行了分類和整理，非常全面值得一讀。

論文貢獻(xiàn)

該論文的貢獻(xiàn)可以歸結(jié)為如下五點(diǎn)，分別如下所示：

更新一些現(xiàn)有的分類方法法，以便對(duì)不同類型的對(duì)抗樣本進(jìn)行分類
基于新分類法的對(duì)抗攻擊防御的機(jī)進(jìn)總結(jié)和分析
將現(xiàn)有關(guān)于對(duì)抗樣本存在原因的文獻(xiàn)進(jìn)行匯總
提出了一些在設(shè)計(jì)和評(píng)估防御措施時(shí)應(yīng)遵循的重要指導(dǎo)原則
對(duì)該領(lǐng)域未來研究方向的進(jìn)行了探討

卷積神經(jīng)網(wǎng)絡(luò)簡介

CNN 體系結(jié)構(gòu)通常通過使用卷積層和池化層來執(zhí)行特征學(xué)習(xí)，這些層分別從圖像中提取有用的特征并降低其空間維數(shù)。在特征學(xué)習(xí)之后會(huì)連接全連接層。在分類任務(wù)中，會(huì)輸出一個(gè)概率向量進(jìn)行分類。如下圖描述了一個(gè) CNN 的標(biāo)準(zhǔn)架構(gòu)示例。

計(jì)算機(jī)視覺領(lǐng)域的一項(xiàng)重要競賽被稱為 ILSVRC（ImageNet 大規(guī)模視覺識(shí)別挑戰(zhàn)賽），鼓勵(lì)人們創(chuàng)建分類準(zhǔn)確率更高的 CNN 架構(gòu)。下圖所示顯示了 ILSVRC 挑戰(zhàn)中的一些脫穎而出的 CNN 框架，分別是 AlexNet、ZFNet、VGGNet、GoogLeNet、ResNet、Trimpsnet2 和 SENet。并且自 2015 年以來，CNNs 已經(jīng)超越了人類的表現(xiàn)。

對(duì)抗樣本和對(duì)抗攻擊

4.1 對(duì)抗攻擊分類

對(duì)抗攻擊的分類可以按照三個(gè)方面進(jìn)行劃分，分別是對(duì)抗擾動(dòng)的擾動(dòng)范圍，對(duì)抗擾動(dòng)的可見性和對(duì)抗擾動(dòng)的測量方法。

4.1.1 對(duì)抗擾動(dòng)范圍

對(duì)抗樣本按照對(duì)抗擾動(dòng)范圍可能分為單個(gè)范圍擾動(dòng)或通用范圍擾動(dòng)。

單個(gè)范圍擾動(dòng)：單個(gè)范圍的擾動(dòng)在文獻(xiàn)中是最常見的，是針對(duì)于每一張輸入圖像進(jìn)行對(duì)抗攻擊。
通用范圍擾動(dòng)：通用范圍擾動(dòng)是圖像無關(guān)的擾動(dòng)，即它們是獨(dú)立于任何輸入樣本而產(chǎn)生的擾動(dòng)。然而，當(dāng)它們被應(yīng)用于一個(gè)合法的圖像時(shí)，由此產(chǎn)生的對(duì)抗性示例通常會(huì)導(dǎo)致模型錯(cuò)誤分類。通用擾動(dòng)允許在實(shí)詞場景中更容易進(jìn)行對(duì)抗性攻擊，因?yàn)檫@些擾動(dòng)只需精心設(shè)計(jì)一次就可以插入到屬于某個(gè)數(shù)據(jù)集的任何樣本中。

4.1.2 對(duì)抗擾動(dòng)的可見性

對(duì)抗樣本按照對(duì)抗擾動(dòng)的可見性可以分為最優(yōu)擾動(dòng)，不可分辨的擾動(dòng)，可見擾動(dòng)，物理擾動(dòng)，愚弄噪聲，普通噪聲。

最優(yōu)擾動(dòng)：這些擾動(dòng)對(duì)人眼來說是不可察覺的，但有助于導(dǎo)致深度學(xué)習(xí)模型的錯(cuò)誤分類，通常對(duì)預(yù)測具有很高的可信度；
不可分辨的擾動(dòng)：無法區(qū)分的擾動(dòng)對(duì)人眼來說也是無法察覺的，但它們不足以愚弄深度學(xué)習(xí)模型；
可見擾動(dòng)：當(dāng)插入到圖像中時(shí)，可以愚弄深度學(xué)習(xí)模型的擾動(dòng)。然而，它們也很容易被人類發(fā)現(xiàn)；
物理擾動(dòng)：擾動(dòng)是否設(shè)計(jì)在像素范圍之外，并實(shí)際添加到現(xiàn)實(shí)世界中的對(duì)象本身。盡管有些研究已經(jīng)將物理擾動(dòng)應(yīng)用于圖像分類，但它們通常都是針對(duì)涉及目標(biāo)檢測的任務(wù)。
愚弄噪聲：使圖像腐化到人類無法辨認(rèn)的程度的擾動(dòng)。然而，分類模型認(rèn)為這些損壞的圖像屬于原始分類問題的一類，有時(shí)賦予它們對(duì)預(yù)測的高置信度。
普通噪聲：與擾動(dòng)的惡意性質(zhì)不同，噪聲是非惡意的或非最優(yōu)的破壞，可能存在于輸入圖像中或插入到輸入圖像中。噪聲的一個(gè)例子是高斯噪聲。

4.1.3 對(duì)抗擾動(dòng)的測量

考慮到很難定義一個(gè)度量人類視覺能力的度量標(biāo)準(zhǔn)，p 范數(shù)最常用于測量插入到圖像中的擾動(dòng)的大小和數(shù)量。p 范數(shù)計(jì)算干凈圖像與產(chǎn)生的對(duì)抗性樣本之間的輸入空間中的距離，其中，具體距離計(jì)算公式如下所示：

當(dāng) 的時(shí)候，p 范數(shù)表示的是曼哈頓距離；當(dāng) 時(shí)候表示的是歐幾里德距離；當(dāng) 時(shí)，計(jì)算干凈樣本中修改的像素?cái)?shù)，以生成對(duì)抗樣本。度量兩幅圖像對(duì)應(yīng)位置上所有像素之間的最大差值，其中的計(jì)算公式為：

4.2 對(duì)抗攻擊的分類

在安全的背景下，對(duì)抗性攻擊和攻擊者被歸為威脅模型。威脅模型定義了防御設(shè)計(jì)的條件，在這種情況下，防御系統(tǒng)能夠?yàn)樘囟愋偷墓艉凸粽咛峁┌踩Ｕ稀?/p>

根據(jù)攻擊者對(duì)目標(biāo)分類器的知識(shí)（例如其參數(shù)和體系結(jié)構(gòu)）和對(duì)抗攻擊的目標(biāo)，以及如何執(zhí)行對(duì)抗性攻擊可以將威脅模型可以分為以下幾個(gè)方面分別是攻擊者的影響，攻擊者的知識(shí)，安全侵犯，攻擊特異性，攻擊方法。

4.2.1 攻擊者的影響力

攻擊者的影響力表示的是攻擊者控制深度學(xué)習(xí)模型力度?？紤]到對(duì)分類模型的影響，攻擊者可以執(zhí)行兩種類型的攻擊分別是中毒攻擊和逃避或試探性攻擊。

中毒攻擊：在中毒攻擊中，攻擊者在訓(xùn)練階段會(huì)對(duì)深度學(xué)習(xí)模型產(chǎn)生影響。在這種類型的攻擊中，訓(xùn)練樣本被破壞或訓(xùn)練集被攻擊者污染，以產(chǎn)生與原始數(shù)據(jù)分布不相容的分類模型；
規(guī)避或試探性攻擊：與中毒攻擊相比，在試探性攻擊中，攻擊者在推理或測試階段對(duì)深層學(xué)習(xí)模型產(chǎn)生影響。規(guī)避攻擊是最常見的攻擊類型，攻擊者會(huì)精心設(shè)計(jì)對(duì)抗樣本，導(dǎo)致深度學(xué)習(xí)模型錯(cuò)誤分類，通常對(duì)預(yù)測具有較高的可信度。規(guī)避攻擊還具有探索性，攻擊者的目標(biāo)是收集有關(guān)目標(biāo)模型的信息，例如其參數(shù)、體系結(jié)構(gòu)、損失函數(shù)等。最常見的探索性攻擊是輸入/輸出攻擊，攻擊者向目標(biāo)模型提供由其生成的對(duì)抗樣本。然后，攻擊者觀察模型給出的輸出，并嘗試重新生成一個(gè)替代或代理模型，以便可以模仿目標(biāo)模型。輸入/輸出攻擊通常是執(zhí)行黑盒攻擊的第一步。

4.2.2 攻擊者的知識(shí)

考慮到攻擊者對(duì)目標(biāo)模型的知識(shí)，可以進(jìn)行三種類型的攻擊分別是白盒攻擊，黑盒攻擊和灰盒攻擊。

白盒攻擊：攻擊者可以完全訪問模型甚至防御的參數(shù)和架構(gòu)。由于采取了保護(hù)措施（例如，用戶控制），以防止未經(jīng)授權(quán)的人員訪問系統(tǒng)組件，這種攻擊場景在真實(shí)應(yīng)用程序中可能是最不常見的。相比之下，白盒攻擊通常是最強(qiáng)大的對(duì)抗攻擊類型，因此，通常用于評(píng)估防御和/或分類模型在惡劣條件下的魯棒性。
黑盒攻擊：攻擊者既不能訪問也不知道有關(guān)分類模型和防御方法的任何信息。黑盒攻擊對(duì)攻擊者施加了更多的限制，盡管如此，當(dāng)針對(duì)部署的模型再現(xiàn)外部對(duì)抗性攻擊時(shí)，黑盒攻擊非常重要，而部署模型又能更好地代表真實(shí)世界的場景。盡管黑盒攻擊的執(zhí)行難度更大，但由于對(duì)抗樣本的可轉(zhuǎn)移性，攻擊者仍然可以避開目標(biāo)模型。利用這一特性，攻擊者可以通過一個(gè)稱為替代或代理模型的因果攻擊創(chuàng)建一個(gè)經(jīng)驗(yàn)?zāi)Ｐ?#xff0c;該模型的參數(shù)與目標(biāo)模型的參數(shù)相似。
灰盒攻擊：在灰盒攻擊中，攻擊者可以訪問分類模型，但不能訪問任何有關(guān)防御方法的信息?；液泄羰窃u(píng)估防御和分類器的一種中間選擇，因?yàn)榕c黑盒攻擊相比，灰盒攻擊施加了更大的威脅級(jí)別，但在向攻擊者提供有關(guān)防御方法的所有信息時(shí)（如在白盒場景中執(zhí)行的），灰盒攻擊不會(huì)給攻擊者帶來很大的優(yōu)勢。

4.2.3 安全入侵

當(dāng)對(duì)分類器執(zhí)行對(duì)抗攻擊時(shí)，安全侵犯通常與攻擊者的目標(biāo)相關(guān)聯(lián)，并會(huì)影響目標(biāo)分類器的完整性、可用性和隱私。

完整性入侵：這是對(duì)抗攻擊最常見的侵犯行為，當(dāng)由某個(gè)攻擊者生成的對(duì)抗樣本能夠繞過現(xiàn)有的防御對(duì)策并導(dǎo)致目標(biāo)模型錯(cuò)誤分類，但不會(huì)損害系統(tǒng)的功能時(shí)，完整性會(huì)受到影響；
可用性入侵：當(dāng)系統(tǒng)功能受到破壞時(shí)，從而導(dǎo)致拒絕服務(wù)時(shí)發(fā)生?？捎眯匀肭种饕ㄟ^提高預(yù)測的不確定性來影響學(xué)習(xí)系統(tǒng)的可靠性；
隱私入侵：當(dāng)攻擊者能夠訪問有關(guān)目標(biāo)模型的相關(guān)信息時(shí)發(fā)生，例如其參數(shù)、體系結(jié)構(gòu)和使用的學(xué)習(xí)算法。深度學(xué)習(xí)中的隱私侵犯與黑盒攻擊密切相關(guān)，在黑盒攻擊中，攻擊者查詢目標(biāo)模型，以便對(duì)其進(jìn)行反向工程，并生成一個(gè)代理模型，從而對(duì)對(duì)抗樣本更接近原始數(shù)據(jù)分布。

4.2.4 攻擊的特異性

攻擊者可以執(zhí)行有目標(biāo)的攻擊和無目標(biāo)攻擊。有目標(biāo)攻擊的目的是生成的對(duì)抗樣本可以引導(dǎo)模型將其錯(cuò)誤地分類到攻擊者預(yù)先選擇的預(yù)定類中。另一方面，在非目標(biāo)攻擊中，攻擊者只是通過瞄準(zhǔn)與原始示例對(duì)應(yīng)的合法類不同的任何類來欺騙模型。

4.2.5 攻擊方法

對(duì)抗攻擊也可以根據(jù)攻擊算法分為基于梯度的攻擊，基于分?jǐn)?shù)的攻擊，基于決策的攻擊和基于近似攻擊。

基于梯度的攻擊：這種攻擊方法在現(xiàn)在的研究中是使用最多的。基于梯度攻擊的算法利用目標(biāo)模型相對(duì)于給定輸入梯度的詳細(xì)信息。這種攻擊方法通常在白盒場景下執(zhí)行，當(dāng)攻擊者完全了解并訪問目標(biāo)模型時(shí)；
基于得分的攻擊：這種攻擊算法要么依賴于對(duì)目標(biāo)模型使用的數(shù)據(jù)集的訪問，要么依賴于它預(yù)測的分?jǐn)?shù)來近似于一個(gè)梯度。通過查詢目標(biāo)深層神經(jīng)網(wǎng)絡(luò)得到的輸出作為分?jǐn)?shù)。然后將這些分?jǐn)?shù)與訓(xùn)練數(shù)據(jù)集一起用于擬合一個(gè)代理模型，該模型將精心設(shè)計(jì)將插入到合法圖像中的擾動(dòng)。這種攻擊方法通常在黑盒攻擊中很有用；
基于決策的攻擊：與基于梯度的攻擊相比，它只需要很少的參數(shù)變化，因此被作者認(rèn)為是一種更簡單、更靈活的方法。基于決策的攻擊通常查詢目標(biāo)模型的 softmax 層，并通過使用拒絕采樣過程迭代計(jì)算較小的擾動(dòng)；
基于近似的攻擊：這種方法的攻擊算法通常采用數(shù)值方法來逼近由不可微技術(shù)形成的目標(biāo)模型或防御系統(tǒng)的梯度。然后利用這些近似梯度來計(jì)算對(duì)抗性擾動(dòng)。

4.2.6 攻擊算法分類一覽

在計(jì)算機(jī)視覺中，用于產(chǎn)生對(duì)抗擾動(dòng)的算法是一種優(yōu)化方法，通常在預(yù)先訓(xùn)練的模型中發(fā)現(xiàn)泛化缺陷，以便在干凈圖像中生成對(duì)抗擾動(dòng)。

如下表所示，根據(jù)之前的一些劃分方法將當(dāng)前的對(duì)抗樣本進(jìn)行了一次完整全新的分類。（原表格非常的密集，字體非常的小，為了更夠更清晰的展示出來，挑選了一些比較重要的分類指標(biāo)并重新制作了一張表格。）

對(duì)抗樣本防御的分類

5.1 防御目標(biāo)

根據(jù)防御目標(biāo)可以將目標(biāo)分為主動(dòng)防御或被動(dòng)防御。主動(dòng)防御的目的是使分類模型對(duì)對(duì)抗樣本更加健壯。當(dāng)一個(gè)模型能夠像干凈樣本一樣正確地分類對(duì)抗樣本時(shí)，它被認(rèn)為是健壯的。另一方面，被動(dòng)防御的重點(diǎn)是通過充當(dāng)過濾器來檢測對(duì)抗圖像，在惡意圖像到達(dá)分類器之前識(shí)別它們。

5.2 防御方法

防御系統(tǒng)可以采用不同的方法來保護(hù)模型免受對(duì)抗圖像的攻擊，其中可以分為梯度掩蔽，對(duì)抗訓(xùn)練，防御蒸餾，特征壓縮，分類器集成和近鄰測量。

5.2.1 梯度掩蔽

基于梯度掩蔽（又稱為模糊梯度）阻礙了基于優(yōu)化的攻擊算法在樣本空間中找到錯(cuò)誤的方向，通俗易懂的說法是把梯度信息給隱藏了讓攻擊算法利用不到。梯度掩蔽的防御又可以分為破碎梯度，隨機(jī)梯度和梯度爆炸/消失。

破碎梯度：通過不可微防御引起，從而引入不存在或不正確的坡度；
隨機(jī)梯度：輸入到分類器之前對(duì)輸入進(jìn)行隨機(jī)預(yù)處理，這種梯度掩蔽策略通常導(dǎo)致對(duì)抗攻擊錯(cuò)誤估計(jì)真實(shí)梯度；
梯度爆炸/消失：由非常深的體系結(jié)構(gòu)形成的防御引起，通常由神經(jīng)網(wǎng)絡(luò)評(píng)估的多次迭代組成，其中一層的輸出作為下一層的輸入。

5.2.2 對(duì)抗訓(xùn)練

基于對(duì)抗訓(xùn)練的防御方法通常被認(rèn)為是一種很簡單粗暴的方法去防御對(duì)抗攻擊。對(duì)抗訓(xùn)練的主要目的是通過在包含干凈和對(duì)抗圖像的數(shù)據(jù)集中訓(xùn)練，使分類模型更加健壯。

但存在一個(gè)問題就是對(duì)抗訓(xùn)練訓(xùn)練出的模型與使用的攻擊算法具有強(qiáng)耦合性，即使用對(duì)抗訓(xùn)練對(duì)模型進(jìn)行再訓(xùn)練不會(huì)產(chǎn)生一個(gè)通用模型，該模型只能夠抵抗由訓(xùn)練過程中未使用的不同攻擊算法生成的對(duì)抗圖像，具體的原理詳解如下圖所示：

5.2.3 防御蒸餾

防御蒸餾是一種主動(dòng)性防御。這個(gè)對(duì)策的靈感來自學(xué)習(xí)模型間知識(shí)轉(zhuǎn)移的特性。在學(xué)習(xí)蒸餾中，復(fù)雜模型所獲得的知識(shí)在使用確定的數(shù)據(jù)集進(jìn)行訓(xùn)練后，被轉(zhuǎn)移到更簡單的模型上。

防御性蒸餾首先使用包含樣本的數(shù)據(jù)集訓(xùn)練模型，并用溫度標(biāo)記標(biāo)簽，作為輸出的概率向量。然后用概率向量代替標(biāo)簽集，并用樣本集建立和訓(xùn)練具有相同結(jié)構(gòu)的模型，但現(xiàn)在使用新的標(biāo)簽集作為標(biāo)簽。訓(xùn)練結(jié)束時(shí)，生成目標(biāo)概率輸出。如下圖所示描述了防御蒸餾的過程。

5.2.4 特征壓縮

特征壓縮是一種利用顏色位縮減和空間平滑來降低輸入圖像降維后的防御，它們通過處理兩種不同類型的攝動(dòng)來相互補(bǔ)充。位縮減的目的是通過覆蓋不同像素來消除小擾動(dòng)，而空間平滑則是通過覆蓋一些像素來消除大擾動(dòng)。如下圖所示為具體的工作流程。

5.2.5 分類器集合

基于分類器集合的防御是由兩個(gè)或多個(gè)分類模型組成的對(duì)抗措施，可以在運(yùn)行時(shí)選擇。這種方法基于的假設(shè)是每個(gè)模型在對(duì)給定輸入圖像進(jìn)行分類時(shí)，都會(huì)相互補(bǔ)償其他模型最終可能存在的弱點(diǎn)。

5.2.6 近鄰測量

這是基于干凈圖像和對(duì)抗圖像到?jīng)Q策邊界的距離測量的防御措施。該方法利用 kNN 算法的變體，從 DNN 的每一層獲得的訓(xùn)練和輸入圖像的隱藏表示之間的接近度來計(jì)算不確定性和可靠性。輸入圖像經(jīng)過 DNN 的所有層后，分析訓(xùn)練圖像空間中表示點(diǎn)的標(biāo)簽。算法的具體流程如下圖所示：

5.2.7 防御性算法一覽

如下表所示，根據(jù)之前的一些劃分方法將當(dāng)前的對(duì)抗防御方法進(jìn)行了一次完整全新的分類。（原表格非常的密集，字體非常的小，為了更夠更清晰的展示出來，挑選了一些比較重要的分類指標(biāo)并重新制作了一張表格。）

對(duì)抗樣本存在性解釋

通過推理對(duì)抗樣本影響機(jī)器學(xué)習(xí)模型預(yù)測的原因，了解對(duì)抗樣本的存在和性質(zhì)，通常是在闡述對(duì)抗機(jī)器學(xué)習(xí)中攻擊和防御時(shí)考慮的第一步。CNN 和其他機(jī)器學(xué)習(xí)算法在對(duì)抗性攻擊的惡意影響之前所呈現(xiàn)的漏洞被普遍稱為聰明漢斯效應(yīng)。

與漢斯效應(yīng)相似，學(xué)習(xí)模型通常能夠?qū)?fù)雜的問題給出正確的答案，例如圖像識(shí)別和分類，但是沒有真正從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)，什么使他們?nèi)菀资艿綄?duì)抗攻擊，作者在這一節(jié)匯總了當(dāng)前對(duì)抗樣本存在性的解釋的研究，會(huì)發(fā)現(xiàn)很有趣一點(diǎn)就是，對(duì)于對(duì)抗樣本的解釋都是通過實(shí)驗(yàn)來自圓其說的。

6.1 高度非線性化假設(shè)

Szegedy 等人首先關(guān)注到對(duì)抗樣本的存在，他認(rèn)為由于深層神經(jīng)網(wǎng)絡(luò)的高度非線性化，使得數(shù)據(jù)流形中形成低概率的口袋，而這些口袋很難通過對(duì)給定樣本周圍的輸入空間進(jìn)行采樣，具體詳情如下圖所示。這類口袋的出現(xiàn)主要是由于目標(biāo)函數(shù)、訓(xùn)練過程和數(shù)據(jù)集的某些不足，訓(xùn)練樣本的規(guī)模和多樣性有限，導(dǎo)致模型的泛化能力較差。

6.2 線性化假設(shè)

Goodfellow 反駁了 Szegedy 等人的非線性假設(shè)。假設(shè) DNN 有一個(gè)非常線性的行為，由幾個(gè)激活函數(shù)引起，比如 ReLU 和 sigmoid，它們使微小的擾動(dòng)輸入保持在同一個(gè)錯(cuò)誤的方向上。

作為它們解釋的基礎(chǔ)，Goodfellow 詳細(xì)闡述了 FGSM 攻擊，并指出分類器的魯棒性與所使用的訓(xùn)練過程無關(guān)，高階分類器中兩個(gè)類之間的距離比線性分類器大，這表明在更深層次的模型中更難找到對(duì)抗樣本。

6.3 邊界傾斜假說

這種假設(shè)與 Szegedy 等人給出的解釋更為相關(guān)，即學(xué)習(xí)的類邊界靠近訓(xùn)練樣本流形，但該學(xué)習(xí)邊界相對(duì)于該訓(xùn)練流形是“傾斜”的。

因此，可以通過向分類邊界擾動(dòng)合法樣本直到它們?cè)竭^分類邊界來生成對(duì)抗性圖像。所需的擾動(dòng)量隨著傾斜度的減小而減小，從而產(chǎn)生高置信度和誤導(dǎo)性的對(duì)抗樣本，其中包含視覺上無法察覺的擾動(dòng)。

6.4 高維流形

Gilmer卻認(rèn)為對(duì)抗樣本的產(chǎn)生是因數(shù)據(jù)流形的維度性質(zhì)。他創(chuàng)建了一個(gè)合成數(shù)據(jù)集，然后用它來訓(xùn)練模型。在對(duì)其進(jìn)行訓(xùn)練后，作者觀察到，由模型正確分類的輸入與附近錯(cuò)誤分類的對(duì)抗性輸入很接近，這意味著學(xué)習(xí)模型必然容易受到對(duì)抗樣本的攻擊，這與所使用的訓(xùn)練過程無關(guān)。

6.5 缺乏足夠的訓(xùn)練數(shù)據(jù)集

Schmidt 等人主張學(xué)習(xí)模型必須在強(qiáng)分類器上進(jìn)行推廣，即借助于魯棒優(yōu)化，以獲得魯棒性。作者觀察到對(duì)抗樣本的存在不一定是特定分類模型的缺點(diǎn)，而是在統(tǒng)計(jì)環(huán)境下的不可避免的結(jié)果。在收集了一些實(shí)證結(jié)果后，作者得出結(jié)論：目前還沒有一種有效的方法可以達(dá)到對(duì)抗魯棒性，這主要是因?yàn)楝F(xiàn)有的數(shù)據(jù)集不夠大，無法訓(xùn)練出強(qiáng)分類器。

6.6 非穩(wěn)健特征假設(shè)

基于對(duì)抗擾動(dòng)的存在并不一定意味著學(xué)習(xí)模型或訓(xùn)練過程的缺陷，而是圖像的特征。通過考慮人類的感知，作者將特征分為魯棒特征（使得模型即使在受到不利干擾時(shí)也能正確預(yù)測真實(shí)類）和非魯棒特征（從數(shù)據(jù)分布模式中獲得的具有高度預(yù)測性）。

作者提出利用訓(xùn)練 DNN 的 logits 層構(gòu)造一個(gè)新的數(shù)據(jù)集，該數(shù)據(jù)集由包含魯棒特征的圖像組成，這些特征是通過訓(xùn)練 DNN 的 logits 層從原始輸入圖像中過濾出來的。然后，這個(gè)數(shù)據(jù)集被用來訓(xùn)練另一個(gè)用于進(jìn)行比較研究的 DNN。

研究結(jié)果表明對(duì)抗樣本可能是由于非健壯性特征的存在而產(chǎn)生的，這是人們通常認(rèn)為的相反。

論文總結(jié)

自從 Szegedy 等人的工作首次發(fā)現(xiàn)這個(gè)問題以來，科學(xué)界一直在努力尋找其他方法來防御對(duì)抗攻擊。但是在眾多的防御方法中，雖然一開始很有希望，但已經(jīng)證明所有的防御手段都是脆弱的，對(duì)阻止強(qiáng)大對(duì)抗攻擊是無效的。

在這種攻擊和防御之間的軍備競賽使得對(duì)抗機(jī)器學(xué)習(xí)領(lǐng)域相當(dāng)活躍和活躍，幾乎每天都有新的防御方法的出現(xiàn)。該論文將對(duì)抗攻擊，對(duì)抗防御，以及對(duì)抗樣本存在的解釋性做了一次全面的梳理，非常值得一讀。

更多閱讀

#投稿?通道#

?讓你的論文被更多人看到?

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體，縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢？答案就是：你不認(rèn)識(shí)的人。

總有一些你不認(rèn)識(shí)的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁，促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞，迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人，在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容，可以是最新論文解讀，也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個(gè)，讓知識(shí)真正流動(dòng)起來。

?????來稿標(biāo)準(zhǔn)：

? 稿件確系個(gè)人原創(chuàng)作品，來稿需注明作者個(gè)人信息（姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向）?

? 如果文章并非首發(fā)，請(qǐng)?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?

? PaperWeekly 默認(rèn)每篇文章都是首發(fā)，均會(huì)添加“原創(chuàng)”標(biāo)志

?????投稿郵箱：

? 投稿郵箱：hr@paperweekly.site?

? 所有文章配圖，請(qǐng)單獨(dú)在附件中發(fā)送?

? 請(qǐng)留下即時(shí)聯(lián)系方式（微信或手機(jī)），以便我們?cè)诰庉嫲l(fā)布時(shí)和作者溝通

????

現(xiàn)在，在「知乎」也能找到我們了

進(jìn)入知乎首頁搜索「PaperWeekly」

點(diǎn)擊「關(guān)注」訂閱我們的專欄吧

關(guān)于PaperWeekly

PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域，歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」，小助手將把你帶入 PaperWeekly 的交流群里。

總結(jié)

以上是生活随笔為你收集整理的最新综述：图像分类中的对抗机器学习的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：丝锥6g和7h有什么区别？13
下一篇： CCF-百度松果基金闭门研讨会成功举办，