最新综述:图像分类中的对抗机器学习
?PaperWeekly 原創(chuàng) ·?作者|孫裕道
學校|北京郵電大學博士生
研究方向|GAN圖像生成、人臉對抗樣本生成
論文標題:
Adversarial Machine Learning in Image Classification
論文鏈接:
https://arxiv.org/abs/2009.03728
引言
最近百度自動駕駛出租車 Apollo GO 服務在北京全面開放,可見 AI 的各類應用在我們的日常生活中的滲透的廣度和深度。需要提高警惕的是根植于深度神經(jīng)網(wǎng)絡模型的一個安全 bug(對樣樣本)也會隨著各類 AI 應用的廣泛鋪展增多起來,自然對對抗攻擊的防御性手段需要格外重視。
在該論文中,作者旨在為所有讀者從防御者的角度上提供一個關于對抗機器學習在圖像分類中的最新研究進展,并且作者對現(xiàn)有的對抗攻擊和對抗防御的方法以及對抗樣本產(chǎn)生的原因進行了分類和整理,非常全面值得一讀。
論文貢獻
該論文的貢獻可以歸結為如下五點,分別如下所示:
更新一些現(xiàn)有的分類方法法,以便對不同類型的對抗樣本進行分類
基于新分類法的對抗攻擊防御的機進總結和分析
將現(xiàn)有關于對抗樣本存在原因的文獻進行匯總
提出了一些在設計和評估防御措施時應遵循的重要指導原則
對該領域未來研究方向的進行了探討
卷積神經(jīng)網(wǎng)絡簡介
CNN 體系結構通常通過使用卷積層和池化層來執(zhí)行特征學習,這些層分別從圖像中提取有用的特征并降低其空間維數(shù)。在特征學習之后會連接全連接層。在分類任務中,會輸出一個概率向量進行分類。如下圖描述了一個 CNN 的標準架構示例。
計算機視覺領域的一項重要競賽被稱為 ILSVRC(ImageNet 大規(guī)模視覺識別挑戰(zhàn)賽),鼓勵人們創(chuàng)建分類準確率更高的 CNN 架構。下圖所示顯示了 ILSVRC 挑戰(zhàn)中的一些脫穎而出的 CNN 框架,分別是 AlexNet、ZFNet、VGGNet、GoogLeNet、ResNet、Trimpsnet2 和 SENet。并且自 2015 年以來,CNNs 已經(jīng)超越了人類的表現(xiàn)。
對抗樣本和對抗攻擊
4.1 對抗攻擊分類
對抗攻擊的分類可以按照三個方面進行劃分,分別是對抗擾動的擾動范圍,對抗擾動的可見性和對抗擾動的測量方法。
4.1.1 對抗擾動范圍
對抗樣本按照對抗擾動范圍可能分為單個范圍擾動或通用范圍擾動。
單個范圍擾動:單個范圍的擾動在文獻中是最常見的,是針對于每一張輸入圖像進行對抗攻擊。
通用范圍擾動:通用范圍擾動是圖像無關的擾動,即它們是獨立于任何輸入樣本而產(chǎn)生的擾動。然而,當它們被應用于一個合法的圖像時,由此產(chǎn)生的對抗性示例通常會導致模型錯誤分類。通用擾動允許在實詞場景中更容易進行對抗性攻擊,因為這些擾動只需精心設計一次就可以插入到屬于某個數(shù)據(jù)集的任何樣本中。
4.1.2 對抗擾動的可見性
對抗樣本按照對抗擾動的可見性可以分為最優(yōu)擾動,不可分辨的擾動,可見擾動,物理擾動,愚弄噪聲,普通噪聲。
最優(yōu)擾動:這些擾動對人眼來說是不可察覺的,但有助于導致深度學習模型的錯誤分類,通常對預測具有很高的可信度;
不可分辨的擾動:無法區(qū)分的擾動對人眼來說也是無法察覺的,但它們不足以愚弄深度學習模型;
可見擾動:當插入到圖像中時,可以愚弄深度學習模型的擾動。然而,它們也很容易被人類發(fā)現(xiàn);
物理擾動:擾動是否設計在像素范圍之外,并實際添加到現(xiàn)實世界中的對象本身。盡管有些研究已經(jīng)將物理擾動應用于圖像分類,但它們通常都是針對涉及目標檢測的任務。
愚弄噪聲:使圖像腐化到人類無法辨認的程度的擾動。然而,分類模型認為這些損壞的圖像屬于原始分類問題的一類,有時賦予它們對預測的高置信度。
普通噪聲:與擾動的惡意性質不同,噪聲是非惡意的或非最優(yōu)的破壞,可能存在于輸入圖像中或插入到輸入圖像中。噪聲的一個例子是高斯噪聲。
4.1.3 對抗擾動的測量
考慮到很難定義一個度量人類視覺能力的度量標準,p 范數(shù)最常用于測量插入到圖像中的擾動的大小和數(shù)量。p 范數(shù)計算干凈圖像 與產(chǎn)生的對抗性樣本 之間的輸入空間中的距離 ,其中 ,具體距離計算公式如下所示:
當 的時候,p 范數(shù)表示的是曼哈頓距離;當 時候表示的是歐幾里德距離;當 時,計算干凈樣本中修改的像素數(shù),以生成對抗樣本。 度量兩幅圖像對應位置上所有像素之間的最大差值,其中 的計算公式為:
4.2 對抗攻擊的分類
在安全的背景下,對抗性攻擊和攻擊者被歸為威脅模型。威脅模型定義了防御設計的條件,在這種情況下,防御系統(tǒng)能夠為特定類型的攻擊和攻擊者提供安全保障。
根據(jù)攻擊者對目標分類器的知識(例如其參數(shù)和體系結構)和對抗攻擊的目標,以及如何執(zhí)行對抗性攻擊可以將威脅模型可以分為以下幾個方面分別是攻擊者的影響,攻擊者的知識,安全侵犯,攻擊特異性,攻擊方法。
4.2.1 攻擊者的影響力
攻擊者的影響力表示的是攻擊者控制深度學習模型力度。考慮到對分類模型的影響,攻擊者可以執(zhí)行兩種類型的攻擊分別是中毒攻擊和逃避或試探性攻擊。
中毒攻擊:在中毒攻擊中,攻擊者在訓練階段會對深度學習模型產(chǎn)生影響。在這種類型的攻擊中,訓練樣本被破壞或訓練集被攻擊者污染,以產(chǎn)生與原始數(shù)據(jù)分布不相容的分類模型;
規(guī)避或試探性攻擊:與中毒攻擊相比,在試探性攻擊中,攻擊者在推理或測試階段對深層學習模型產(chǎn)生影響。規(guī)避攻擊是最常見的攻擊類型,攻擊者會精心設計對抗樣本,導致深度學習模型錯誤分類,通常對預測具有較高的可信度。規(guī)避攻擊還具有探索性,攻擊者的目標是收集有關目標模型的信息,例如其參數(shù)、體系結構、損失函數(shù)等。最常見的探索性攻擊是輸入/輸出攻擊,攻擊者向目標模型提供由其生成的對抗樣本。然后,攻擊者觀察模型給出的輸出,并嘗試重新生成一個替代或代理模型,以便可以模仿目標模型。輸入/輸出攻擊通常是執(zhí)行黑盒攻擊的第一步。
4.2.2 攻擊者的知識
考慮到攻擊者對目標模型的知識,可以進行三種類型的攻擊分別是白盒攻擊,黑盒攻擊和灰盒攻擊。
白盒攻擊:攻擊者可以完全訪問模型甚至防御的參數(shù)和架構。由于采取了保護措施(例如,用戶控制),以防止未經(jīng)授權的人員訪問系統(tǒng)組件,這種攻擊場景在真實應用程序中可能是最不常見的。相比之下,白盒攻擊通常是最強大的對抗攻擊類型,因此,通常用于評估防御和/或分類模型在惡劣條件下的魯棒性。
黑盒攻擊:攻擊者既不能訪問也不知道有關分類模型和防御方法的任何信息。黑盒攻擊對攻擊者施加了更多的限制,盡管如此,當針對部署的模型再現(xiàn)外部對抗性攻擊時,黑盒攻擊非常重要,而部署模型又能更好地代表真實世界的場景。盡管黑盒攻擊的執(zhí)行難度更大,但由于對抗樣本的可轉移性,攻擊者仍然可以避開目標模型。利用這一特性,攻擊者可以通過一個稱為替代或代理模型的因果攻擊創(chuàng)建一個經(jīng)驗模型,該模型的參數(shù)與目標模型的參數(shù)相似。
灰盒攻擊:在灰盒攻擊中,攻擊者可以訪問分類模型,但不能訪問任何有關防御方法的信息。灰盒攻擊是評估防御和分類器的一種中間選擇,因為與黑盒攻擊相比,灰盒攻擊施加了更大的威脅級別,但在向攻擊者提供有關防御方法的所有信息時(如在白盒場景中執(zhí)行的),灰盒攻擊不會給攻擊者帶來很大的優(yōu)勢。
4.2.3 安全入侵
當對分類器執(zhí)行對抗攻擊時,安全侵犯通常與攻擊者的目標相關聯(lián),并會影響目標分類器的完整性、可用性和隱私。
完整性入侵:這是對抗攻擊最常見的侵犯行為,當由某個攻擊者生成的對抗樣本能夠繞過現(xiàn)有的防御對策并導致目標模型錯誤分類,但不會損害系統(tǒng)的功能時,完整性會受到影響;
可用性入侵:當系統(tǒng)功能受到破壞時,從而導致拒絕服務時發(fā)生。可用性入侵主要通過提高預測的不確定性來影響學習系統(tǒng)的可靠性;
隱私入侵:當攻擊者能夠訪問有關目標模型的相關信息時發(fā)生,例如其參數(shù)、體系結構和使用的學習算法。深度學習中的隱私侵犯與黑盒攻擊密切相關,在黑盒攻擊中,攻擊者查詢目標模型,以便對其進行反向工程,并生成一個代理模型,從而對對抗樣本更接近原始數(shù)據(jù)分布。
4.2.4 攻擊的特異性
攻擊者可以執(zhí)行有目標的攻擊和無目標攻擊。有目標攻擊的目的是生成的對抗樣本可以引導模型將其錯誤地分類到攻擊者預先選擇的預定類中。另一方面,在非目標攻擊中,攻擊者只是通過瞄準與原始示例對應的合法類不同的任何類來欺騙模型。
4.2.5 攻擊方法
對抗攻擊也可以根據(jù)攻擊算法分為基于梯度的攻擊,基于分數(shù)的攻擊,基于決策的攻擊和基于近似攻擊。
基于梯度的攻擊:這種攻擊方法在現(xiàn)在的研究中是使用最多的。基于梯度攻擊的算法利用目標模型相對于給定輸入梯度的詳細信息。這種攻擊方法通常在白盒場景下執(zhí)行,當攻擊者完全了解并訪問目標模型時;
基于得分的攻擊:這種攻擊算法要么依賴于對目標模型使用的數(shù)據(jù)集的訪問,要么依賴于它預測的分數(shù)來近似于一個梯度。通過查詢目標深層神經(jīng)網(wǎng)絡得到的輸出作為分數(shù)。然后將這些分數(shù)與訓練數(shù)據(jù)集一起用于擬合一個代理模型,該模型將精心設計將插入到合法圖像中的擾動。這種攻擊方法通常在黑盒攻擊中很有用;
基于決策的攻擊:與基于梯度的攻擊相比,它只需要很少的參數(shù)變化,因此被作者認為是一種更簡單、更靈活的方法。基于決策的攻擊通常查詢目標模型的 softmax 層,并通過使用拒絕采樣過程迭代計算較小的擾動;
基于近似的攻擊:這種方法的攻擊算法通常采用數(shù)值方法來逼近由不可微技術形成的目標模型或防御系統(tǒng)的梯度。然后利用這些近似梯度來計算對抗性擾動。
4.2.6 攻擊算法分類一覽
在計算機視覺中,用于產(chǎn)生對抗擾動的算法是一種優(yōu)化方法,通常在預先訓練的模型中發(fā)現(xiàn)泛化缺陷,以便在干凈圖像中生成對抗擾動。
如下表所示,根據(jù)之前的一些劃分方法將當前的對抗樣本進行了一次完整全新的分類。(原表格非常的密集,字體非常的小,為了更夠更清晰的展示出來,挑選了一些比較重要的分類指標并重新制作了一張表格。)
對抗樣本防御的分類
5.1 防御目標
根據(jù)防御目標可以將目標分為主動防御或被動防御。主動防御的目的是使分類模型對對抗樣本更加健壯。當一個模型能夠像干凈樣本一樣正確地分類對抗樣本時,它被認為是健壯的。另一方面,被動防御的重點是通過充當過濾器來檢測對抗圖像,在惡意圖像到達分類器之前識別它們。
5.2 防御方法
防御系統(tǒng)可以采用不同的方法來保護模型免受對抗圖像的攻擊,其中可以分為梯度掩蔽,對抗訓練,防御蒸餾,特征壓縮,分類器集成和近鄰測量。
5.2.1 梯度掩蔽
基于梯度掩蔽(又稱為模糊梯度)阻礙了基于優(yōu)化的攻擊算法在樣本空間中找到錯誤的方向,通俗易懂的說法是把梯度信息給隱藏了讓攻擊算法利用不到。梯度掩蔽的防御又可以分為破碎梯度,隨機梯度和梯度爆炸/消失。
破碎梯度:通過不可微防御引起,從而引入不存在或不正確的坡度;
隨機梯度:輸入到分類器之前對輸入進行隨機預處理,這種梯度掩蔽策略通常導致對抗攻擊錯誤估計真實梯度;
梯度爆炸/消失:由非常深的體系結構形成的防御引起,通常由神經(jīng)網(wǎng)絡評估的多次迭代組成,其中一層的輸出作為下一層的輸入。
5.2.2 對抗訓練
基于對抗訓練的防御方法通常被認為是一種很簡單粗暴的方法去防御對抗攻擊。對抗訓練的主要目的是通過在包含干凈和對抗圖像的數(shù)據(jù)集中訓練,使分類模型更加健壯。
但存在一個問題就是對抗訓練訓練出的模型與使用的攻擊算法具有強耦合性,即使用對抗訓練對模型進行再訓練不會產(chǎn)生一個通用模型,該模型只能夠抵抗由訓練過程中未使用的不同攻擊算法生成的對抗圖像,具體的原理詳解如下圖所示:
5.2.3 防御蒸餾
防御蒸餾是一種主動性防御。這個對策的靈感來自學習模型間知識轉移的特性。在學習蒸餾中,復雜模型所獲得的知識在使用確定的數(shù)據(jù)集進行訓練后,被轉移到更簡單的模型上。
防御性蒸餾首先使用包含樣本 的數(shù)據(jù)集訓練模型 ,并用溫度 標記標簽 ,作為輸出的概率向量 。然后用概率向量 代替標簽集 ,并用樣本集 建立和訓練具有相同 結構的模型 ,但現(xiàn)在使用新的標簽集 作為標簽。訓練結束時,生成目標概率輸出 。如下圖所示描述了防御蒸餾的過程。
5.2.4 特征壓縮
特征壓縮是一種利用顏色位縮減和空間平滑來降低輸入圖像降維后的防御,它們通過處理兩種不同類型的攝動來相互補充。位縮減的目的是通過覆蓋不同像素來消除小擾動,而空間平滑則是通過覆蓋一些像素來消除大擾動。如下圖所示為具體的工作流程。
5.2.5 分類器集合
基于分類器集合的防御是由兩個或多個分類模型組成的對抗措施,可以在運行時選擇。這種方法基于的假設是每個模型在對給定輸入圖像進行分類時,都會相互補償其他模型最終可能存在的弱點。
5.2.6 近鄰測量
這是基于干凈圖像和對抗圖像到?jīng)Q策邊界的距離測量的防御措施。該方法利用 kNN 算法的變體,從 DNN 的每一層獲得的訓練和輸入圖像的隱藏表示之間的接近度來計算不確定性和可靠性。輸入圖像經(jīng)過 DNN 的所有層后,分析訓練圖像空間中表示點的標簽。算法的具體流程如下圖所示:
5.2.7 防御性算法一覽
如下表所示,根據(jù)之前的一些劃分方法將當前的對抗防御方法進行了一次完整全新的分類。(原表格非常的密集,字體非常的小,為了更夠更清晰的展示出來,挑選了一些比較重要的分類指標并重新制作了一張表格。)
對抗樣本存在性解釋
通過推理對抗樣本影響機器學習模型預測的原因,了解對抗樣本的存在和性質,通常是在闡述對抗機器學習中攻擊和防御時考慮的第一步。CNN 和其他機器學習算法在對抗性攻擊的惡意影響之前所呈現(xiàn)的漏洞被普遍稱為聰明漢斯效應。
與漢斯效應相似,學習模型通常能夠對復雜的問題給出正確的答案,例如圖像識別和分類,但是沒有真正從訓練數(shù)據(jù)中學習,什么使他們容易受到對抗攻擊,作者在這一節(jié)匯總了當前對抗樣本存在性的解釋的研究,會發(fā)現(xiàn)很有趣一點就是,對于對抗樣本的解釋都是通過實驗來自圓其說的。
6.1 高度非線性化假設
Szegedy 等人首先關注到對抗樣本的存在,他認為由于深層神經(jīng)網(wǎng)絡的高度非線性化,使得數(shù)據(jù)流形中形成低概率的口袋,而這些口袋很難通過對給定樣本周圍的輸入空間進行采樣,具體詳情如下圖所示。這類口袋的出現(xiàn)主要是由于目標函數(shù)、訓練過程和數(shù)據(jù)集的某些不足,訓練樣本的規(guī)模和多樣性有限,導致模型的泛化能力較差。
6.2 線性化假設
Goodfellow 反駁了 Szegedy 等人的非線性假設。假設 DNN 有一個非常線性的行為,由幾個激活函數(shù)引起,比如 ReLU 和 sigmoid,它們使微小的擾動輸入保持在同一個錯誤的方向上。
作為它們解釋的基礎,Goodfellow 詳細闡述了 FGSM 攻擊,并指出分類器的魯棒性與所使用的訓練過程無關,高階分類器中兩個類之間的距離比線性分類器大,這表明在更深層次的模型中更難找到對抗樣本。
6.3 邊界傾斜假說
這種假設與 Szegedy 等人給出的解釋更為相關,即學習的類邊界靠近訓練樣本流形,但該學習邊界相對于該訓練流形是“傾斜”的。
因此,可以通過向分類邊界擾動合法樣本直到它們越過分類邊界來生成對抗性圖像。所需的擾動量隨著傾斜度的減小而減小,從而產(chǎn)生高置信度和誤導性的對抗樣本,其中包含視覺上無法察覺的擾動。
6.4 高維流形
Gilmer卻認為對抗樣本的產(chǎn)生是因數(shù)據(jù)流形的維度性質。他創(chuàng)建了一個合成數(shù)據(jù)集,然后用它來訓練模型。在對其進行訓練后,作者觀察到,由模型正確分類的輸入與附近錯誤分類的對抗性輸入很接近,這意味著學習模型必然容易受到對抗樣本的攻擊,這與所使用的訓練過程無關。
6.5 缺乏足夠的訓練數(shù)據(jù)集
Schmidt 等人主張學習模型必須在強分類器上進行推廣,即借助于魯棒優(yōu)化,以獲得魯棒性。作者觀察到對抗樣本的存在不一定是特定分類模型的缺點,而是在統(tǒng)計環(huán)境下的不可避免的結果。在收集了一些實證結果后,作者得出結論:目前還沒有一種有效的方法可以達到對抗魯棒性,這主要是因為現(xiàn)有的數(shù)據(jù)集不夠大,無法訓練出強分類器。
6.6 非穩(wěn)健特征假設
基于對抗擾動的存在并不一定意味著學習模型或訓練過程的缺陷,而是圖像的特征。通過考慮人類的感知,作者將特征分為魯棒特征(使得模型即使在受到不利干擾時也能正確預測真實類)和非魯棒特征(從數(shù)據(jù)分布模式中獲得的具有高度預測性)。
作者提出利用訓練 DNN 的 logits 層構造一個新的數(shù)據(jù)集,該數(shù)據(jù)集由包含魯棒特征的圖像組成,這些特征是通過訓練 DNN 的 logits 層從原始輸入圖像中過濾出來的。然后,這個數(shù)據(jù)集被用來訓練另一個用于進行比較研究的 DNN。
研究結果表明對抗樣本可能是由于非健壯性特征的存在而產(chǎn)生的,這是人們通常認為的相反。
論文總結
自從 Szegedy 等人的工作首次發(fā)現(xiàn)這個問題以來,科學界一直在努力尋找其他方法來防御對抗攻擊。但是在眾多的防御方法中,雖然一開始很有希望,但已經(jīng)證明所有的防御手段都是脆弱的,對阻止強大對抗攻擊是無效的。
在這種攻擊和防御之間的軍備競賽使得對抗機器學習領域相當活躍和活躍,幾乎每天都有新的防御方法的出現(xiàn)。該論文將對抗攻擊,對抗防御,以及對抗樣本存在的解釋性做了一次全面的梳理,非常值得一讀。
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質內容以更短路徑到達讀者群體,縮短讀者尋找優(yōu)質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優(yōu)質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創(chuàng)作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發(fā),請在投稿時提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認每篇文章都是首發(fā),均會添加“原創(chuàng)”標志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發(fā)送?
? 請留下即時聯(lián)系方式(微信或手機),以便我們在編輯發(fā)布時和作者溝通
????
現(xiàn)在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的最新综述:图像分类中的对抗机器学习的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 丝锥6g和7h有什么区别?13
- 下一篇: CCF-百度松果基金闭门研讨会成功举办,