HGD处理对抗样本以防御对抗攻击
目錄
- 背景
- HGD
- 原理
- 分類
- 防御效果
論文 2018CVPR-Defense against Adversarial Attacks Using High-Level Representation Guided Denoiser.
背景
對抗樣本通過向原始圖像添加噪聲來構造,使得輸入模型后分類錯誤。如果在對抗樣本輸入模型之前,進行去噪處理,將攻擊者千方百計添加到原始圖像上的輕微干擾去除,則可以得到與原始圖像近似的去噪后圖像,從而分類依舊正確。
之前提出像素導向去噪器PGD(pixel guided denoiser),令 x x x表示原始的干凈圖像, x ? x^* x?表示對抗樣本, x ′ x' x′表示去噪后的圖像。將損失函數定義為 L = ∣ ∣ x ? x ′ ∣ ∣ L=||x-x'|| L=∣∣x?x′∣∣,表示去噪后的圖像與原始圖像之間的差異。其中, ∣ ∣ . ∣ ∣ ||.|| ∣∣.∣∣表示 L 1 L_1 L1?范數。由于該損失函數是定義在圖像像素級別上的,因此命名為像素導向去噪器。
然而PGD有一個致命缺陷。去噪是相對性的,并不是絕對的,無論去噪過程多完善,總會存在殘余的噪聲在圖像上。而在DNN中,存在誤差放大效應。即殘余的對抗噪聲在一層層中會被放大,使得最后的輸出存在的噪聲仍足以使DNN分類錯誤。
因此,作者提出了HGD高級表示指導去噪器(High-Level Representation Guided Denoiser)。
HGD
原理
由于DNN存在誤差放大效應,故將損失函數定義在輸出層上。
令 y y y表示原始的干凈圖像通過DNN后的輸出, y ? y^* y?表示對抗樣本的輸出, y ′ y' y′表示去噪后的圖像的輸出。將損失函數定義為 L = ∣ ∣ y ? y ′ ∣ ∣ L=||y-y'|| L=∣∣y?y′∣∣,表示去噪后的圖像與原始圖像的對應輸出之間的差異。HGD的目標是,追求損失函數的最小化。損失函數越小,說明去噪后圖像與原圖像的輸出差異越小,越接近初始圖像,去噪效果越好。
分類
根據選擇的網絡層 l l l 的不同,提出了兩種HGD。
-
FGD特征導向去噪器
將 l = ? 2 l=-2 l=?2定義為最頂層卷積層的索引,在全局平均池化之后,該層的激活被饋送到線性分類層,因此與較低的卷積層相比,它與分類目標更多相關。FGD使用的損失函數也稱為知覺損失或特征匹配損失。 -
LGD對數導向去噪器
將 l = ? 1 l=-1 l=?1定義為最終softmax函數之前的層的索引,即對數。此時的損失函數為 x x x和 x ′ x' x′激活的兩個logit之差。
所有的PGD和HGD都是無監督模型,因為在訓練過程中不需要地面真相標簽。 -
CGD類標簽引導去噪器
另一種方法是將目標模型的分類損失用作去噪損失函數,在需要基礎真實標簽的情況下進行監督學習,該模型稱為類標簽引導去噪器(CGD)。
防御效果
針對 L 0 L_0 L0?以及 L 2 L_2 L2?攻擊的防御效果不佳。原因在于這兩類攻擊限制了修改像素的數量,在修改程度上限制比較少,個別像素的被擾動程度可能過大,去噪效果不明顯。該防御方法適用于 L ∞ L_\infty L∞?攻擊。
總結
以上是生活随笔為你收集整理的HGD处理对抗样本以防御对抗攻击的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 兼职第十五天
- 下一篇: office 2010系列各版本下载地址