當前位置：首頁 > 人工智能 > ChatGpt >内容正文

ChatGpt

论文笔记——EXPLAINING AND HARNESSING ADVERSARIAL EXAMPLES（解释和利用对抗样本）

發(fā)布時間：2023/12/14 ChatGpt 50 豆豆

生活随笔收集整理的這篇文章主要介紹了论文笔记——EXPLAINING AND HARNESSING ADVERSARIAL EXAMPLES（解释和利用对抗样本）小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

本文參考了三篇筆記，幫助很大：
《Explaining and Harnessing Adversarial Examples》閱讀筆記
[論文筆記]Explaining & Harnessing Adversarial Examples
EXPLAINING AND HARNESSING ADVERSARIAL EXAMPLES筆記

abstract

一些機器學習方法，包括神經(jīng)網(wǎng)絡都會被對抗樣本（輸入含有小的但是故意破壞的擾動）誤導。這種對抗樣本的輸入會讓神經(jīng)網(wǎng)絡得出一個置信度高并且錯誤的答案。早期的工作嘗試用非線性特征和過擬合去解釋它，我們卻認為神經(jīng)網(wǎng)絡對于對抗樣本的弱點主要體現(xiàn)在它的線性特征，基于這個假設，我們提出了簡單快速的生成對抗樣本的方法即快速梯度符號法（Fast Gradient Sign Method），通過產(chǎn)生對抗樣本，降低了測試集的錯誤率（MNIST maxout network）

1 Introduction

Szegedy等人在2014年發(fā)現(xiàn)了對抗樣本，在許多情況下，在訓練數(shù)據(jù)的不同子集上訓練的具有不同架構(gòu)的各種各樣的模型也會錯誤的分類相同的對抗樣本（數(shù)據(jù)分布中得到的正確分類的例子只有輕微區(qū)別）。這表明，對抗樣本暴露了我們訓練算法中的基本盲點。

這些對抗樣本的原因是一個謎，推測的解釋表明，這是由于深度神經(jīng)網(wǎng)絡的極端非線性(Nonlinear)，或許可能與純監(jiān)督學習的模型平均不足和正則化不足相結(jié)合。作者證明了這些推測性的假設是不必要的。高維空間(high-dimensional)中的線性行為足以引產(chǎn)生對抗樣本。本文我們能夠設計出一種快速生成對抗樣本的方法，從而使對抗訓練變得切實可行。對抗訓練提供了傳統(tǒng)正則化策略（(dropout, pre-training, model averaging等不能顯著降低模型對對抗樣本的脆弱性）以外的另一種正則化方法。

我們的解釋表明，在設計由于線性而易于訓練的模型和設計使用非線性效應來應對對抗樣本的模型之間存在著一種基本的張力。從長遠來看，通過設計更強大的優(yōu)化方法來成功地訓練更多的非線性模型，有可能避免這種權(quán)衡。

2. Relate Work

Szegedy等人展示了神經(jīng)網(wǎng)絡和相關模型的各種有趣特性。與本文最相關的內(nèi)容包括:

Box-constrained L-BFGS可以可靠地找到敵對的例子；
很多數(shù)據(jù)集上對抗樣本與基本樣本差異較少；
淺softmax回歸模型也容易受到敵對實例的攻擊；
在對抗樣本上進行訓練可以使模型正規(guī)化——但是，這在當時并不實際，因為需要在內(nèi)部循環(huán)中進行昂貴的約束優(yōu)化。

這些結(jié)果表明，即使是那些基于現(xiàn)代機器學習技術(shù)并在測試集上獲得優(yōu)異性能的分類器，也沒有學習到真正的底層概念，這些概念決定了正確的輸出標簽。相反，這些算法建立了一個Potemkin village以很好地處理自然發(fā)生的數(shù)據(jù)，但當訪問點在數(shù)據(jù)分布中不具有高概率時，就會暴露為假數(shù)據(jù)。這尤其令人失望，因為計算機視覺中一個流行的方法是使用卷積網(wǎng)絡特征作為歐幾里得距離近似感知距離的空間，如果感知距離非常小的圖像對應于網(wǎng)絡代表中完全不同的類，那么這種相似性顯然是有缺陷的。

這些結(jié)果經(jīng)常被解釋為一個缺陷，特別是在深度網(wǎng)絡，即使線性分類器有同樣的問題。我們把對這一缺陷的了解看作是一次修復它的機會。事實上，Gu和Rigazio(2014)以及Chalupka等人(2014)已經(jīng)開始了設計抵御敵對干擾的模型的第一步，盡管還沒有模型在保持干凈輸入的精確狀態(tài)的同時成功地做到了這一點.

3. THE LINEAR EXPLANATION OF ADVERSARIAL EXAMPLES

這說明了當一個簡單的線性模型的輸入具有足夠的維數(shù)時，它也會有對抗樣本。先前對對抗樣本的解釋引用了神經(jīng)網(wǎng)絡的假設屬性，比如高度非線性的性質(zhì)。我們基于線性的假設更簡單，也可以解釋為什么softmax回歸容易受到對抗樣本。

4 LINEAR PERTURBATION OF NON-LINEAR MODELS

作者利用對抗樣本的線性解釋提出了一個快速產(chǎn)生對抗樣本的方式，也即Fast Gradient Sign Method(FGSM) 方法，這種方法的核心思想是沿著梯度的反方向添加擾動從而拉大對抗樣本與原始樣本的距離，因為作者Goodfellow認為在構(gòu)造對抗樣例時，我們更應該關心的是擾動的方向而不是擾動的數(shù)目。

對抗樣本的線性觀點提供了一種快速生成它們的方法。我們假設神經(jīng)網(wǎng)絡是過于線性以至于不能抵抗線性對抗干擾。LSTMs，ReLUs，maxout network為了更方便優(yōu)化，都有意地以非常線性的形式。即使是像采用Sigmoid激活的網(wǎng)絡，為了同樣的目的，經(jīng)過精心調(diào)整，以一個更加線性的機制使模型大部分的時間花在非飽和區(qū)域。而這些線性行為所帶來的對抗樣本的脆弱性也將摧毀神經(jīng)網(wǎng)絡。

通過添加一個難以察覺的小向量，它的元素等于損失函數(shù)相對于輸入的梯度的元素的符號，我們可以改變GoogLeNet對圖像的分類。

使用反向傳播可以有效地計算所需的梯度。

實驗結(jié)果省略。。。。。。實驗表明，FGSM這種簡單的算法確實可以產(chǎn)生誤分類的對抗樣本，從而證明了作者假設的對抗樣本的產(chǎn)生原因是由于模型的線性特性。同時，這種算法也可作為一種加速對抗訓練的方法。作者還發(fā)現(xiàn)輸入x在梯度方向上旋轉(zhuǎn)一個小角度也會可靠地產(chǎn)生對抗樣本。

5 ADVERSARIAL TRAINING OF LINEAR MODELS VERSUS WEIGHT

這里作者舉出了一個例子，對于線性模型攻擊。

考慮在最簡單的邏輯回歸(Logistics Regression)模型上應用FGSM方法，從而理解在一個簡單的設置中如何生成對抗樣本。
對于邏輯回歸模型，在原始MNIST數(shù)據(jù)集上，區(qū)分3和7的錯誤率為1.6%，如圖?所示；當應用快速梯度符號法添加對抗擾動之后，邏輯回歸模型在這些對抗樣本上的錯誤率為99%。

這有點類似于L1正則化。但是L1是在訓練過程中減少模型的激活，而不加在損失上，這意味著如果模型學習到有足夠可信度進行預測，使損失函數(shù)飽和，那么這種懲罰最終會開始消失。但是在不擬合的情況下這并不能保證會發(fā)生，同時對抗訓練只會使不擬合的情況惡化，因此，我們可以把L1重量的衰減看作比對抗性訓練更“最糟糕的情況”，因為在保證良好的情況下它不能失效。

如果我們從邏輯回歸轉(zhuǎn)到多類softmax回歸，L1權(quán)重衰減將變得更加悲觀，因為它將softmax的每個輸出視為獨立的擾動，而實際上通常不可能找到與所有類的權(quán)重向量一致的單一假設。在有多個隱藏單位的深層網(wǎng)絡中，權(quán)重衰減會高估擾動所能造成的傷害。因為重量衰減會高估的對抗傷害程度，有必要使用比與我們的特征的精確性有關干擾系數(shù)更小的L1權(quán)重衰減系數(shù)。在MNIST上訓練maxout網(wǎng)絡時，我們用.25的干擾系數(shù)取得了較好的效果。在第一層應用L1權(quán)值衰減時，我們發(fā)現(xiàn)即使系數(shù)為.0025也過大，導致模型在訓練集上的誤差超過5%。較小的權(quán)值衰減系數(shù)允許成功訓練，但沒有達到正則化的好處。

6 ADVERSARIAL TRAINING OF DEEP NETWORKS

作者首先認為對深層網(wǎng)絡容易受到對抗樣本的攻擊的批評在某種程度上是被誤導的，因為與淺線性模型不同，深層網(wǎng)絡至少能夠表示抵抗敵對性干擾的函數(shù)。然后又提及了這個通用逼近定理（universal approximator theorem）保證了具有至少一個隱含層的神經(jīng)網(wǎng)絡（只要它的隱含層允許有足夠的神經(jīng)元單位）可以以任意精度表示任何函數(shù)。通用逼近器定理并沒有說明訓練算法是否能夠發(fā)現(xiàn)具有所有期望性質(zhì)的函數(shù)。顯然，標準的監(jiān)督訓練并沒有規(guī)定所選的函數(shù)能夠抵抗對抗樣本，這必須以某種方式被編碼到訓練過程中。

通過混合訓練對抗的和干凈的樣本，神經(jīng)網(wǎng)絡可以正則化。對抗性實例的訓練與其他數(shù)據(jù)增強方案有所不同;通常，使用轉(zhuǎn)換(例如預期在測試集中實際發(fā)生的轉(zhuǎn)換)來增加數(shù)據(jù)。這種形式的數(shù)據(jù)擴充使用不太可能自然發(fā)生的輸入，但暴露了模型概念化其決策功能的方式上的缺陷。在那個時候，這個過程從來沒有被證明在一個最先進的基準測試中可以提高超過dropout。然而，這在一定程度上是因為很難用昂貴的基于L-BFGS的對抗實例進行廣泛的實驗。

發(fā)現(xiàn)基于快速梯度符號方法的對抗性目標函數(shù)訓練是一種有效的正則化器:

用這種方法訓練一個正則化的帶dropout的maxout網(wǎng)絡，可以將不進行對抗性訓練的錯誤率從0.94%降低到進行對抗性訓練的錯誤率為0.84%。這個提升的過于少，作者注意到在訓練集的對抗子樣本錯誤率沒有達到零，作出了兩點改進：

將神經(jīng)元數(shù)目從240個變成了1600個。
同時使用early stopping在對抗樣本到測試集上。

作者在這個兩個改進的標準下來選擇訓練的迭代數(shù)，然后對所有60000個樣本進行再訓練。五個不同的訓練使用不同的隨機數(shù)生成器的種子用于選擇minibatches訓練樣本，初始化權(quán)重模型，并生成dropout masks導致四個試驗都有0.77%的錯誤率和一個試驗0.83%的錯誤率。0.782%的平均值是MNIST排列不變版本報告的最佳結(jié)果，盡管在統(tǒng)計上與使用dropout微調(diào)DBMs 獲得的0.79%的結(jié)果沒有區(qū)別。

之后作者做了一個實驗，沒太看懂什么意思。。。。

用原來的模型生成的對抗樣本作用在原來的模型上，錯誤率是89.4%，但是作用在使用對抗樣本訓練的模型上，錯誤率是17.9%。用對抗樣本訓練的模型去生成對抗樣本，作用在原來的模型上，錯誤率是40.9%，作用在用對抗樣本訓練的模型上，錯誤率是19.6。
但是對抗訓練的模型對對抗樣本錯誤的分類時，它的預測仍然是高度自信的。我們還發(fā)現(xiàn)，學習模型的權(quán)值發(fā)生了顯著的變化，而對抗訓練模型的權(quán)值顯著地更具局部性和可解釋性。

這個就是直觀的用對抗樣本訓練的圖，還是比較明顯能看出來，用對抗樣本訓練的更干凈了。

事實上，在許多情況下，噪聲實際上會導致一個較低的目標函數(shù)值。我們可以把對抗性訓練看作是在一組有噪聲的輸入中進行艱難的例子挖掘，以便通過只考慮那些強烈抵制分類的有噪聲的點來更有效地訓練。

由于sign function導數(shù)處處為零或無定義，基于快速梯度符號法對敵對目標函數(shù)的梯度下降不允許模型預測對手對參數(shù)變化的反應。

作者又考慮了是擾動輸入或隱藏層，或者兩者都擾動更好，作者發(fā)現(xiàn)：

在飽和模型(如Rust模型)上，對輸入的擾動與對隱藏層的擾動執(zhí)行得相當。基于旋轉(zhuǎn)隱藏層的擾動解決了無界激活增長的問題，使相加的擾動相對較小。作者能夠成功地用隱含層的旋轉(zhuǎn)擾動訓練最大輸出網(wǎng)絡。然而，這并沒有產(chǎn)生幾乎強大的正則化效果的添加擾動的輸入層。我們對對抗性訓練的看法是，只有當模型有能力學會抵制對抗性的例子時，它才顯然是有用的，當然只有通用逼近定理適用時，才會出現(xiàn)這種情況。由于神經(jīng)網(wǎng)絡的最后一層，即linear-sigmoid或linear-softmax層，并不是最終隱含層函數(shù)的通用逼近器，這表明當對最終隱藏層應用對抗性擾動時，很可能會遇到不匹配的問題。使用隱含層的擾動訓練的最佳結(jié)果從未涉及到最后隱含層的擾動。

7 DIFFERENT KINDS OF MODEL CAPACITY

對抗樣本是違反直覺的可能是因為我們在高維空間的直覺非常差（畢竟我們在三維空間），但是作者舉出來一個RBF神經(jīng)網(wǎng)絡的例子，RBF對于對抗樣本的攻擊很不敏感，他本身預測的置信度就非常低，所以作者認為它會對自己不理解的點減少置信度來提高準確率。
RBP網(wǎng)絡：

對于一個沒有隱含層的淺層RBF神經(jīng)網(wǎng)絡，使用快速梯度符號法構(gòu)造對抗樣例，設置干擾系數(shù)=.25 ，在MNIST數(shù)據(jù)集上，其錯誤率為55.4%，但是對于分錯的樣本，其置信度非常低，只有1.2%。也就是說，RBF神經(jīng)網(wǎng)絡對對抗擾動不敏感，因為當它們被“愚弄”時，其對應的置信度也很低。

8 WHY DO ADVERSARIAL EXAMPLES GENERALIZE?

對抗性示例的一個有趣的方面是，為一個模型生成的示例經(jīng)常被其他模型分類錯誤，即使它們有不同的架構(gòu)或者是在不相交的訓練集上訓練的時候也是如此。此外，當這些不同的模型對一個敵對的例子進行錯誤的分類時，它們通常會在其類別上達成一致。基于極端非線性和過擬合的解釋不能很好地解釋這種行為——為什么多個具有過過容量的極端非線性模型始終如一地用相同的方式標記分布外的點?

在線性的觀點下，對抗樣本出現(xiàn)在廣闊的子空間中。方向只需要有正的點積與成本函數(shù)的梯度，并且干擾系數(shù)只要足夠大就行了。圖4展示了這種現(xiàn)象。

通過追蹤干擾系數(shù)的不同值，可以看到，對幾乎任何足夠大的干擾系數(shù)值，只要朝著正確的方向前進都可靠地出現(xiàn)對抗樣本。大多數(shù)Rⁿ都是由對抗樣本和無用的類樣本組成(參見附錄)。這個圖片是一個原始的的訓練maxout網(wǎng)絡生成的。

9 ALTERNATIVE HYPOTHESES

這一部分，作者通過實驗及分析，反駁了其他兩種對抗樣本存在的備選假設。

假設1：生成訓練可以在訓練過程中提供更多的限制，或者是的模型學習如何分辨"real"或者"fake"的數(shù)據(jù)，并且對"real"的數(shù)據(jù)更加自信。

文章表明，某些生成訓練并不能達到假設的效果，但是不否認可能有其他形式的生成模型可以抵御攻擊，但是確定的是生成訓練的本身并不足夠。

假設2：對抗樣本存在于單個奇怪的模型(models with strange quirks)，因此多個模型的平均可以使得模型防御性更好。

文章通過實驗說明，模型融合(ensembles)對于對抗樣本的防御能力非常有限。

10 SUMMARY AND DISCUSSION

對抗樣本可以被解釋成高維點乘的一種性質(zhì)，他們是模型過于線性的結(jié)果。
對抗樣本具有對不同模型都有效的特性，這個特性是可解釋的。
擾動的方向十分重要。
沒明白意思。
我們介紹了一族快速生成對抗樣本的方法。
通過對抗樣本訓練可以正則化，甚至比dorpout的好。
我們進行了實驗不能用其他方法更簡單的更少的高效正則化（包括L1）達到這個效果。
模型容易被優(yōu)化就容易被擾動。
線性模型抵抗對抗樣本能力差，只有大量隱藏層的網(wǎng)絡才應該被訓練成抵抗對抗樣本的網(wǎng)絡。
RBF神經(jīng)網(wǎng)絡對對抗樣本有抵抗力。
輸入加噪音并不難抵抗對抗樣本。
Ensembles不能抵抗對抗樣本。

基于梯度的優(yōu)化是現(xiàn)代人工智能的核心。使用一個設計得足夠線性的網(wǎng)絡——無論是ReLU網(wǎng)絡還是maxout網(wǎng)絡、LSTM網(wǎng)絡，還是精心配置的不過度飽和的s型網(wǎng)絡——我們能夠適應我們關心的大多數(shù)問題，相反例子的存在表明，能夠解釋訓練數(shù)據(jù)，甚至能夠正確標注測試數(shù)據(jù)，并不意味著我們的模型真正理解了我們要求它們執(zhí)行的任務。相反，他們的線性反應在數(shù)據(jù)分布中沒有出現(xiàn)的點上過于自信，而這些自信的預測通常是高度不正確的。這項工作表明，我們可以通過明確地識別問題點并在每個問題點上修正模型來部分地修正這個問題。然而，我們也可以得出這樣的結(jié)論:我們所使用的模范家庭在本質(zhì)上是有缺陷的。優(yōu)化的易用性是以模型容易被誤導為代價的。這激發(fā)了優(yōu)化程序的開發(fā)，這些程序能夠訓練那些行為在局部更穩(wěn)定的模型。

總結(jié)：

優(yōu)點：這篇論文中，Goodfellow否定了Szegedy關于為什么神經(jīng)網(wǎng)絡易受到對抗樣例攻擊的解釋，他認為神經(jīng)網(wǎng)絡在高維空間中線性性質(zhì)才是導致對抗樣例存在的真正原因。基于這種解釋，Goodfellow提出了一種快速生成對抗樣例的方法，即快速梯度符號法(FGSM)，這種方法的核心思想是沿著梯度的反方向添加擾動從而拉大對抗樣例于原始樣本的距離，因為Goodfellow認為在構(gòu)造對抗樣例時，我們更應該關心的是擾動的方向而不是擾動的數(shù)目。Goodfellow認為對抗樣例之所以有泛化性的原因是因為添加的擾動與模型的權(quán)重向量高度一致，而且不同的模型在被訓練執(zhí)行相同的任務時，從訓練數(shù)據(jù)中學到的東西相似。在這篇文章中，Goodfellow提出了對抗訓練的思想，他認為對抗訓練會導致訓練過程中的正則化，而且其效果甚至超過了dropout 。

不足：這篇文章中提出的快速梯度符號法存在明顯的缺點，首先，這是一種不定向的攻擊，只能讓模型出錯而無法做到定向攻擊。而且這種攻擊的魯棒性不強，添加的擾動容易在圖片的預處理階段被過濾掉。盡管Googdfellow提出的對抗訓練方式可以提高模型的泛化能力，從而在一定程度上防御對抗樣例攻擊，但這種防御方法只針對一步對抗樣例攻擊有效，攻擊者仍可以針對新的網(wǎng)絡構(gòu)造其他的對抗樣例。

總結(jié)

以上是生活随笔為你收集整理的论文笔记——EXPLAINING AND HARNESSING ADVERSARIAL EXAMPLES（解释和利用对抗样本）的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：什么是TOR 官方文档
下一篇：读论文：SELFEXPLAIN: A S