當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

pytorch 对抗样本_【炼丹技巧】功守道：NLP中的对抗训练 + PyTorch实现

發(fā)布時間：2025/3/11 编程问答 53 豆豆

生活随笔收集整理的這篇文章主要介紹了 pytorch 对抗样本_【炼丹技巧】功守道：NLP中的对抗训练 + PyTorch实现小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

本文分享一個“萬物皆可盤”的NLP對抗訓(xùn)練實現(xiàn)，只需要四行代碼即可調(diào)用。盤他。

最近，微軟的FreeLB-Roberta [1] 靠著對抗訓(xùn)練 (Adversarial Training)在GLUE榜上超越了Facebook原生的Roberta，追一科技也用到了這個方法僅憑單模型 [2] 就在CoQA榜單中超過了人類，似乎“對抗訓(xùn)練”一下子變成了NLP任務(wù)的一把利器。剛好筆者最近也在看這方面的內(nèi)容，所以開一篇博客，講一下。GLUE LeaderboardCoQA Leaderboard

提到“對抗”，相信大多數(shù)人的第一反應(yīng)都是CV中的對抗生成網(wǎng)絡(luò) (GAN)，殊不知，其實對抗也可以作為一種防御機(jī)制，并且經(jīng)過簡單的修改，便能用在NLP任務(wù)上，提高模型的泛化能力。關(guān)鍵是，對抗訓(xùn)練可以寫成一個插件的形式，用幾行代碼就可以在訓(xùn)練中自由地調(diào)用，簡單有效，使用成本低。不過網(wǎng)上的大多數(shù)博客對于NLP中的對抗訓(xùn)練都介紹得比較零散且無代碼實現(xiàn)，筆者在這篇博客中，對NLP任務(wù)中的對抗訓(xùn)練做了一個簡單的綜述，并提供了插件形式的PyTorch實現(xiàn)。

本文專注于NLP對抗訓(xùn)練的介紹，對對抗攻擊基礎(chǔ)感興趣的讀者，可以看這幾篇博客及論文 [3] [4] [5]，這里就不贅述了。不想要理解理論細(xì)節(jié)的讀者也可以直接看最后的代碼實現(xiàn)。

1. 對抗樣本

我們常常會聽到“對抗樣本”、“對抗攻擊”、“對抗訓(xùn)練”等等這些令人頭禿的概念，為了讓大家對“對抗”有個更清晰的認(rèn)識，我們先把這些概念捋捋清楚。Taxonomy

Szegedy在14年的ICLR中 [6] 提出了對抗樣本這個概念。如上圖，對抗樣本可以用來攻擊和防御，而對抗訓(xùn)練其實是“對抗”家族中防御的一種方式，其基本的原理呢，就是通過添加擾動構(gòu)造一些對抗樣本，放給模型去訓(xùn)練，以攻為守，提高模型在遇到對抗樣本時的魯棒性，同時一定程度也能提高模型的表現(xiàn)和泛化能力。

那么，什么樣的樣本才是好的對抗樣本呢？對抗樣本一般需要具有兩個特點：相對于原始輸入，所添加的擾動是微小的；

能使模型犯錯。

下面是一個對抗樣本的例子，決定就是你啦，胖達(dá)：一只胖達(dá)加了點擾動就被識別成了長臂猿

2. 對抗訓(xùn)練的基本概念

GAN之父Ian Goodfellow在15年的ICLR中 [7] 第一次提出了對抗訓(xùn)練這個概念，簡而言之，就是在原始輸入樣本

上加一個擾動

，得到對抗樣本后，用其進(jìn)行訓(xùn)練。也就是說，問題可以被抽象成這么一個模型：

其中，

為gold label，

為模型參數(shù)。那擾動要如何計算呢？Goodfellow認(rèn)為，神經(jīng)網(wǎng)絡(luò)由于其線性的特點，很容易受到線性擾動的攻擊。This linear behavior suggests that cheap, analytical perturbations of a linear model should also damage neural networks.

于是，他提出了 Fast Gradient Sign Method (FGSM) ，來計算輸入樣本的擾動。擾動可以被定義為：

其中，

為符號函數(shù)，

為損失函數(shù)。Goodfellow發(fā)現(xiàn)，令

，用這個擾動能給一個單層分類器造成99.9%的錯誤率。看似這個擾動的發(fā)現(xiàn)有點拍腦門，但是仔細(xì)想想，其實這個擾動計算的思想可以理解為：將輸入樣本向著損失上升的方向再進(jìn)一步，得到的對抗樣本就能造成更大的損失，提高模型的錯誤率。回想我們上一節(jié)提到的對抗樣本的兩個要求，FGSM剛好可以完美地解決。

在 [7] 中，Goodfellow還總結(jié)了對抗訓(xùn)練的兩個作用：提高模型應(yīng)對惡意對抗樣本時的魯棒性；

作為一種regularization，減少overfitting，提高泛化能力。

3. Min-Max 公式

在 [7] 中，對抗訓(xùn)練的理論部分被闡述得還是比較intuitive，Madry在2018年的ICLR中 [8]總結(jié)了之前的工作，并從優(yōu)化的視角，將問題重新定義成了一個找鞍點的問題，也就是大名鼎鼎的Min-Max公式：

該公式分為兩個部分，一個是內(nèi)部損失函數(shù)的最大化，一個是外部經(jīng)驗風(fēng)險的最小化。內(nèi)部max是為了找到worst-case的擾動，也就是攻擊，其中，

為損失函數(shù)，

為擾動的范圍空間。

外部min是為了基于該攻擊方式，找到最魯棒的模型參數(shù)，也就是防御，其中

是輸入樣本的分布。

Madry認(rèn)為，這個公式簡單清晰地定義了對抗樣本攻防“矛與盾”的兩個問題：如何構(gòu)造足夠強(qiáng)的對抗樣本？以及，如何使模型變得刀槍不入？剩下的，就是如何求解的問題了。

4. 從 CV 到 NLP

以上提到的一些工作都還是停留在CV領(lǐng)域的，那么問題來了，可否將對抗訓(xùn)練遷移到NLP上呢？答案是肯定的，但是，我們得考慮這么幾個問題：

首先，CV任務(wù)的輸入是連續(xù)的RGB的值，而NLP問題中，輸入是離散的單詞序列，一般以one-hot vector的形式呈現(xiàn)，如果直接在raw text上進(jìn)行擾動，那么擾動的大小和方向可能都沒什么意義。Goodfellow在17年的ICLR中 [9] 提出了可以在連續(xù)的embedding上做擾動：Because the set of high-dimensional one-hot vectors does not admit in?nitesimal perturbation, we de?ne the perturbation on continuous word embeddings instead of discrete word inputs.

乍一思考，覺得這個解決方案似乎特別完美。然而，對比圖像領(lǐng)域中直接在原始輸入加擾動的做法，在embedding上加擾動會帶來這么一個問題：這個被構(gòu)造出來的“對抗樣本”并不能map到某個單詞，因此，反過來在inference的時候，對手也沒有辦法通過修改原始輸入得到這樣的對抗樣本。我們在上面提到，對抗訓(xùn)練有兩個作用，一是提高模型對惡意攻擊的魯棒性，二是提高模型的泛化能力。在CV任務(wù)，根據(jù)經(jīng)驗性的結(jié)論，對抗訓(xùn)練往往會使得模型在非對抗樣本上的表現(xiàn)變差，然而神奇的是，在NLP任務(wù)中，模型的泛化能力反而變強(qiáng)了，如[1]中所述：While adversarial training boosts the robustness, it is widely accepted by computer vision researchers that it is at odds with generalization, with classi?cation accuracy on non-corrupted images dropping as much as 10% on CIFAR-10, and 15% on Imagenet (Madry et al., 2018; Xie et al., 2019). Surprisingly, people observe the opposite result for language models (Miyato et al., 2017; Cheng et al., 2019), showing that adversarial training can improve both generalization and robustness.

因此，在NLP任務(wù)中，對抗訓(xùn)練的角色不再是為了防御基于梯度的惡意攻擊，反而更多的是作為一種regularization，提高模型的泛化能力。

有了這些“思想準(zhǔn)備”，我們來看看NLP對抗訓(xùn)練的常用的幾個方法和具體實現(xiàn)吧。

5. NLP中的兩種對抗訓(xùn)練 + PyTorch實現(xiàn)

a. Fast Gradient Method(FGM)

上面我們提到，Goodfellow在15年的ICLR [7] 中提出了Fast Gradient Sign Method(FGSM)，隨后，在17年的ICLR [9]中，Goodfellow對FGSM中計算擾動的部分做了一點簡單的修改。假設(shè)輸入的文本序列的embedding vectors

為

，embedding的擾動為：

實際上就是取消了符號函數(shù)，用二范式做了一個scale，需要注意的是：這里的norm計算的是，每個樣本的輸入序列中出現(xiàn)過的詞組成的矩陣的梯度norm。原作者提供了一個TensorFlow的實現(xiàn) [10]，在他的實現(xiàn)中，公式里的

是embedding后的中間結(jié)果(batch_size, timesteps, hidden_dim)，對其梯度

的后面兩維計算norm，得到的是一個(batch_size, 1, 1)的向量

。為了實現(xiàn)插件式的調(diào)用，筆者將一個batch抽象成一個樣本，一個batch統(tǒng)一用一個norm，由于本來norm也只是一個scale的作用，影響不大。筆者的實現(xiàn)如下：

import torch

class FGM():

def __init__(self, model):

self.model = model

self.backup = {}

def attack(self, epsilon=1., emb_name='emb.'):

# emb_name這個參數(shù)要換成你模型中embedding的參數(shù)名

for name, param in self.model.named_parameters():

if param.requires_grad and emb_name in name:

self.backup[name] = param.data.clone()

norm = torch.norm(param.grad)

if norm != 0 and not torch.isnan(norm):

r_at = epsilon * param.grad / norm

param.data.add_(r_at)

def restore(self, emb_name='emb.'):

# emb_name這個參數(shù)要換成你模型中embedding的參數(shù)名

for name, param in self.model.named_parameters():

if param.requires_grad and emb_name in name:

assert name in self.backup

param.data = self.backup[name]

self.backup = {}

需要使用對抗訓(xùn)練的時候，只需要添加五行代碼：

# 初始化

fgm = FGM(model)

for batch_input, batch_label in data:

# 正常訓(xùn)練

loss = model(batch_input, batch_label)

loss.backward() # 反向傳播，得到正常的grad

# 對抗訓(xùn)練

fgm.attack() # 在embedding上添加對抗擾動

loss_adv = model(batch_input, batch_label)

loss_adv.backward() # 反向傳播，并在正常的grad基礎(chǔ)上，累加對抗訓(xùn)練的梯度

fgm.restore() # 恢復(fù)embedding參數(shù)

# 梯度下降，更新參數(shù)

optimizer.step()

model.zero_grad()

PyTorch為了節(jié)約內(nèi)存，在backward的時候并不保存中間變量的梯度。因此，如果需要完全照搬原作的實現(xiàn)，需要用register_hook接口[11]將embedding后的中間變量的梯度保存成全局變量，norm后面兩維，計算出擾動后，在對抗訓(xùn)練forward時傳入擾動，累加到embedding后的中間變量上，得到新的loss，再進(jìn)行梯度下降。不過這樣實現(xiàn)就與我們追求插件式簡單好用的初衷相悖，這里就不贅述了，感興趣的讀者可以自行實現(xiàn)。

b. Projected Gradient Descent(PGD)

內(nèi)部max的過程，本質(zhì)上是一個非凹的約束優(yōu)化問題，FGM解決的思路其實就是梯度上升，那么FGM簡單粗暴的“一步到位”，是不是有可能并不能走到約束內(nèi)的最優(yōu)點呢？當(dāng)然是有可能的。于是，一個很intuitive的改進(jìn)誕生了：Madry在18年的ICLR中[8]，提出了用Projected Gradient Descent(PGD)的方法，簡單的說，就是“小步走，多走幾步”，如果走出了擾動半徑為

的空間，就映射回“球面”上，以保證擾動不要過大：

其中

為擾動的約束空間，

為小步的步長。

import torch

class PGD():

def __init__(self, model):

self.model = model

self.emb_backup = {}

self.grad_backup = {}

def attack(self, epsilon=1., alpha=0.3, emb_name='emb.', is_first_attack=False):

# emb_name這個參數(shù)要換成你模型中embedding的參數(shù)名

for name, param in self.model.named_parameters():

if param.requires_grad and emb_name in name:

if is_first_attack:

self.emb_backup[name] = param.data.clone()

norm = torch.norm(param.grad)

if norm != 0 and not torch.isnan(norm):

r_at = alpha * param.grad / norm

param.data.add_(r_at)

param.data = self.project(name, param.data, epsilon)

def restore(self, emb_name='emb.'):

# emb_name這個參數(shù)要換成你模型中embedding的參數(shù)名

for name, param in self.model.named_parameters():

if param.requires_grad and emb_name in name:

assert name in self.emb_backup

param.data = self.emb_backup[name]

self.emb_backup = {}

def project(self, param_name, param_data, epsilon):

r = param_data - self.emb_backup[param_name]

if torch.norm(r) > epsilon:

r = epsilon * r / torch.norm(r)

return self.emb_backup[param_name] + r

def backup_grad(self):

for name, param in self.model.named_parameters():

if param.requires_grad:

self.grad_backup[name] = param.grad.clone()

def restore_grad(self):

for name, param in self.model.named_parameters():

if param.requires_grad:

param.grad = self.grad_backup[name]

使用的時候，要麻煩一點：

pgd = PGD(model)

K = 3

for batch_input, batch_label in data:

# 正常訓(xùn)練

loss = model(batch_input, batch_label)

loss.backward() # 反向傳播，得到正常的grad

pgd.backup_grad()

# 對抗訓(xùn)練

for t in range(K):

pgd.attack(is_first_attack=(t==0)) # 在embedding上添加對抗擾動, first attack時備份param.data

if t != K-1:

model.zero_grad()

else:

pgd.restore_grad()

loss_adv = model(batch_input, batch_label)

loss_adv.backward() # 反向傳播，并在正常的grad基礎(chǔ)上，累加對抗訓(xùn)練的梯度

pgd.restore() # 恢復(fù)embedding參數(shù)

# 梯度下降，更新參數(shù)

optimizer.step()

model.zero_grad()

在[8]中，作者將這一類通過一階梯度得到的對抗樣本稱之為“一階對抗”，在實驗中，作者發(fā)現(xiàn)，經(jīng)過PGD訓(xùn)練過的模型，對于所有的一階對抗都能得到一個低且集中的損失值，如下圖所示：

我們可以看到，面對約束空間

內(nèi)隨機(jī)采樣的十萬個擾動，PGD模型能夠得到一個非常低且集中的loss分布，因此，在論文中，作者稱PGD為“一階最強(qiáng)對抗”。也就是說，只要能搞定PGD對抗，別的一階對抗就不在話下了。

6. 實驗對照

為了說明對抗訓(xùn)練的作用，筆者選了四個GLUE中的任務(wù)進(jìn)行了對照試驗。實驗代碼是用的Huggingface的transfomers/examples/run_glue.py [12]，超參都是默認(rèn)的，對抗訓(xùn)練用的也是相同的超參。

我們可以看到，對抗訓(xùn)練還是有效的，在MRPC和RTE任務(wù)上甚至可以提高三四個百分點。不過，根據(jù)我們使用的經(jīng)驗來看，是否有效有時也取決于數(shù)據(jù)集。畢竟：緣，妙不可言~

7. 總結(jié)

這篇博客梳理了NLP對抗訓(xùn)練發(fā)展的來龍去脈，介紹了對抗訓(xùn)練的數(shù)學(xué)定義，并對于兩種經(jīng)典的對抗訓(xùn)練方法，提供了插件式的實現(xiàn)，做了簡單的實驗對照。由于筆者接觸對抗訓(xùn)練的時間也并不長，如果文中有理解偏差的地方，希望讀者不吝指出。

8. 一個彩蛋：Virtual Adversarial Training

除了監(jiān)督訓(xùn)練，對抗訓(xùn)練還可以用在半監(jiān)督任務(wù)中，尤其對于NLP任務(wù)來說，很多時候輸入的無監(jiān)督文本多的很，但是很難大規(guī)模地進(jìn)行標(biāo)注，那么就可以參考[13]中提到的Virtual Adversarial Training進(jìn)行半監(jiān)督訓(xùn)練。

首先，我們抽取一個隨機(jī)標(biāo)準(zhǔn)正態(tài)擾動(

)，加到embedding上，并用KL散度計算梯度：

然后，用得到的梯度，計算對抗擾動，并進(jìn)行對抗訓(xùn)練：

實現(xiàn)方法跟FGM差不多，這里就不給出了。

更優(yōu)雅的排版請見我的博客：瓦特蘭蒂斯

ReferenceFreeLB: Enhanced Adversarial Training for Language Understanding. https://arxiv.org/abs/1909.11764

Technical report on Conversational Question Answering. https://arxiv.org/abs/1909.10772

Towards a Robust Deep Neural Network in Text Domain A Survey. https://arxiv.org/abs/1902.07285

Adversarial Attacks on Deep Learning Models in Natural Language Processing: A Survey. https://arxiv.org/abs/1901.06796

Intriguing properties of neural networks. https://arxiv.org/abs/1312.6199

Explaining and Harnessing Adversarial Examples. https://arxiv.org/abs/1412.6572

Towards Deep Learning Models Resistant to Adversarial Attacks. https://arxiv.org/abs/1706.06083

Adversarial Training Methods for Semi-Supervised Text Classification. https://arxiv.org/abs/1605.07725

Distributional Smoothing with Virtual Adversarial Training. https://arxiv.org/abs/1507.00677

總結(jié)

以上是生活随笔為你收集整理的pytorch 对抗样本_【炼丹技巧】功守道：NLP中的对抗训练 + PyTorch实现的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Hive的使用之hwi
下一篇： xftp如何搜索文件_头条搜索站长平台如