mfc static 文本自适应宽度_基于单双词的自适应单调启发式搜索的文本攻击
圖1 BU-MHS算法流程圖
在本文中,我們提出了一種新的基于單詞的攻擊方法——Bigram and Unigram based Monotonic Heuristic Search (BU-MHS),有效地解決了上述問題。與傳統(tǒng)的單字符詞攻擊不同,我們同時(shí)考慮單詞(unigram)替換和雙詞(bigram)替換。在我們的方法中,我們通過用同義詞替換一個(gè)雙詞組(例如,high school ?secondary school)來生成更自然的文本。此外,我們建議通過同時(shí)考慮同義詞和與義位一致的詞來替換輸入詞。通過合并這些互補(bǔ)的備選項(xiàng),我們有更好的選擇來編寫高質(zhì)量的對(duì)抗性文本。更重要的是,我們提出了一種有效的候選詞搜索方法,即Monotonic Heuristic Search (MHS) 來確定詞的優(yōu)先級(jí)。圖1展示了我們算法的流程圖。本工作的主要貢獻(xiàn)總結(jié)如下:
為了產(chǎn)生自然的對(duì)抗性樣本,避免語義錯(cuò)誤,我們提出了在單字符級(jí)和雙字符級(jí)對(duì)文本文檔進(jìn)行攻擊的建議。
我們提出了一種混合的方法,從同義詞候選詞和義素候選詞產(chǎn)生替換。這種互補(bǔ)的組合使我們能夠?qū)懗龈幸饬x的對(duì)抗性例子。
我們?cè)O(shè)計(jì)MHS來有效地對(duì)替換詞進(jìn)行優(yōu)先排序,這將單詞修改的數(shù)量最小化,并減少語義和句法錯(cuò)誤。
數(shù)據(jù)庫本文使用了三個(gè)公開的數(shù)據(jù)集:IMDB、AG’s News、Yahoo! Answers。其中IMDB是一個(gè)二元情感分析數(shù)據(jù)庫,共包含50,000條電影評(píng)論。AG’s News是一個(gè)新聞分類數(shù)據(jù)集,包含127600個(gè)新聞樣本,這些樣本分為四類。Yahoo!Answers是一個(gè)10類的主題分類數(shù)據(jù)庫,包含1,400,000個(gè)訓(xùn)練樣本和60,000個(gè)測(cè)試樣本。
實(shí)驗(yàn)設(shè)置我們將攻擊算法應(yīng)用于四種深度學(xué)習(xí)模型,包括Word CNN, Character-based CNN (Char-CNN), Word LSTM, Bidirectional LSTM (Bi-LSTM).我們選用了6中對(duì)比算法,包括RAND,WSA,PWWS,PSO,TextFooler(TEFO),BERT-ATTACK(BEAT)。為了驗(yàn)證我們的BU-MHS(以及另外兩個(gè)版本U-MHS,HU-MHS)算法的有效性,我們采用兩個(gè)衡量標(biāo)準(zhǔn):攻擊成功率(Successful Attack Rate, SAR)和平均修改單詞個(gè)數(shù)。正常來說,一個(gè)理想的文本攻擊算法目的是通過修改盡量少的單詞來實(shí)現(xiàn)盡可能高的攻擊成功率。
實(shí)驗(yàn)結(jié)果 Table 3和Table 4分別列出了攻擊成功率和平均修改單詞個(gè)數(shù)的實(shí)驗(yàn)結(jié)果。Table 3和Table 4中的結(jié)果說明我們的HU-MHS, BU-MHS, U-MHS幾乎包攬了表現(xiàn)最好的前三名。實(shí)驗(yàn)結(jié)果表明,通過改變最小的詞數(shù),我們的BU-MHS與現(xiàn)有的其他模型相比,獲得了最高的攻擊成功率。為了證明雙詞替換的優(yōu)越性,我們對(duì)IMDB(Table 6)、AG’s News(Table 7)、Yahoo! Answers(Table 8)分別列出了三個(gè)對(duì)抗樣本。從對(duì)抗樣本中可以看出,我們的雙詞替換可以大大減少語義的改變。例如,在Table 7中,我們的方法替換了一個(gè)符號(hào)(Olympic Games ?Olympiad),與HU-MHS變化兩個(gè)單詞相比,前者引起的語義變異較少。
可遷移性(transferability)對(duì)抗性樣本的遷移性是指通過誤導(dǎo)某一個(gè)特定的模型F而產(chǎn)生的對(duì)抗性樣本是否會(huì)誤導(dǎo)其他的模型F’。為了驗(yàn)證遷移能力,我們將攻擊Word CNN生成的對(duì)抗樣本用于其他三個(gè)結(jié)構(gòu)不同的模型,分別命名為Word CNN2, Word CNN3, Word CNN4,以及LSTM模型。圖2展示了遷移攻擊的結(jié)果。從圖2可知,我們的算法取得了最好的遷移攻擊表現(xiàn)。
對(duì)抗性再訓(xùn)練(Adversarial retraining)對(duì)抗性再訓(xùn)練是通過將對(duì)抗性樣本加入到訓(xùn)練集中來提高模型魯棒性的有效方法。在這個(gè)實(shí)驗(yàn)中,我們用AG’s News隨機(jī)生成了{(lán)500,1000,1500,2000}個(gè)對(duì)抗樣本來再訓(xùn)練Word CNN模型。Figure 3給出了訓(xùn)練后Word CNN在測(cè)試集中的識(shí)別結(jié)果。實(shí)驗(yàn)結(jié)果表明,我們BU-MHS生成的對(duì)抗樣本對(duì)于提高模型魯棒性更有效。另外,我們還通過攻擊再訓(xùn)練的模型來評(píng)估再訓(xùn)練的模型是否對(duì)對(duì)抗性攻擊免疫。Table 9的結(jié)果表明,經(jīng)過再訓(xùn)練的受害者模型能夠在一定程度上抵抗攻擊。我們的BU-MHS在再訓(xùn)練后比PWWS帶來更高的SAR,說明僅僅通過對(duì)抗性再訓(xùn)練很難對(duì)BU-MHS進(jìn)行防御。
針對(duì)性攻擊(Targeted attack)針對(duì)性攻擊是指將分類器誤導(dǎo)為某一指定的目標(biāo)類。為了驗(yàn)證針對(duì)性攻擊的表現(xiàn),我們?cè)贏G’s News做了大量實(shí)驗(yàn),將分類器分別誤導(dǎo)為四個(gè)目標(biāo)類:0 (World), 1 (Sports), 2 (Business), 3 (Sci/Tech). 表10的結(jié)果表明,對(duì)于所有的受害模型,我們的BU-MHS都比PWWS獲得了更高的SAR和更少的替換詞。這意味著我們的方法對(duì)于目標(biāo)攻擊和非目標(biāo)攻擊都是有效的。
Table 10:Targetedattack on AG's News dataset by attacking three victim models. The four targetlabels are 0 (World), 1 (Sports), 2 (Business), and 3 (Sci/Tech).
論文引用
Xinghao Yang, Weifeng Liu, James Bailey, Dacheng Tao, Wei Liu. “Bigram and Unigram Based Text Attack via Adaptive MonotonicHeuristic Search.” Accepted by the 35th AAAI Conference on ArtificialIntelligence, 2021.
總結(jié)
以上是生活随笔為你收集整理的mfc static 文本自适应宽度_基于单双词的自适应单调启发式搜索的文本攻击的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python使用scrapy_pytho
- 下一篇: 引号快捷键_高效率的Excel-Ctrl