日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

NLP领域的首次Hard Label黑盒攻击!

發布時間:2024/7/5 编程问答 43 豆豆
生活随笔 收集整理的這篇文章主要介紹了 NLP领域的首次Hard Label黑盒攻击! 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文 | 阿毅
編 | 小軼

背景

前段時間已經和大家分享了兩篇關于NLP Privacy的文章。今天,我們又來給大家推送優質論文了(公眾號學習法)。其實,NLP與其他方向的跨界結合這段時間層出不窮,且都發表到了非常好的頂會上。目前有越來越多的 NLP 研究者開始探索文本對抗攻擊這一方向,以 2020 年 ACL 為例,粗略統計有超過 10 篇相關論文。NLP Privacy可謂是NLP研究的下一個風口。

本次給大家介紹一篇文本對抗攻擊和NLP結合的文章,目前該文章被AAAI’21接收,且代碼已經開源(非常良心[19])!

論文題目:
Generating Natural Language Attacks in a Hard Label Black Box Setting (AAAI’21)

論文鏈接:
https://arxiv.org/pdf/2012.14956.pdf

Arxiv訪問慢的小伙伴也可以在【夕小瑤的賣萌屋】訂閱號后臺回復關鍵詞【0317】下載論文PDF~

論文概要

首先,按照慣例,一句話總結論文:本文在NLP領域中的Hard Label黑盒環境下提出了一種使用遺傳算法優化基于決策的攻擊策略。具體來說,該策略可以針對文本分類和包含任務生成高質量的對抗樣本。本文提出的攻擊策略利用基于種群的優化算法,僅通過觀察目標模型預測的top標簽來設計合理且語義相似的對抗樣本。此外,在每次算法優化迭代中都允許進行單詞替換,從而最大限度地提高原始文本和對抗文本之間的整體語義相似度。相比其他的攻擊策略,本文的方法不依賴使用替代模型或任何種類的訓練數據。我們重點關注上述加粗字體的字眼即可知本文的特色在于使用遺傳算算法優化基于決策的攻擊策略來解決hard label black box中攻擊難以實施的問題。

最后本文全部的貢獻總結如下:

  • 作者提出了一種新穎的基于決策的攻擊策略,并為文本分類任務生成了合理且語義相似的對抗樣本。

  • 作者設計的機制可以在不加標簽的情況下成功生成對抗性樣本而無需掌握任何訓練數據知識或替代模型

  • 作者提出的攻擊利用了基于種群的優化算法,該過程使原始文本和對抗文本之間的整體語義相似性最大化。

  • 與以前的攻擊策略相比,作者的攻擊在較高的限制條件下也能實現更高的成功率和更低的干擾率。

Hard Label Black Box Settings [12]: 該設置一般在視覺領域中被研究[13],具體是指攻擊者在不掌握模型的信息的情況下只能得到被攻擊的機器學習系統提供的有限個輸入查詢相對應的預測結果。簡言之,攻擊者只能得到一些(數目很少)hard label的預測輸出。本文還指出,這是首次在文本領域探究如何在該設置下設計對抗攻擊策略。另外,遺傳算法思想應用到對抗攻擊當中最早要追溯到2018年,近幾年的工作中有不少是關于此類方法的(具體可見[12]中的總結),究其原因是遺傳算法非常適合來優化某個目標函數。本文的核心思想是使用種群優化算法優化文中的目標函數來設計的攻擊策略。

問題定義

簡單來說,本文的目標的是要生成一段和真實語句在語義上很接近的對抗語句,該對抗語句可以導致模型產生錯誤輸出。從優化的角度來開看,我們需要盡可能大的情況下,使得模型產生錯誤的輸出。

詳細的嚴謹定義如下所示:

注意,是不連續的函數,因為模型僅輸出硬標簽。這也使得等式(2)中的目標函數不連續并且難以優化。

攻擊策略

如圖所示,本文設計了一個三步走的攻擊策略:初始化、縮小搜索空間、種群優化。接下來我們詳細介紹每個步驟設計的初衷和具體細節:

初始化

作者為了生成一個與原始輸入在語義上相似的對抗性示例,限制了每個單詞在反向擬合嵌入空間中的前50個同義詞的替換[14]。然后,作者過濾掉詞性標簽與原始單詞不同的同義詞,這樣可以確保同義詞符合上下文的語境并且句子在語法上是正確的,即原文中算法1中的3-7行。

縮小搜索空間

因為作者使用X*替換很多的同義詞,因此整體算法的搜索空間就會變得很大,這會增加優化算法的時間開銷并會因為收斂很慢而導致很難尋到最優值。因此,在此步驟中,作者通過將一些同義詞替換為各自的原始單詞來減少中的替換計數。以下步驟用于減少中的替換計數:

  • 給定初始化樣本,其中表示初始化期間替換的同義詞。每個同義詞被其原始的代替(原文算法1,第8-10行)。

  • 不符合對抗樣本標準的文本將被過濾掉。從剩余的文本樣本中,根據和之間的語義相似性對每個替換項(帶有的)進行評分。所有替換項均基于該評分以降序排序(原文算法1,第11-13行)。

  • 中的同義詞將按照步驟2中確定的順序用其原始對應語句替換回去,直到滿足對抗標準(原文算法1,第14-17行)。

對抗性樣本的搜索空間:虛線表示所有可能的組合。粗線顯示所選的組合,該組合與X的語義相似度最高,并且滿足對抗標準。

這可以看作是將初始樣本移到目標模型的決策邊界附近。此過程非常有效,因為它不僅可以加快優化算法的速度,而且還可以防止其收斂到局部最優。

種群優化算法

作者使用種群優化算法來優化目標函數(2),其中最重要的兩個步驟是:crossover(打籃球的小伙伴肯定異常興奮啦)和mutation。該算法的一般步驟如下:

  • 初始化:使用遺傳算法從任意一組初始候選者開始尋優。

  • 選擇:使用fitness函數評估每個候選人。根據他們的fitness值選擇兩個候選人作為parents。

  • Crossover:選定的parents經過Crossover以產生下一組候選者。

  • Mutation:對新的候選者進行變異以確保多樣性并更好地探索搜索空間。重復步驟2-4進行特定次數的迭代。

之所以使用使用遺傳算法是因為它直接適用于離散的輸入空間。此外,與其他基于整體的優化方法相比,遺傳算法更直觀,更易于應用。本文與其他相似方法[15]不同,作者是將兩個文本序列之間的語義相似性最大化。接下來重點解析選擇、crossover和mutation操作。

Mutation

Mutation操作實際上就是為了挑選出高質量的對抗樣本作為遺傳算法的樣本去進行變異(類似于細胞分裂),**那么問題來了:什么是高質量的對抗樣本呢?**作者在文中給出了兩個公式:

函數表示相似度判斷函數,其作用是為了判斷對抗樣本和真實樣本的語義相似度。在上述式子中就是我們需要挑選進行變異的樣本,是全部對抗樣本,是正常樣本,因此上述因子意味著所挑選的不僅符合對抗樣本的要求且相似度比初始化的對抗樣本要大,因此我們只需要優化以下目標函數即可獲得高質量的對抗樣本:

選擇

選擇操作一開始是隨機初始化的,但是隨著上述Mutation操作的完成,選擇就是一個技巧活了,如何選擇兩個候選者成為parents至關重要。作者把對抗樣本與真實樣本的語義相似度作為fitness函數,然后使用采樣函數來選擇parents。具體來說,,其中是從上述Mutation操作中所挑選的candidate中按一定比例采樣得到的,因此這樣可以得到相似度非常高的兩個對抗樣本作為parents:

Crossover

Crossover操作,顧名思義,就是進行交叉重復操作。具體來說,給定(即parents),然后從中為候選單詞的每個位置隨機選擇一個單詞,以此交叉重復多次,以確保產生足夠多的搜索空間中的各類組合。此操作的目的是將生成多種滿足對抗樣本標準的新候選文本序列。具體公式如下:

總結:該遺傳算法最主要的目的就是在文本是離散的條件下依然可以通過迭代優化選擇出所有對抗樣本中語義相似度最高的那些高質量對抗樣本,因此該算法可以找到與真實樣本極其接近的所有對抗樣本。

結論

接下來,我們對文章進行優缺點總結。

優點:

  • 首次在NLP領域中研究Hard Label 黑盒環境下的對抗攻擊(話題很新,且該領域慢慢在火起來);

  • 實驗非常充分,baselines也很豐富(實驗部分此次不在推文中介紹,感興趣的同學可以自行去查看原文);

  • 使用遺傳算法優化的基于決策的黑盒攻擊恰好克服了文本離散的數據特點,且可以生成語義相似度很高的對抗樣本

  • 缺點:

  • 該對抗攻擊的細粒度不夠,更加探究更加細粒度的對抗攻擊;

  • 該對抗攻擊非常依賴于Hard Label產生的輸出的質量,不然也就無法尋優出高質量的對抗樣本;

  • 遺傳算法的搜索效率仍然是一個挑戰,因此如何高效地進行搜索可能是該類方法的一個瓶頸。

  • 注意:本文部分內容參考了其他網站或者博客的總結,均在此表示感謝,并在引用處[16-18]引用,希望大家樂于分享知識,共同進步!

    萌屋作者:阿毅

    目前在澳洲讀PhD,方向是Security and Privacy in Machine Learning,前騰訊天衍實驗室實習生。一個熱愛籃球但打球很菜的陽光小伙子,也很喜歡爬山。期待和對ML\FL\NLP安全和隱私問題感興趣的小伙伴一起暢談未來(微信號: Sea_AAo)

    作品推薦

  • 我拿模型當朋友,模型卻想泄漏我的隱私?

  • 后臺回復關鍵詞【入群

    加入賣萌屋NLP/IR/Rec與求職討論群

    后臺回復關鍵詞【頂會

    獲取ACL、CIKM等各大頂會論文集!

    ?

    [1].Szegedy C, Zaremba W, Sutskever I, et al. Intriguing properties of neural networks[J]. arXiv preprint arXiv:1312.6199, 2013.

    [2].Akhtar N, Mian A. Threat of adversarial attacks on deep learning in computer vision: A survey[J]. IEEE Access, 2018, 6: 14410-14430.

    [3].Ribeiro M T, Wu T, Guestrin C, et al. Beyond accuracy: Behavioral testing of NLP models with CheckList[J]. arXiv preprint arXiv:2005.04118, 2020.

    [4].Tramèr F, Kurakin A, Papernot N, et al. Ensemble adversarial training: Attacks and defenses[J]. arXiv preprint arXiv:1705.07204, 2017.

    [5].Moosavi-Dezfooli S M, Fawzi A, Frossard P. Deepfool: a simple and accurate method to fool deep neural networks[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 2574-2582.

    [6].Papernot N, McDaniel P, Goodfellow I. Transferability in machine learning: from phenomena to black-box attacks using adversarial samples[J]. arXiv preprint arXiv:1605.07277, 2016.

    [7].Papernot N, McDaniel P, Goodfellow I, et al. Practical black-box attacks against machine learning[C]//Proceedings of the 2017 ACM on Asia conference on computer and communications security. 2017: 506-519.

    [8].Lu J, Issaranon T, Forsyth D. Safetynet: Detecting and rejecting adversarial examples robustly[C]//Proceedings of the IEEE International Conference on Computer Vision. 2017: 446-454.

    [9].Chen S, He Z, Sun C, et al. Universal adversarial attack on attention and the resulting dataset damagenet[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020.

    [10].https://www.secrss.com/articles/25644

    [11].Zhang W E, Sheng Q Z, Alhazmi A, et al. Adversarial attacks on deep-learning models in natural language processing: A survey[J]. ACM Transactions on Intelligent Systems and Technology (TIST), 2020, 11(3): 1-41.

    [12].Cheng M, Le T, Chen P Y, et al. Query-efficient hard-label black-box attack: An optimization-based approach[J]. arXiv preprint arXiv:1807.04457, 2018.

    [13].Brendel W, Rauber J, Bethge M. Decision-based adversarial attacks: Reliable attacks against black-box machine learning models[J]. arXiv preprint arXiv:1712.04248, 2017.

    [14].Mrk?i? N, Séaghdha D O, Thomson B, et al. Counter-fitting word vectors to linguistic constraints[J]. arXiv preprint arXiv:1603.00892, 2016.

    [15].Alzantot M, Sharma Y, Elgohary A, et al. Generating natural language adversarial examples[J]. arXiv preprint arXiv:1804.07998, 2018.

    [16].https://www.secrss.com/articles/25644

    [17].https://www.jiqizhixin.com/articles/2019-06-10-6

    [18].https://www.aminer.cn/research_report/5f50600e3c99ce0ab7bcb539

    [19].https://www.github.com/RishabhMaheshwary/hard-label-attack

    總結

    以上是生活随笔為你收集整理的NLP领域的首次Hard Label黑盒攻击!的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。