當前位置：首頁 >

论文笔记：Universal Adversarial Triggers for Attacking and Analyzing NLP

發布時間：2023/12/3 40 豆豆

生活随笔收集整理的這篇文章主要介紹了论文笔记：Universal Adversarial Triggers for Attacking and Analyzing NLP 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

論文鏈接：https://arxiv.org/abs/1908.07125

代碼開源：https://github.com/Eric-Wallace/universal-triggers

1. 主要內容

????????將輸入與一段提示拼接，即可引導模型輸出想要的結果，且提示是與輸入無關的，任意輸入拼接上相同的提示，都大概率會產生特定的結果。

????????如上圖所示，對于情感分析任務，拼接trigger（即提示）會導致模型將正確的預測翻轉為否定。對于閱讀理解任務，拼接trigger會導致模型將其預測從正確答案（帶下劃線）更改為trigger內的token。對于生成任務，拼接trigger會導致GPT-2生成帶有種族歧視色彩的輸出。

????????核心在于如何找到上述trigger，使得模型偏向想要預測的方向。論文設計了一種trigger搜索算法，可以分為以下三步：

????????1. 以重復的單詞“the”，子詞“a”，字符“a”初始化trigger；

????????2. 計算trigger中各個token（）關于目標標簽（想要模型預測的標簽）的損失，反向傳播得到每個token的梯度（）；

????????3. 對于trigger中每個token，遍歷詞表中所有token embedding（），找出使得損失函數的一階泰勒近似最小的，隨后將trigger中該位置的token更新為：

? ? ? ? ?trigger迭代更新過程如下圖所示：

以上是生活随笔為你收集整理的论文笔记：Universal Adversarial Triggers for Attacking and Analyzing NLP的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。