日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文笔记:Universal Adversarial Triggers for Attacking and Analyzing NLP

發布時間:2023/12/3 编程问答 34 豆豆
生活随笔 收集整理的這篇文章主要介紹了 论文笔记:Universal Adversarial Triggers for Attacking and Analyzing NLP 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

論文鏈接:https://arxiv.org/abs/1908.07125

代碼開源:https://github.com/Eric-Wallace/universal-triggers

1. 主要內容

????????將輸入與一段提示拼接,即可引導模型輸出想要的結果,且提示是與輸入無關的,任意輸入拼接上相同的提示,都大概率會產生特定的結果。

????????如上圖所示,對于情感分析任務,拼接trigger(即提示)會導致模型將正確的預測翻轉為否定。對于閱讀理解任務,拼接trigger會導致模型將其預測從正確答案(帶下劃線)更改為trigger內的token。對于生成任務,拼接trigger會導致GPT-2生成帶有種族歧視色彩的輸出。

2. 核心算法

????????核心在于如何找到上述trigger,使得模型偏向想要預測的方向。論文設計了一種trigger搜索算法,可以分為以下三步:

????????1. 以重復的單詞“the”,子詞“a”,字符“a”初始化trigger;

????????2. 計算trigger中各個token()關于目標標簽(想要模型預測的標簽)的損失,反向傳播得到每個token的梯度();

????????3. 對于trigger中每個token,遍歷詞表中所有token embedding(),找出使得損失函數的一階泰勒近似最小的,隨后將trigger中該位置的token更新為:

? ? ? ? ?trigger迭代更新過程如下圖所示:

總結

以上是生活随笔為你收集整理的论文笔记:Universal Adversarial Triggers for Attacking and Analyzing NLP的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。