日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 人工智能 > ChatGpt >内容正文

ChatGpt

研究人员发现:基于文本的AI模型容易受到改述攻击

發(fā)布時(shí)間:2023/12/19 ChatGpt 34 豆豆
生活随笔 收集整理的這篇文章主要介紹了 研究人员发现:基于文本的AI模型容易受到改述攻击 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

由于自然語(yǔ)言處理(NLP)的進(jìn)步,越來越多的公司和組織開始利用AI算法來執(zhí)行與文本相關(guān)的任務(wù),例如:過濾垃圾郵件、分析社交媒體帖子和評(píng)論、評(píng)估簡(jiǎn)歷以及檢測(cè)假新聞。

但是,真的可以相信這些算法能夠可靠地執(zhí)行任務(wù)嗎?IBM,亞馬遜和德克薩斯大學(xué)的新研究證明:使用一些工具,可以攻擊文本分類算法并以潛在的惡意方式對(duì)模型進(jìn)行操縱。

在斯坦福大學(xué)舉行的SysML AI大會(huì)上,研究人員展示了這項(xiàng)有關(guān)“改述”攻擊的研究。其具體做法是修改輸入文本,以便在不改變其實(shí)際意義的情況下通過AI算法對(duì)其進(jìn)行不同的分類。

可以這樣簡(jiǎn)單解釋“改述攻擊”是如何工作的:以使用AI算法來評(píng)估電子郵件的文本并將其歸類為“垃圾郵件”或“非垃圾郵件”為例,改述攻擊會(huì)修改垃圾郵件的內(nèi)容,使得AI將其分類為“非垃圾郵件”。

針對(duì)文本模型的對(duì)抗性攻擊的挑戰(zhàn)

在過去幾年中,一些研究小組已經(jīng)探討了對(duì)抗性攻擊的各種方法。修改輸入將會(huì)導(dǎo)致AI算法對(duì)圖像和音頻樣本進(jìn)行錯(cuò)誤分類,如通過對(duì)標(biāo)題或描述的修改,讓一些少兒不宜的內(nèi)容被分類到少兒頻道中,對(duì)未成年人造成危害。但是,攻擊文本模型比篡改計(jì)算機(jī)視覺和音頻識(shí)別算法要困難得多。

“對(duì)于音頻和圖像,人類完全可以自行區(qū)分。” 人工智能研究員兼語(yǔ)言模型專家Stephen Merity說。例如,在圖像分類算法中,人類可以逐步改變像素的顏色,并觀察這些修改如何影響模型的輸出。這可以幫助研究人員發(fā)現(xiàn)模型中的漏洞。

“可是文本攻擊更加困難,因?yàn)樗请x散的。在一個(gè)句子中,你不能說我想要多加10%的‘dog’這個(gè)詞。大部分情況是:一句話中有‘dog’這個(gè)詞,模型可以把有這個(gè)詞的句子進(jìn)行某一種歸類。而且我們還不能有效地搜索模型中的漏洞。”Merity說:“我們的想法是,能不能智能地找出機(jī)器的弱點(diǎn),然后把它推到特定的位置?”

“對(duì)于圖像和音頻,做對(duì)抗性干擾是有意義的。但對(duì)于文本來說,即使你對(duì)文字做了一些小改動(dòng),比如只改動(dòng)一兩句話,都可能導(dǎo)致這段話無法順利讀出來。”IBM的研究員兼研究論文的共同作者Pin-Yu Chen說。

過去關(guān)于對(duì)文本模型的對(duì)抗性攻擊的工作只涉及改變句子中的單個(gè)單詞。雖然這種方法成功地改變了AI算法的輸出,但它經(jīng)常導(dǎo)致修改后的句子聽起來是人為的。Chen和他的同事們不僅關(guān)注詞語(yǔ)的改變,而且還關(guān)注改寫句子和以有意義的方式改變更長(zhǎng)的序列。

“我們正在嘗試解釋單詞和句子,通過創(chuàng)建在語(yǔ)義上與目標(biāo)句子類似的序列來為攻擊提供更大的空間。然后我們要看看模型是否將它們歸類為原始句子。”Chen說。

研究人員開發(fā)了一種算法,可以在句子中找到可以操縱NLP模型行為的最佳變化。“主要的困難是:要確保文本的修改版本在語(yǔ)義上與原始版本相似。我們開發(fā)了一種算法,可以在非常大的空間中搜索單詞和句子,這些修改將對(duì)AI模型的輸出產(chǎn)生最大的影響。在該空間中找到最佳對(duì)抗性示例非常耗時(shí)。該算法計(jì)算效率高,并且提供了理論上的保證,它是人們可以找到的最佳搜索。”IBM研究院科學(xué)家,該論文的另一位合著者Lingfei Wu說。

在他們的論文中,研究人員提供了改變情感分析算法、假新聞檢測(cè)器和垃圾郵件過濾器行為的修改示例。例如,在產(chǎn)品評(píng)論中,將“The pricing is also cheaper than some of the big name conglomerates out there(這定價(jià)比現(xiàn)在的一些知名企業(yè)定的也還要低些)”改為“The price is cheaper than some of the big names below(這價(jià)格比下面的一些巨頭便宜)”,句子所表達(dá)的情緒就會(huì)從100%正面變?yōu)?00%負(fù)面。

人類無法感知的改述攻擊

改述攻擊成功的關(guān)鍵在于它們是人類難以察覺的,因?yàn)樗鼈儽A袅嗽嘉谋镜恼Z(yǔ)境和意義。

“我們將原始段落和修改后的段落給了人類評(píng)估員,他們很難看到意義上的差異。但對(duì)于機(jī)器而言,它完全不同。“Wu說。

Merity指出:改述攻擊不需要與人類完全一致,特別是當(dāng)他們沒有預(yù)料到機(jī)器人會(huì)篡改文本時(shí)。他進(jìn)一步解釋道:“我們每天都會(huì)遇到錯(cuò)誤的輸入,對(duì)我們來說,這些只是來自真人回復(fù)的不連貫的句子而已,以至于當(dāng)人們看到拼寫錯(cuò)誤時(shí),并不會(huì)認(rèn)為這是一個(gè)安全問題。但在不久的將來,它可能是我們必須應(yīng)對(duì)的問題。”

Merity還指出,改述和對(duì)抗性攻擊將引發(fā)安全風(fēng)險(xiǎn)的新趨勢(shì):“許多科技公司依靠自動(dòng)化決策對(duì)內(nèi)容進(jìn)行分類,實(shí)際上并沒有涉及人與人之間的互動(dòng)。這使得該過程容易受到此類攻擊。”Merity說:“改述攻擊或許會(huì)與數(shù)據(jù)泄露同時(shí)發(fā)生,除非我們將發(fā)現(xiàn)邏輯漏洞。”

例如,一個(gè)人可能會(huì)欺騙仇恨言語(yǔ)分類器來批準(zhǔn)他們的非法言論,或利用簡(jiǎn)歷處理模型中的釋義漏洞將他們的工作申請(qǐng)推送到列表的頂部。

Merity警告說:“這些類型的問題將成為這個(gè)時(shí)代新的威脅,我擔(dān)心這類攻擊恐怕不會(huì)引起企業(yè)重視,因?yàn)樗麄兇蠖紝W⒂谧詣?dòng)化和可擴(kuò)展性。”

改述攻擊并非都是壞事

研究人員還發(fā)現(xiàn),通過逆轉(zhuǎn)改述攻擊可以構(gòu)建更健壯、更準(zhǔn)確的模型。

在生成模型錯(cuò)誤分類的改述句子之后,開發(fā)人員可以使用修改后的句子及其正確的標(biāo)簽來重新訓(xùn)練他們的模型,這將使模型更具彈性,從而可以抵御改述攻擊。

Wu表示:“這是我們?cè)谶@個(gè)項(xiàng)目中的驚人發(fā)現(xiàn)之一。最初,我們僅僅是從從穩(wěn)健的角度出發(fā)。但后來,我們發(fā)現(xiàn)這種方法不僅可以提高穩(wěn)健性,還可以提高泛化能力。如果不用來攻擊的話,改述其實(shí)是一種非常好的泛化工具,可以提高模型的能力。”

論文鏈接:

https://arxiv.org/abs/1812.00151

參考鏈接:

https://venturebeat.com/2019/04/01/text-based-ai-models-are-vulnerable-to-paraphrasing-attacks-researchers-find/

總結(jié)

以上是生活随笔為你收集整理的研究人员发现:基于文本的AI模型容易受到改述攻击的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。