麻省理工Hadi Salman新作:ViT架构可以有效抵御图像补丁攻击
?PaperWeekly 原創(chuàng) ·?作者 | 張一帆
學(xué)校 | 中科院自動(dòng)化所博士生
研究方向 | 計(jì)算機(jī)視覺(jué)
本文是 MIT 大牛 Hadi Salman 于 10 月 11 放在 arXiv 的文章。
論文標(biāo)題:
Certified Patch Robustness via Smoothed Vision Transformers
論文鏈接:
https://arxiv.org/pdf/2110.07719.pdf
代碼鏈接:
https://github.com/MadryLab/smoothed-vit
首先介紹一下本文的背景知識(shí)。
Preliminaries
1.1 Patch Robustness
Patch Robustness 是目前被廣泛研究的一種魯棒性范式,即使用一小塊圖像 patch 對(duì)圖像進(jìn)行攻擊,研究人員使用對(duì)抗補(bǔ)丁欺騙圖像分類器,操縱物體探測(cè)器以及還可以中斷光流估計(jì)。
1.2 Derandomized smoothing
目前最流行的方法即 Derandomized smoothing,這種方法維護(hù)一堆被寬度為? 的 patch 攻擊的 ablations ,對(duì)于一個(gè) 的圖像 ,為了更好的說(shuō)明這個(gè)問(wèn)題,這里使用列補(bǔ)丁為例,對(duì)一個(gè)寬度為 的列補(bǔ)丁,它可以從圖像的任意位置開(kāi)始,因此 。
Derandomized smoothing 的方法維護(hù)一個(gè) smoothed classifier , 由兩部分組成,一個(gè)傳統(tǒng)的基本分類器 和一個(gè) ablations 集合 ,它通過(guò)如下模式進(jìn)行分類:
這里的 表示將 中被分類為 的樣本總數(shù)。
被平滑分類器分類成功的準(zhǔn)確率被稱為標(biāo)準(zhǔn)準(zhǔn)確度。
這里又引入一個(gè)概念?certifiably ?robust:如果正確分類的數(shù)目超過(guò)第二個(gè)類非常多,那么這個(gè)分類器顯然更難被外界的 patch 所干擾,此時(shí)稱之為 certifiably ?robust。準(zhǔn)確來(lái)說(shuō),令 表示 ablation set 中一個(gè)對(duì)抗補(bǔ)丁最多可以同時(shí)相交的對(duì)抗補(bǔ)丁的數(shù)目,對(duì)于寬度為 的列補(bǔ)丁來(lái)說(shuō), 的 patch 最多可以和 ,此時(shí)一個(gè)分類器被稱為 certifiably ?robust 當(dāng)且僅當(dāng):
如果達(dá)到了這個(gè)閾值,那么最頻繁的類將被保證不會(huì)改變,即使對(duì)抗補(bǔ)丁破壞了它所相交的每一個(gè) ablation。平滑分類器依然做出的既正確又可靠的預(yù)測(cè)。
雖然 certifiably ?robust 像許多其他認(rèn)證防御一樣可以提供對(duì)抗攻擊的保證,但它們面臨幾個(gè)限制其實(shí)用性的主要挑戰(zhàn):
1. 只對(duì)相對(duì)較小的對(duì)抗補(bǔ)丁適用。
2. 存在 tradeoff,魯棒性的增強(qiáng)以準(zhǔn)確性的降低為代價(jià)。一個(gè)標(biāo)準(zhǔn)的 ResNet-50 在 ImageNet 基準(zhǔn)上可以達(dá)到 76% 的準(zhǔn)確率,并且在一個(gè)典型的 GPU 上花費(fèi)不到 1 秒的時(shí)間進(jìn)行預(yù)測(cè)。相反,表現(xiàn)最好的認(rèn)證防御模型,如標(biāo)準(zhǔn)準(zhǔn)確率為 44%,在類似的硬件上進(jìn)行預(yù)測(cè)需要 150 秒。
3. 推理時(shí)間往往比標(biāo)準(zhǔn)的、非健壯的模型大幾個(gè)數(shù)量級(jí),這使得經(jīng)過(guò)認(rèn)證的防御很難在實(shí)時(shí)設(shè)置中部署。
1.3 Vision transformers
ViT 區(qū)別于傳統(tǒng) CNN 網(wǎng)絡(luò)主要在 2 個(gè)方面:
1. Tokenization:ViT 使用 patch 的方式對(duì)圖像特征進(jìn)行組織,將整個(gè)圖像分成 個(gè) patch,每個(gè) patch 被轉(zhuǎn)化為 embedding + 一個(gè)位置編碼。
2. Self-Attention:大名鼎鼎的 multi-headed self-attention layers。
1.4 Smoothed vision transformers
ViT 之所以適合本任務(wù)主要有兩個(gè)原因:
1. ViT 將圖像作為 token 集合處理。因此,ViT 具有簡(jiǎn)單地從輸入中刪除不必要的 token 并忽略圖像的更大區(qū)域的自然能力,這可以大大加快 ablations 的處理速度。
2. CNN 要得到全局的感受野需要一層層的傳播到后面的層才能拿到全局信息,但是 self-attention 在每一層都共享全局信息。因此 ViT 更有希望去處理小的,沒(méi)有被 mask 的區(qū)域。
本文首先顯示了 ViT 可以大幅度提升魯棒性,同時(shí)分類準(zhǔn)確度不會(huì)減少。然后本文對(duì) ViT 的結(jié)構(gòu)進(jìn)行了一定的改進(jìn),大幅度提高了 smoothing procedure 的預(yù)測(cè)速度。改進(jìn)也很 intuitive,就是將 ablation 中完全 mask 的 token 全部刪掉,留下的 token 就不會(huì)很多,預(yù)測(cè)速度大幅提升。
Faster inference with ViTs
Derandomized smoothing 往往是非常昂貴的操作,特別是對(duì)于比較大的圖像。一個(gè) 的圖像,有 個(gè)列 ablation,因此比起傳統(tǒng)模型,前向傳遞所用時(shí)間是傳統(tǒng)模型的? 倍。為了解決這個(gè)問(wèn)題,本文首先修改 ViT 架構(gòu),以避免在 mask 像素上進(jìn)行不必要的計(jì)算。然后演示了通過(guò)大步減少 ablation 的數(shù)量可以提供進(jìn)一步的加速。這兩個(gè)互補(bǔ)的修改極大地提高了平滑分類器的推斷時(shí)間,使它們?cè)谒俣壬吓c標(biāo)準(zhǔn)(非魯棒的)卷積架構(gòu)相當(dāng)。
2.1 Dropping masked tokens
這一部分主要分為三步:
1. 將整個(gè)圖像編碼為一組 token 和相應(yīng)的位置編碼。
2. 丟棄完全被 mask 的 token。
3. 將剩余的 token 作為輸入。
因?yàn)槲恢镁幋a保留了剩余 token 的空間信息,丟棄完全被 mask 的 token 后在 ablation 上的分類準(zhǔn)確度不會(huì)受到影響。
2.2 Strided ablations
另一個(gè)問(wèn)題就是平滑分類器大量的 ablations,這對(duì)實(shí)時(shí)性的設(shè)備而言也不可取。本文提出了 Strided ablations, 相比于之前工作在每個(gè)位置都取一個(gè) ablation,本文給一個(gè)步長(zhǎng) ,每隔 采樣出一個(gè) ablation,實(shí)驗(yàn)證明這種方式不會(huì)嚴(yán)重?fù)p害標(biāo)準(zhǔn)準(zhǔn)確率和驗(yàn)證準(zhǔn)確率。
一張表總結(jié)本文的主要結(jié)果,在 imagenet 上, pixel 表示有這么多的像素作為對(duì)抗補(bǔ)丁。可以看到 ViT 本身作為 pipeline 就已經(jīng)比 resnet50 好很多了。加上本文的改進(jìn)之后,在最大的模型 ViT-B 上以步長(zhǎng) 的實(shí)驗(yàn)設(shè)置下,預(yù)測(cè)時(shí)間減小了兩個(gè)數(shù)量級(jí),魯棒性還有所提升。
特別鳴謝
感謝 TCCI 天橋腦科學(xué)研究院對(duì)于 PaperWeekly 的支持。TCCI 關(guān)注大腦探知、大腦功能和大腦健康。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。
總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)術(shù)熱點(diǎn)剖析、科研心得或競(jìng)賽經(jīng)驗(yàn)講解等。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來(lái)。
📝?稿件基本要求:
? 文章確系個(gè)人原創(chuàng)作品,未曾在公開(kāi)渠道發(fā)表,如為其他平臺(tái)已發(fā)表或待發(fā)表的文章,請(qǐng)明確標(biāo)注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發(fā)送,要求圖片清晰,無(wú)版權(quán)問(wèn)題
? PaperWeekly 尊重原作者署名權(quán),并將為每篇被采納的原創(chuàng)首發(fā)稿件,提供業(yè)內(nèi)具有競(jìng)爭(zhēng)力稿酬,具體依據(jù)文章閱讀量和文章質(zhì)量階梯制結(jié)算
📬?投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來(lái)稿請(qǐng)備注即時(shí)聯(lián)系方式(微信),以便我們?cè)诟寮x用的第一時(shí)間聯(lián)系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長(zhǎng)按添加PaperWeekly小編
🔍
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁(yè)搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
·
與50位技術(shù)專家面對(duì)面20年技術(shù)見(jiàn)證,附贈(zèng)技術(shù)全景圖總結(jié)
以上是生活随笔為你收集整理的麻省理工Hadi Salman新作:ViT架构可以有效抵御图像补丁攻击的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 联想超级本yoga211怎么U盘启动 联
- 下一篇: 老惠普笔记本怎么进u盘启动不了怎么办 老