當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

硬核！IBM对「神经网络鲁棒性」的理论分析

發(fā)布時(shí)間：2024/1/18 编程问答 45 豆豆

生活随笔收集整理的這篇文章主要介紹了硬核！IBM对「神经网络鲁棒性」的理论分析小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

近期，CVPR 2021 安全AI挑戰(zhàn)者大賽正在進(jìn)行中?（報(bào)名截止3月24日），相關(guān)技術(shù)解析：

1. CVPR 2021大賽，安全AI 之防御模型的「白盒對抗攻擊」解析

2. 還在刷榜ImageNet？找出模型的脆弱之處更有價(jià)值！

報(bào)名鏈接：

https://s.alibaba.com/Challenge

借由此比賽，引起了不少同學(xué)對【神經(jīng)網(wǎng)絡(luò)魯棒性】研究的興趣，本文為該方向最新進(jìn)展解讀，作者來自中國臺灣國立交通大學(xué)和IBM。

論文鏈接：https://arxiv.org/abs/2102.11935

?引言?

神經(jīng)網(wǎng)絡(luò)的魯棒性研究一直是一個(gè)熱門的話題，該論文出自IBM是一篇很硬核關(guān)于神經(jīng)網(wǎng)絡(luò)魯棒性分析的理論性文章，作者在論文中的數(shù)學(xué)證明由淺入深層層遞進(jìn)推。

為了能夠清晰的闡述論文中的貢獻(xiàn)，我花了很大的力氣將文章中沒有展開的證明進(jìn)行了補(bǔ)充，并對文章中的一些推導(dǎo)中一些小錯(cuò)誤進(jìn)行了更正。

論文中最關(guān)鍵的地方就是作者提出了一個(gè)基于理論實(shí)證的正則化損失函數(shù)，如果能把它看懂并為我們所用的話，應(yīng)該是一個(gè)很好的漲點(diǎn)利器。

?預(yù)備知識?

為了能夠更加清晰的介紹論文中的公式推導(dǎo)和核心思想，需要對論文中涉及到的預(yù)備知識和符號加以說明，具體的符號形式如下所示，相關(guān)的介紹會在z 之后證明中加以說明。

假定有一個(gè) 層的神經(jīng)網(wǎng)絡(luò)，其輸入向量為，輸出的類別是為，則有如下公式：

其中，為包含了神經(jīng)網(wǎng)絡(luò)中所有的權(quán)重的集合，即，為非負(fù)單調(diào)激活函數(shù)（ReLU和Sigmoid）。神經(jīng)網(wǎng)絡(luò)輸出的第個(gè)元素被記作，輸出中和兩個(gè)類別的差值表示為。

在無對抗擾動的情況下，神經(jīng)網(wǎng)絡(luò)第層（）的輸出表示為，其中。在有對抗擾動的情況下，神經(jīng)網(wǎng)絡(luò)的第層的輸出為，其中。

2.1單隱層權(quán)重?cái)_動

為了簡化問題，作者考慮了一個(gè)含有激活函數(shù)的四層神經(jīng)網(wǎng)絡(luò)，并試圖探究在對抗擾動下誤差傳播的邊界。對于含激活函數(shù)的四層神經(jīng)網(wǎng)絡(luò)可以由如下公式所表示：

其中，是第層的權(quán)重矩陣。考慮對神經(jīng)網(wǎng)絡(luò)中第二層權(quán)重矩陣中的任何一個(gè)元素加以的擾動和對神經(jīng)網(wǎng)絡(luò)中輸入層中加以的擾動這兩種情況，即，。令向量為第層權(quán)重誤差

（舉例說明如果第三層的權(quán)重被加以擾動，則受影響的第3層之后的權(quán)重，輸入層向量和第二層權(quán)重不會受到影響）

所以可以通過獲得第一層的輸出來獲得誤差向量，具體的公式如下所示：

論文中如上公式的推導(dǎo)限于篇幅的影響省去了很多推導(dǎo)步驟，補(bǔ)充的完整過程如下所示：

對照之前的符號的表格，然后根據(jù)三角不等式即可推出結(jié)果

接下來考慮傳播過程中的每個(gè)后續(xù)誤差向量，由于所考慮的層之后沒有層被擾動，則誤差向量的計(jì)算公式如下所示：

通過層層傳播達(dá)到最后一層并能夠評估擾動引起的預(yù)測誤差。對于任何兩個(gè)類和，的相對誤差的計(jì)算公式如下所示：

對上公式的補(bǔ)充擴(kuò)展如下所示：

該公式的推導(dǎo)主要利用到了公式（6）的結(jié)果

?理論推導(dǎo)?

3.1輸入向量和單隱層向量聯(lián)合擾動聯(lián)合擾動

將在輸入向量和單隱層向量聯(lián)合擾動聯(lián)合擾動下第層的權(quán)重誤差向量記為。計(jì)算公式如下所示：

第二個(gè)誤差向量包括第一個(gè)誤差向量和權(quán)重?cái)_動向量，具體的計(jì)算公式如下所示：

由于之后層沒有添加權(quán)重?cái)_動，則的計(jì)算公式為：

最后一層中的和兩類的差值的計(jì)算公式為：

綜上可以發(fā)現(xiàn)一個(gè)現(xiàn)象，通過誤差傳播，無論擾動類型如何，誤差都隨著權(quán)重矩陣的范數(shù)而增長。作者給出了不同擾動設(shè)置下的邊界定理。

定理一：令為一個(gè) 層的神經(jīng)網(wǎng)絡(luò)，其中，，，則有如下公式：

其中，表示的是行向量的維度，表示輸入向量的維度。

定理二：令為一個(gè) 層的神經(jīng)網(wǎng)絡(luò)，其中，，，。，。表示行向量的維度，則有如下公式：

其中，能被寫成：

有如下形式：

?其中，

以上的定理1和定理2分別給出了第個(gè)類別和第個(gè)類別在聯(lián)合擾動中單層擾動和全層擾動這兩種情況下的預(yù)測標(biāo)簽概率差值的上界。有堅(jiān)實(shí)的理論做依靠使得作者能夠提出基于理論推導(dǎo)得出的具有魯棒性的損失函數(shù)。

3.2非奇異魯棒性損失函數(shù)

根據(jù)以上嚴(yán)格的推導(dǎo)，作者提出了一種新的正則化損失函數(shù)用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)使得其具有一定的魯棒性，該損失函數(shù)公式如下所示：

其中，第一項(xiàng) 為標(biāo)準(zhǔn)的分類損失，而第二項(xiàng)和第三項(xiàng)分別用非負(fù)系數(shù) 和調(diào)整對輸入和權(quán)重空間的擾動敏感度。它們受到定理2的啟發(fā)，可以解釋為由聯(lián)合輸入權(quán)重?cái)_動引起的最大誤差。

?實(shí)驗(yàn)結(jié)果?

如下圖所示展示了每個(gè)模型的魯棒性能。標(biāo)準(zhǔn)模型（a）易受權(quán)重和輸入擾動的影響。奇異魯棒模型（b）和（c）只對可見的擾動類型魯棒，而它們對不可見的擾動類型甚至具有更差的魯棒性。比較測試準(zhǔn)確性的曲線下面積（AUC）分?jǐn)?shù)可以發(fā)現(xiàn)，使用本文提出的損失的非奇異穩(wěn)健模型（d-f）明顯優(yōu)于標(biāo)準(zhǔn)和奇異穩(wěn)健模型（a-c）。

END

備注：對抗

對抗學(xué)習(xí)交流群

掃碼備注拉你入群。

我愛計(jì)算機(jī)視覺

微信號:aicvml

QQ群:805388940

微博知乎:@我愛計(jì)算機(jī)視覺

投稿:amos@52cv.net

網(wǎng)站:www.52cv.net

?點(diǎn)此報(bào)名AI大賽，贏10萬美金大獎(jiǎng)！

總結(jié)

以上是生活随笔為你收集整理的硬核！IBM对「神经网络鲁棒性」的理论分析的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。