硬核!IBM对「神经网络鲁棒性」的理论分析
近期,CVPR 2021 安全AI挑戰(zhàn)者大賽正在進(jìn)行中?(報(bào)名截止3月24日),相關(guān)技術(shù)解析:
1. CVPR 2021大賽, 安全AI 之防御模型的「白盒對抗攻擊」解析
2. 還在刷榜ImageNet?找出模型的脆弱之處更有價(jià)值!
報(bào)名鏈接:
https://s.alibaba.com/Challenge
借由此比賽,引起了不少同學(xué)對【神經(jīng)網(wǎng)絡(luò)魯棒性】研究的興趣,本文為該方向最新進(jìn)展解讀,作者來自中國臺灣國立交通大學(xué)和IBM。
論文鏈接:https://arxiv.org/abs/2102.11935
1
?引言?
神經(jīng)網(wǎng)絡(luò)的魯棒性研究一直是一個(gè)熱門的話題,該論文出自IBM是一篇很硬核關(guān)于神經(jīng)網(wǎng)絡(luò)魯棒性分析的理論性文章,作者在論文中的數(shù)學(xué)證明由淺入深層層遞進(jìn)推。
為了能夠清晰的闡述論文中的貢獻(xiàn),我花了很大的力氣將文章中沒有展開的證明進(jìn)行了補(bǔ)充,并對文章中的一些推導(dǎo)中一些小錯(cuò)誤進(jìn)行了更正。
論文中最關(guān)鍵的地方就是作者提出了一個(gè)基于理論實(shí)證的正則化損失函數(shù),如果能把它看懂并為我們所用的話,應(yīng)該是一個(gè)很好的漲點(diǎn)利器。
2
?預(yù)備知識?
為了能夠更加清晰的介紹論文中的公式推導(dǎo)和核心思想,需要對論文中涉及到的預(yù)備知識和符號加以說明,具體的符號形式如下所示,相關(guān)的介紹會在z 之后證明中加以說明。
假定有一個(gè) 層的神經(jīng)網(wǎng)絡(luò),其輸入向量為 ,輸出的類別是為 ,則有如下公式:
其中, 為包含了神經(jīng)網(wǎng)絡(luò)中所有的權(quán)重的集合,即 , 為非負(fù)單調(diào)激活函數(shù)(ReLU和Sigmoid)。神經(jīng)網(wǎng)絡(luò)輸出的第 個(gè)元素被記作 ,輸出中 和 兩個(gè)類別的差值表示為。
在無對抗擾動的情況下,神經(jīng)網(wǎng)絡(luò)第 層( )的輸出表示為 ,其中 。在有對抗擾動的情況下,神經(jīng)網(wǎng)絡(luò)的第 層的輸出為 ,其中 。
2.1單隱層權(quán)重?cái)_動
為了簡化問題,作者考慮了一個(gè)含有激活函數(shù)的四層神經(jīng)網(wǎng)絡(luò),并試圖探究在對抗擾動下誤差傳播的邊界。對于含激活函數(shù)的四層神經(jīng)網(wǎng)絡(luò)可以由如下公式所表示:
其中, 是第 層的權(quán)重矩陣。考慮對神經(jīng)網(wǎng)絡(luò)中第二層權(quán)重矩陣 中的任何一個(gè)元素加以 的擾動和對神經(jīng)網(wǎng)絡(luò)中輸入層中 加以 的擾動這兩種情況,即 , 。令向量 為第 層權(quán)重誤差
(舉例說明如果第三層的權(quán)重被加以擾動,則受影響的第3層之后的權(quán)重,輸入層向量和第二層權(quán)重不會受到影響)
所以可以通過獲得第一層的輸出 來獲得誤差向量 ,具體的公式如下所示:
論文中如上公式的推導(dǎo)限于篇幅的影響省去了很多推導(dǎo)步驟,補(bǔ)充的完整過程如下所示:
對照之前的符號的表格,然后根據(jù)三角不等式即可推出結(jié)果
接下來考慮傳播過程中的每個(gè)后續(xù)誤差向量,由于所考慮的層之后沒有層被擾動,則誤差向量 的計(jì)算公式如下所示:
通過層層傳播達(dá)到最后一層并能夠評估擾動引起的預(yù)測誤差。對于任何兩個(gè)類 和 , 的相對誤差的計(jì)算公式如下所示:
對上公式的補(bǔ)充擴(kuò)展如下所示:
該公式的推導(dǎo)主要利用到了公式(6)的結(jié)果3
?理論推導(dǎo)?
3.1輸入向量和單隱層向量聯(lián)合擾動聯(lián)合擾動
將在輸入向量和單隱層向量聯(lián)合擾動聯(lián)合擾動下第 層的權(quán)重誤差向量記為 。 計(jì)算公式如下所示:
第二個(gè)誤差 向量包括第一個(gè)誤差向量 和權(quán)重?cái)_動向量 ,具體的計(jì)算公式如下所示:
由于之后層沒有添加權(quán)重?cái)_動,則 的計(jì)算公式為:
最后一層中的 和 兩類的差值的計(jì)算公式為:
綜上可以發(fā)現(xiàn)一個(gè)現(xiàn)象,通過誤差傳播,無論擾動類型如何,誤差都隨著權(quán)重矩陣的范數(shù)而增長。作者給出了不同擾動設(shè)置下的邊界定理。
定理一:令 為一個(gè) 層的神經(jīng)網(wǎng)絡(luò),其中, , ,則有如下公式:
其中, 表示的是 行向量的維度, 表示輸入向量 的維度。
定理二:令 為一個(gè) 層的神經(jīng)網(wǎng)絡(luò),其中, , , 。 , 。 表示 行向量的維度,則有如下公式:
其中, 能被寫成:
有如下形式:
?其中,
以上的定理1和定理2分別給出了第 個(gè)類別和第 個(gè)類別在聯(lián)合擾動中單層擾動和全層擾動這兩種情況下的預(yù)測標(biāo)簽概率差值的上界。有堅(jiān)實(shí)的理論做依靠使得作者能夠提出基于理論推導(dǎo)得出的具有魯棒性的損失函數(shù)。
3.2非奇異魯棒性損失函數(shù)
根據(jù)以上嚴(yán)格的推導(dǎo),作者提出了一種新的正則化損失函數(shù)用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)使得其具有一定的魯棒性,該損失函數(shù)公式如下所示:
其中,第一項(xiàng) 為標(biāo)準(zhǔn)的分類損失,而第二項(xiàng)和第三項(xiàng)分別用非負(fù)系數(shù) 和 調(diào)整對輸入和權(quán)重空間的擾動敏感度。它們受到定理2的啟發(fā),可以解釋為由聯(lián)合輸入權(quán)重?cái)_動引起的最大誤差。
4
?實(shí)驗(yàn)結(jié)果?
如下圖所示展示了每個(gè)模型的魯棒性能。標(biāo)準(zhǔn)模型(a)易受權(quán)重和輸入擾動的影響。奇異魯棒模型(b)和(c)只對可見的擾動類型魯棒,而它們對不可見的擾動類型甚至具有更差的魯棒性。比較測試準(zhǔn)確性的曲線下面積(AUC)分?jǐn)?shù)可以發(fā)現(xiàn),使用本文提出的損失的非奇異穩(wěn)健模型(d-f)明顯優(yōu)于標(biāo)準(zhǔn)和奇異穩(wěn)健模型(a-c)。
END
備注:對抗
對抗學(xué)習(xí)交流群
掃碼備注拉你入群。
我愛計(jì)算機(jī)視覺
微信號:aicvml
QQ群:805388940
微博知乎:@我愛計(jì)算機(jī)視覺
投稿:amos@52cv.net
網(wǎng)站:www.52cv.net
?點(diǎn)此報(bào)名AI大賽,贏10萬美金大獎(jiǎng)!
總結(jié)
以上是生活随笔為你收集整理的硬核!IBM对「神经网络鲁棒性」的理论分析的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Net 6 控制台配置文件读取
- 下一篇: 【+定时任务】