硬核!IBM对「神经网络鲁棒性」的理论分析
近期,CVPR 2021 安全AI挑戰(zhàn)者大賽正在進行中?(報名截止3月24日),相關(guān)技術(shù)解析:
1. CVPR 2021大賽, 安全AI 之防御模型的「白盒對抗攻擊」解析
2. 還在刷榜ImageNet?找出模型的脆弱之處更有價值!
報名鏈接:
https://s.alibaba.com/Challenge
借由此比賽,引起了不少同學對【神經(jīng)網(wǎng)絡(luò)魯棒性】研究的興趣,本文為該方向最新進展解讀,作者來自中國臺灣國立交通大學和IBM。
論文鏈接:https://arxiv.org/abs/2102.11935
1
?引言?
神經(jīng)網(wǎng)絡(luò)的魯棒性研究一直是一個熱門的話題,該論文出自IBM是一篇很硬核關(guān)于神經(jīng)網(wǎng)絡(luò)魯棒性分析的理論性文章,作者在論文中的數(shù)學證明由淺入深層層遞進推。
為了能夠清晰的闡述論文中的貢獻,我花了很大的力氣將文章中沒有展開的證明進行了補充,并對文章中的一些推導中一些小錯誤進行了更正。
論文中最關(guān)鍵的地方就是作者提出了一個基于理論實證的正則化損失函數(shù),如果能把它看懂并為我們所用的話,應(yīng)該是一個很好的漲點利器。
2
?預(yù)備知識?
為了能夠更加清晰的介紹論文中的公式推導和核心思想,需要對論文中涉及到的預(yù)備知識和符號加以說明,具體的符號形式如下所示,相關(guān)的介紹會在z 之后證明中加以說明。
假定有一個 層的神經(jīng)網(wǎng)絡(luò),其輸入向量為 ,輸出的類別是為 ,則有如下公式:
其中, 為包含了神經(jīng)網(wǎng)絡(luò)中所有的權(quán)重的集合,即 , 為非負單調(diào)激活函數(shù)(ReLU和Sigmoid)。神經(jīng)網(wǎng)絡(luò)輸出的第 個元素被記作 ,輸出中 和 兩個類別的差值表示為。
在無對抗擾動的情況下,神經(jīng)網(wǎng)絡(luò)第 層( )的輸出表示為 ,其中 。在有對抗擾動的情況下,神經(jīng)網(wǎng)絡(luò)的第 層的輸出為 ,其中 。
2.1單隱層權(quán)重擾動
為了簡化問題,作者考慮了一個含有激活函數(shù)的四層神經(jīng)網(wǎng)絡(luò),并試圖探究在對抗擾動下誤差傳播的邊界。對于含激活函數(shù)的四層神經(jīng)網(wǎng)絡(luò)可以由如下公式所表示:
其中, 是第 層的權(quán)重矩陣。考慮對神經(jīng)網(wǎng)絡(luò)中第二層權(quán)重矩陣 中的任何一個元素加以 的擾動和對神經(jīng)網(wǎng)絡(luò)中輸入層中 加以 的擾動這兩種情況,即 , 。令向量 為第 層權(quán)重誤差
(舉例說明如果第三層的權(quán)重被加以擾動,則受影響的第3層之后的權(quán)重,輸入層向量和第二層權(quán)重不會受到影響)
所以可以通過獲得第一層的輸出 來獲得誤差向量 ,具體的公式如下所示:
論文中如上公式的推導限于篇幅的影響省去了很多推導步驟,補充的完整過程如下所示:
對照之前的符號的表格,然后根據(jù)三角不等式即可推出結(jié)果
接下來考慮傳播過程中的每個后續(xù)誤差向量,由于所考慮的層之后沒有層被擾動,則誤差向量 的計算公式如下所示:
通過層層傳播達到最后一層并能夠評估擾動引起的預(yù)測誤差。對于任何兩個類 和 , 的相對誤差的計算公式如下所示:
對上公式的補充擴展如下所示:
該公式的推導主要利用到了公式(6)的結(jié)果3
?理論推導?
3.1輸入向量和單隱層向量聯(lián)合擾動聯(lián)合擾動
將在輸入向量和單隱層向量聯(lián)合擾動聯(lián)合擾動下第 層的權(quán)重誤差向量記為 。 計算公式如下所示:
第二個誤差 向量包括第一個誤差向量 和權(quán)重擾動向量 ,具體的計算公式如下所示:
由于之后層沒有添加權(quán)重擾動,則 的計算公式為:
最后一層中的 和 兩類的差值的計算公式為:
綜上可以發(fā)現(xiàn)一個現(xiàn)象,通過誤差傳播,無論擾動類型如何,誤差都隨著權(quán)重矩陣的范數(shù)而增長。作者給出了不同擾動設(shè)置下的邊界定理。
定理一:令 為一個 層的神經(jīng)網(wǎng)絡(luò),其中, , ,則有如下公式:
其中, 表示的是 行向量的維度, 表示輸入向量 的維度。
定理二:令 為一個 層的神經(jīng)網(wǎng)絡(luò),其中, , , 。 , 。 表示 行向量的維度,則有如下公式:
其中, 能被寫成:
有如下形式:
?其中,
以上的定理1和定理2分別給出了第 個類別和第 個類別在聯(lián)合擾動中單層擾動和全層擾動這兩種情況下的預(yù)測標簽概率差值的上界。有堅實的理論做依靠使得作者能夠提出基于理論推導得出的具有魯棒性的損失函數(shù)。
3.2非奇異魯棒性損失函數(shù)
根據(jù)以上嚴格的推導,作者提出了一種新的正則化損失函數(shù)用于訓練神經(jīng)網(wǎng)絡(luò)使得其具有一定的魯棒性,該損失函數(shù)公式如下所示:
其中,第一項 為標準的分類損失,而第二項和第三項分別用非負系數(shù) 和 調(diào)整對輸入和權(quán)重空間的擾動敏感度。它們受到定理2的啟發(fā),可以解釋為由聯(lián)合輸入權(quán)重擾動引起的最大誤差。
4
?實驗結(jié)果?
如下圖所示展示了每個模型的魯棒性能。標準模型(a)易受權(quán)重和輸入擾動的影響。奇異魯棒模型(b)和(c)只對可見的擾動類型魯棒,而它們對不可見的擾動類型甚至具有更差的魯棒性。比較測試準確性的曲線下面積(AUC)分數(shù)可以發(fā)現(xiàn),使用本文提出的損失的非奇異穩(wěn)健模型(d-f)明顯優(yōu)于標準和奇異穩(wěn)健模型(a-c)。
END
備注:對抗
對抗學習交流群
掃碼備注拉你入群。
我愛計算機視覺
微信號:aicvml
QQ群:805388940
微博知乎:@我愛計算機視覺
投稿:amos@52cv.net
網(wǎng)站:www.52cv.net
?點此報名AI大賽,贏10萬美金大獎!
總結(jié)
以上是生活随笔為你收集整理的硬核!IBM对「神经网络鲁棒性」的理论分析的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Net 6 控制台配置文件读取
- 下一篇: 【+定时任务】