當(dāng)前位置：首頁 >

LeNet试验（五）观察“彩票假说”现象

發(fā)布時間：2025/3/8 36 豆豆

生活随笔收集整理的這篇文章主要介紹了 LeNet试验（五）观察“彩票假说”现象小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

??“彩票假說”是ICLR2019最佳論文《The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks》提出的。意思是神經(jīng)網(wǎng)絡(luò)通常只有少量的關(guān)鍵參數(shù)發(fā)揮作用，找到這些少數(shù)關(guān)鍵參數(shù)就好像買到中獎的彩票一樣，幸運但很稀有。本文使用一種提取關(guān)鍵參數(shù)的算法，使神經(jīng)網(wǎng)絡(luò)的參數(shù)稀疏化，以驗證彩票假說。我們發(fā)現(xiàn)在MNIST集上可以把LeNet參數(shù)稀疏至1/50而保持幾乎不變的精度，在CIFAR10上也可以把ResNet18參數(shù)稀疏至1/10而保持精度。

文章目錄

前言
一、在LeNet中觀察“彩票假說”現(xiàn)象
二、進一步用ResNet試驗
總結(jié)

前言

圖1. 人腦神經(jīng)元隨年齡增長的稀疏化

??人腦神經(jīng)元間的連接在6歲左右達到最致密，隨后又開始稀疏化。這種稀疏化可能會使記憶力有所下降，但是由于保留了關(guān)鍵連接，反而有更高的歸納綜合能力。
??彩票假說指出人工神經(jīng)網(wǎng)絡(luò)也有類似的性質(zhì)，當(dāng)前使用的深度神經(jīng)網(wǎng)絡(luò)多是過參數(shù)化的，可以把大部分參數(shù)抑制為0，只保留少量關(guān)鍵參數(shù)而不影響網(wǎng)絡(luò)性能。我們來觀察這個現(xiàn)象，仍舊先在MNIST集上用LeNet做試驗，因為它速度非常快，使用的LeNet代碼見第一節(jié)https://blog.csdn.net/Brikie/article/details/112253975。使用的提取關(guān)鍵參數(shù)的算法見我另一篇博客https://blog.csdn.net/Brikie/article/details/113656685中的改進版代碼。

一、在LeNet中觀察“彩票假說”現(xiàn)象

??系數(shù) $τ\tau$ （tau）表示抑制的非關(guān)鍵參數(shù)的程度， $τ\tau$ 越大抑制的參數(shù)越多，保留的關(guān)鍵參數(shù)越少。我們在MNIST集中運行LeNet網(wǎng)絡(luò)，batch size=128，lr=0.01, momentum=0.9, weight_decay=0.001。不同 $τ\tau$ 對應(yīng)的測試集精度如圖1，有效參數(shù)（定義為絕對值大于0.001的參數(shù)）的數(shù)量隨訓(xùn)練輪數(shù)變化情況如圖2。

圖1. MNIST數(shù)據(jù)集中使用LeNet觀察不同系數(shù)tau對應(yīng)的測試集精度

圖2.有效參數(shù)數(shù)量隨訓(xùn)練步數(shù)逐漸縮小到關(guān)鍵參數(shù)的過程

??我們可以看出，該算法可以把網(wǎng)絡(luò)參數(shù)大幅稀疏化，而測試集精度卻幾乎沒有降低。例如當(dāng) $τ=0.99\tau = 0.99$ 時，最終剩余的關(guān)鍵參數(shù)只有全部參數(shù)的1/50，但精度比原網(wǎng)絡(luò)還高一些。當(dāng) $τ=0.999\tau = 0.999$ 時，關(guān)鍵參數(shù)可以壓縮到1/100，精度仍能保持90%以上。把訓(xùn)練結(jié)束后的部分權(quán)重參數(shù)可視化，如圖3，可以看到此時仍保有數(shù)值的關(guān)鍵參數(shù)已經(jīng)非常稀疏。

圖3.tau = 0.999時conv2和fc1的權(quán)重絕對值可視化圖（下圖放大仔細看有一些白點）

二、進一步用ResNet試驗

??我們再用ResNet18在CIFAR10上進行試驗，得到曲線如下圖：

圖4.不同參數(shù)tau的ResNet18在CIFAR10上運行試驗

??可以看出，參數(shù)也能夠顯著壓縮，但精度保持的不如MNIST上面那么好，當(dāng)tau=0.5時，參數(shù)稀疏為總量的約1/10，精度只比原網(wǎng)絡(luò)低一點。
??為了更好的對比，我們在MNIST上運行ResNet18。由于MNIST是28x28的單通道圖片，我們把它補零擴充為32x32，然后復(fù)制到三個通道，做成和CIFAR10一樣的3x32x32的圖片，以適用于剛才的ResNet18。

圖5.不同參數(shù)tau的ResNet18在MNIST3c上運行試驗

??可以看出，MNIST集上確實可以壓縮更多的參數(shù)，tau=0.999時，參數(shù)壓縮到了原來的1/70，精度仍差不多。這說明最大壓縮比不僅與模型有關(guān)，也與數(shù)據(jù)集有關(guān)，復(fù)雜的數(shù)據(jù)集當(dāng)然需要的參數(shù)量也要多一些。

總結(jié)

??彩票假說指名了一個事實，即神經(jīng)網(wǎng)絡(luò)的參數(shù)存在大量冗余，但這只是提出了一個新問題，距離解決這個問題還很遠。我覺得在這個領(lǐng)域獲得最終突破要解決幾個主要問題：
1，對于給定數(shù)據(jù)集的復(fù)雜度和給定的適用該數(shù)據(jù)集的神經(jīng)網(wǎng)絡(luò)模型，在維持相當(dāng)精度的要求下，這個模型的最稀疏的參數(shù)量的極限界是多少，怎么計算？
2，使用什么算法可以較好的得到接近這個極限界的稀疏化權(quán)重參數(shù)？
3，獲得的這個稀疏化網(wǎng)絡(luò)能否轉(zhuǎn)化為一個緊致的小網(wǎng)絡(luò)，以縮小模型內(nèi)存需求，完成這個問題的本質(zhì)目的——模型壓縮。

與50位技術(shù)專家面對面20年技術(shù)見證，附贈技術(shù)全景圖

總結(jié)

以上是生活随笔為你收集整理的LeNet试验（五）观察“彩票假说”现象的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：【论文学习】ICLR2021，鲁棒早期学
下一篇： [论文学习]DIVIDEMIX:带噪声标

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

LeNet试验（五）观察“彩票假说”现象

文章目錄

前言

一、在LeNet中觀察“彩票假說”現(xiàn)象

二、進一步用ResNet試驗

總結(jié)

總結(jié)