當(dāng)前位置：首頁 > 人工智能 > pytorch >内容正文

pytorch

深度学习（二十六）Network In Network学习笔记-ICLR 2014

發(fā)布時間：2025/3/21 pytorch 41 豆豆

生活随笔收集整理的這篇文章主要介紹了深度学习（二十六）Network In Network学习笔记-ICLR 2014 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

Network In Network學(xué)習(xí)筆記

原文地址：http://blog.csdn.net/hjimce/article/details/50458190

作者：hjimce

一、相關(guān)理論

本篇博文主要講解2014年ICLR的一篇非常牛逼的paper：《Network In Network》，過去一年已經(jīng)有了好幾百的引用量，這篇paper改進(jìn)了傳統(tǒng)的CNN網(wǎng)絡(luò)，采用了少量的參數(shù)就松松擊敗了Alexnet網(wǎng)絡(luò)，Alexnet網(wǎng)絡(luò)參數(shù)大小是230M，采用這篇paper的算法才29M，減小了將近10倍啊。這篇paper提出的網(wǎng)絡(luò)結(jié)構(gòu)，是對傳統(tǒng)CNN網(wǎng)絡(luò)的一種改進(jìn)(這種文獻(xiàn)少之又少，所以感覺很有必要學(xué)習(xí))。

傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)一般來說是由：線性卷積層、池化層、全連接層堆疊起來的網(wǎng)絡(luò)。卷積層通過線性濾波器進(jìn)行線性卷積運算，然后在接個非線性激活函數(shù)，最終生成特征圖。以Relu激活函數(shù)為例，特征圖的計算公式為：

其中（i，j）表示圖片像素點的位置索引，xij表示我們卷積窗口中的圖片塊，k則表示我們要提取的特征圖的索引。

一般來說，如果我們要提取的一些潛在的特征是線性可分的話，那么對于線性的卷積運算來說這是足夠了。然而一般來說我們所要提取的特征一般是高度非線性的。在傳統(tǒng)的CNN中，也許我們可以用超完備的濾波器，來提取各種潛在的特征。比如我們要提取某個特征，于是我就用了一大堆的濾波器，把所有可能的提取出來，這樣就可以把我想要提取的特征也覆蓋到，然而這樣存在一個缺點，那就是網(wǎng)絡(luò)太恐怖了，參數(shù)太多了。

我們知道CNN高層特征其實是低層特征通過某種運算的組合。于是作者就根據(jù)這個想法，提出在每個局部感受野中進(jìn)行更加復(fù)雜的運算，提出了對卷積層的改進(jìn)算法：MLP卷積層。另一方面，傳統(tǒng)的CNN最后一層都是全連接層，參數(shù)個數(shù)非常之多，容易引起過擬合（如Alexnet）,一個CNN模型，大部分的參數(shù)都被全連接層給占用了，故這篇paper提出采用了：全局均值池化，替代全連接層。因此后面主要從這兩個創(chuàng)新點進(jìn)行講解。

二、MLP卷積層(文獻(xiàn)創(chuàng)新點1)

這個是文獻(xiàn)的大創(chuàng)新點，也就是提出了mlpconv層。Mlpconv層可以看成是每個卷積的局部感受野中還包含了一個微型的多層網(wǎng)絡(luò)。其實在以前的卷積層中，我們局部感受野窗口的運算，可以理解為一個單層的網(wǎng)絡(luò)，如下圖所示：

線性卷積層

CNN層的計算公式如下：

然而現(xiàn)在不同了，我們要采用多層的網(wǎng)絡(luò)，提高非線性，于是mlpconv層的網(wǎng)絡(luò)結(jié)構(gòu)圖如下：：

Mlpconv層

從上面的圖可以看到，說的簡單一點呢，利用多層mlp的微型網(wǎng)絡(luò)，對每個局部感受野的神經(jīng)元進(jìn)行更加復(fù)雜的運算，而以前的卷積層，局部感受野的運算僅僅只是一個單層的神經(jīng)網(wǎng)絡(luò)罷了。對于mlpconv層每張?zhí)卣鲌D的計算公式如下：

一般來說mlp是一個三層的網(wǎng)絡(luò)結(jié)構(gòu)。下面是一個單層的mlpconv網(wǎng)絡(luò)的caffe網(wǎng)絡(luò)結(jié)構(gòu)文件，源碼來自于：https://gist.github.com/mavenlin/d802a5849de39225bcc6?： [python]?view plaincopy

<span?style="font-size:18px;">layers?{??

??bottom:?"data"??

??top:?"conv1"??

??name:?"conv1"??

??type:?CONVOLUTION??

??blobs_lr:?1??

??blobs_lr:?2??

??weight_decay:?1??

??weight_decay:?0??

??convolution_param?{??

????num_output:?96??

????kernel_size:?11??

????stride:?4??

????weight_filler?{??

??????type:?"gaussian"??

??????mean:?0??

??????std:?0.01??

????}??

????bias_filler?{??

??????type:?"constant"??

??????value:?0??

????}??

??}??

}??

layers?{??

??bottom:?"conv1"??

??top:?"conv1"??

??name:?"relu0"??

??type:?RELU??

}??

layers?{??

??bottom:?"conv1"??

??top:?"cccp1"??

??name:?"cccp1"??

??type:?CONVOLUTION??

??blobs_lr:?1??

??blobs_lr:?2??

??weight_decay:?1??

??weight_decay:?0??

??convolution_param?{??

????num_output:?96??

????kernel_size:?1??

????stride:?1??

????weight_filler?{??

??????type:?"gaussian"??

??????mean:?0??

??????std:?0.05??

????}??

????bias_filler?{??

??????type:?"constant"??

??????value:?0??

????}??

??}??

}??

layers?{??

??bottom:?"cccp1"??

??top:?"cccp1"??

??name:?"relu1"??

??type:?RELU??

}??

layers?{??

??bottom:?"cccp1"??

??top:?"cccp2"??

??name:?"cccp2"??

??type:?CONVOLUTION??

??blobs_lr:?1??

??blobs_lr:?2??

??weight_decay:?1??

??weight_decay:?0??

??convolution_param?{??

????num_output:?96??

????kernel_size:?1??

????stride:?1??

????weight_filler?{??

??????type:?"gaussian"??

??????mean:?0??

??????std:?0.05??

????}??

????bias_filler?{??

??????type:?"constant"??

??????value:?0??

????}??

??}??

}??

layers?{??

??bottom:?"cccp2"??

??top:?"cccp2"??

??name:?"relu2"??

??type:?RELU??

}??

</span>??

三、全局均值池化(文獻(xiàn)創(chuàng)新點2)

傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)卷積運算一般是出現(xiàn)在低層網(wǎng)絡(luò)。對于分類問題，最后一個卷積層的特征圖通過量化然后與全連接層連接，最后在接一個softmax邏輯回歸分類層。這種網(wǎng)絡(luò)結(jié)構(gòu)，使得卷積層和傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)層連接在一起。我們可以把卷積層看做是特征提取器，然后得到的特征再用傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)進(jìn)行分類。

然而，全連接層因為參數(shù)個數(shù)太多，往往容易出現(xiàn)過擬合的現(xiàn)象，導(dǎo)致網(wǎng)絡(luò)的泛化能力不盡人意。于是Hinton采用了Dropout的方法，來提高網(wǎng)絡(luò)的泛化能力。

本文提出采用全局均值池化的方法，替代傳統(tǒng)CNN中的全連接層。與傳統(tǒng)的全連接層不同，我們對每個特征圖一整張圖片進(jìn)行全局均值池化，這樣每張?zhí)卣鲌D都可以得到一個輸出。這樣采用均值池化，連參數(shù)都省了，可以大大減小網(wǎng)絡(luò)，避免過擬合，另一方面它有一個特點，每張?zhí)卣鲌D相當(dāng)于一個輸出特征，然后這個特征就表示了我們輸出類的特征。這樣如果我們在做1000個分類任務(wù)的時候，我們網(wǎng)絡(luò)在設(shè)計的時候，最后一層的特征圖個數(shù)就要選擇1000，下面是《Network In Network》網(wǎng)絡(luò)的源碼，倒數(shù)一層的網(wǎng)絡(luò)相關(guān)參數(shù)：

[python]?view plaincopy

layers?{??

bottom:?"cccp7"??

top:?"cccp8"??

name:?"cccp8-1024"??

type:?CONVOLUTION??

blobs_lr:?1??

blobs_lr:?2??

weight_decay:?1??

weight_decay:?0??

convolution_param?{??

num_output:?1000??

kernel_size:?1???

stride:?1??

weight_filler?{??

type:?"gaussian"??

mean:?0??

std:?0.01??

}??

bias_filler?{??

type:?"constant"??

value:?0??

}??

全局均值池化層的相關(guān)參數(shù)如下：

[python]?view plaincopy

layers?{??

bottom:?"cccp8"??

top:?"pool4"??

name:?"pool4"??

type:?POOLING??

pooling_param?{??

pool:?AVE??

kernel_size:?6??

stride:?1??

}??

因為在Alexnet網(wǎng)絡(luò)中，最后一個卷積層輸出的特征圖大小剛好是6*6,所以我們pooling的大小選擇6，方法選擇：AVE。

四、總體網(wǎng)絡(luò)架構(gòu)

根據(jù)上面的作者對傳統(tǒng)CNN的兩個改進(jìn)，利用其進(jìn)行1000物體分類問題，于是作者最后設(shè)計了一個：4層的NIN+全局均值池化，網(wǎng)絡(luò)如下：

個人總結(jié)：個人感覺這篇文獻(xiàn)很有價值，實現(xiàn)方式也很簡單，一開始我還以為需要caffe的c++源碼來實現(xiàn)NIN網(wǎng)絡(luò)，結(jié)果發(fā)現(xiàn)實現(xiàn)NIN的源碼實現(xiàn)方式其實就是一個1*1的卷積核，實現(xiàn)卷積運算，所以實現(xiàn)起來相當(dāng)容易，不需要自己寫源碼，只需要簡簡單單的把卷積核的大小變一下，然后最后一層的全連接層直接用avg pooling替換一下就ok了。個人評價：網(wǎng)絡(luò)淺顯易懂，簡單實現(xiàn)，卻可以改進(jìn)原來的網(wǎng)絡(luò)，提高精度，減小模型大小，所以是一篇很值得學(xué)習(xí)的文獻(xiàn)。后續(xù)即將講解另外幾篇2015年，也是對CNN網(wǎng)絡(luò)結(jié)構(gòu)改進(jìn)的牛逼文獻(xiàn)：《Spatial Transformer Networks》、《Striving For Simplicity：The All Convolutional Net》、《Stacked What-Where Auto-encoders》，敬請期待，畢竟這樣的文章敢于挑戰(zhàn)傳統(tǒng)的CNN結(jié)構(gòu)，對其不知做出改進(jìn)，所以我們需要一篇一篇的學(xué)。

參考文獻(xiàn)：

1、《Network In Network》

2、https://github.com/BVLC/caffe/wiki/Model-Zoo

3、https://gist.github.com/mavenlin/d802a5849de39225bcc6?

4、《Maxout Networks》

**********************作者：hjimce ? 時間：2016.1.4 ?聯(lián)系QQ：1393852684 ? 地址：http://blog.csdn.net/hjimce? ?原創(chuàng)文章，版權(quán)所有，轉(zhuǎn)載請保留本行信息（不允許刪除）

總結(jié)

以上是生活随笔為你收集整理的深度学习（二十六）Network In Network学习笔记-ICLR 2014的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：深度学习（二十五）基于Mutil-Sca
下一篇：图像处理（二十一）基于数据驱动的人脸卡通

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

pytorch

深度学习（二十六）Network In Network学习笔记-ICLR 2014

總結(jié)