CNN-2: AlexNet 卷积神经网络模型
1、AlexNet 模型簡介
由于受到計算機性能的影響,雖然LeNet在圖像分類中取得了較好的成績,但是并沒有引起很多的關注。 知道2012年,Alex等人提出的AlexNet網絡在ImageNet大賽上以遠超第二名的成績奪冠,卷積神經網絡乃至深度學習重新引起了廣泛的關注。
2、AlexNet 模型特點
AlexNet是在LeNet的基礎上加深了網絡的結構,學習更豐富更高維的圖像特征。AlexNet的特點:
1)更深的網絡結構
2)使用層疊的卷積層,即卷積層+卷積層+池化層來提取圖像的特征
3)使用Dropout抑制過擬合
4)使用數據增強Data Augmentation抑制過擬合
5)使用Relu替換之前的sigmoid的作為激活函數
6)多GPU訓練
ReLu作為激活函數
在最初的感知機模型中,輸入和輸出的關系如下:
?????????????${y = \sum\limits_i {{w_i}{x_i}}? + b}$
只是單純的線性關系,這樣的網絡結構有很大的局限性:即使用很多這樣結構的網絡層疊加,其輸出和輸入仍然是線性關系,無法處理有非線性關系的輸入輸出。因此,對每個神經元的輸出做個非線性的轉換也就是,將上面就加權求和${\sum\nolimits_i {{w_i}{x_i}}? + b}$的結果輸入到一個非線性函數,也就是激活函數中。 這樣,由于激活函數的引入,多個網絡層的疊加就不再是單純的線性變換,而是具有更強的表現能力。
在最初,sigmoid和tanh函數最常用的激活函數。
1) sigmoid
????????????${\sigma \left( x \right) = \frac{1}{{1 + {e^{ - x}}}}}$?
在網絡層數較少時,sigmoid函數的特性能夠很好的滿足激活函數的作用:它把一個實數壓縮至0到1之間,當輸入的數字非常大的時候,結果會接近1;當輸入非常大的負數時,則會得到接近0的結果。這種特性,能夠很好的模擬神經元在受刺激后,是否被激活向后傳遞信息(輸出為0,幾乎不被激活;輸出為1,完全被激活)。
sigmoid一個很大的問題就是梯度飽和。 觀察sigmoid函數的曲線,當輸入的數字較大(或較小)時,其函數值趨于不變,其導數變的非常的小。這樣,在層數很多的的網絡結構中,進行反向傳播時,由于很多個很小的sigmoid導數累成,導致其結果趨于0,權值更新較慢。
2) ReLu
?????????????${ReLU\left( x \right) = max\left( {0\user1{,}x} \right)}$?
針對sigmoid梯度飽和導致訓練收斂慢的問題,在AlexNet中引入了ReLU。ReLU是一個分段線性函數,小于等于0則輸出為0;大于0的則恒等輸出。相比于sigmoid,ReLU有以下有點:
1)計算開銷下。sigmoid的正向傳播有指數運算,倒數運算,而ReLu是線性輸出;反向傳播中,sigmoid有指數運算,而ReLU有輸出的部分,導數始終為1.
2)梯度飽和問題
3)稀疏性。Relu會使一部分神經元的輸出為0,這樣就造成了網絡的稀疏性,并且減少了參數的相互依存關系,緩解了過擬合問題的發生。
這里有個問題,前面提到,激活函數要用非線性的,是為了使網絡結構有更強的表達的能力。那這里使用ReLU本質上卻是個線性的分段函數,是怎么進行非線性變換的。? 這里把神經網絡看著一個巨大的變換矩陣M,其輸入為所有訓練樣本組成的矩陣A,輸出為矩陣B。
??????????????${B = M \cdot A}$
這里的M是一個線性變換的話,則所有的訓練樣本A進行了線性變換輸出為B。? 那么對于ReLU來說,由于其是分段的,0的部分可以看著神經元沒有激活,不同的神經元激活或者不激活,其神經玩過組成的變換矩陣是不一樣的。也就是說,每個訓練樣本使用的線性變換矩陣是不一樣的,在整個訓練樣本空間來說,其經歷的是非線性變換。
簡單來說,不同訓練樣本中的同樣的特征,在經過神經網絡學習時,流經的神經元是不一樣的(激活函數值為0的神經元不會被激活)。這樣,最終的輸出實際上是輸入樣本的非線性變換。單個訓練樣本是線性變換,但是每個訓練樣本的線性變換是不一樣的,這樣整個訓練樣本集來說,就是非線性的變換。
數據增強
神經網絡由于訓練的參數多,表能能力強,所以需要比較多的數據量,不然很容易過擬合。當訓練數據有限時,可以通過一些變換從已有的訓練數據集中生成一些新的數據,以快速地擴充訓練數據。對于圖像數據集來說,可以對圖像進行一些形變操作:
1) 翻轉
2) 隨機裁剪
3)平移,顏色光照的變換
...
?AlexNet中對數據做了以下操作:
1)隨機裁剪,對256×256的圖片進行隨機裁剪到227×227,然后進行水平翻轉。
2)測試的時候,對左上、右上、左下、右下、中間分別做了5次裁剪,然后翻轉,共10個裁剪,之后對結果求平均。
3)對RGB空間做PCA(主成分分析),然后對主成分做一個(0, 0.1)的高斯擾動,也就是對顏色、光照作變換,結果使錯誤率又下降了1%。
?層疊池化
在LeNet中池化是不重疊的,即池化的窗口的大小和步長是相等的,如下:
在AlexNet中使用的池化(Pooling)卻是可重疊的,也就是說,在池化的時候,每次移動的步長小于池化的窗口長度。AlexNet池化的大小為3×3的正方形,每次池化移動步長為2,這樣就會出現重疊。重疊池化可以避免過擬合,這個策略貢獻了0.3%的Top-5錯誤率。與非重疊方案s=2,z=2相比,輸出的維度是相等的,并且能在一定程度上抑制過擬合。
?局部相應歸一化
ReLU具有讓人滿意的特性,它不需要通過輸入歸一化來防止飽和。如果至少一些訓練樣本對ReLU產生了正輸入,那么那個神經元上將發生學習。然而,我們仍然發現接下來的局部響應歸一化有助于泛化。${a_{x{,}y}^i}$表示神經元激活,通過在(x,y)(位置應用核${i}$然后應用ReLU非線性來計算,響應歸一化激活${b_{x{,}y}^i}$通過下式給定:
??????????? ${b_{x{,}y}^i = \frac{{a_{x{,}y}^i}}{{{{\left( {k + \alpha \sum\limits_{j = {max}\left( {{0,}{{{i - n}} \mathord{\left/
?{\vphantom {{{i - n}} 2}} \right.
?\kern-\nulldelimiterspace} 2}} \right)}^{{min(N - 1,}{{{i + n}} \mathord{\left/
?{\vphantom {{{i + n}} 2}} \right.
?\kern-\nulldelimiterspace} 2}{)}} {{{\left( {a_{x{,}y}^j} \right)}^2}} } \right)}^\beta }}}}$
其中,N是卷積核的個數,也就是生成的FeatureMap的個數;${k{,}\alpha {,}\beta {,}n}$是超參數,論文中使用的值是${k = 2{,}\alpha? = {10^{ - 4}}{,}\beta? = 0.75{,}n = 5}$。輸出${b_{x{,}y}^i}$和輸入${a_{x{,}y}^i}$的上標表示的是當前值所在的通道,也即是疊加的方向是沿著通道進行。將要歸一化的值${a_{x{,}y}^i}$所在附近通道相同位置的值的平方累加起來${\sum\nolimits_{j = {max}\left( {{0,}{{{i - n}} \mathord{\left/
?{\vphantom {{{i - n}} 2}} \right.
?\kern-\nulldelimiterspace} 2}} \right)}^{{min(N - 1,}{{{i + n}} \mathord{\left/
?{\vphantom {{{i + n}} 2}} \right.
?\kern-\nulldelimiterspace} 2}{)}} {{{\left( {a_{x{,}y}^j} \right)}^2}} }$
Dropout
這個是比較常用的抑制過擬合的方法了。 引入Dropout主要是為了防止過擬合。在神經網絡中Dropout通過修改神經網絡本身結構來實現,對于某一層的神經元,通過定義的概率將神經元置為0,這個神經元就不參與前向和后向傳播,就如同在網絡中被刪除了一樣,同時保持輸入層與輸出層神經元的個數不變,然后按照神經網絡的學習方法進行參數更新。在下一次迭代中,又重新隨機刪除一些神經元(置為0),直至訓練結束。 Dropout應該算是AlexNet中一個很大的創新,現在神經網絡中的必備結構之一。Dropout也可以看成是一種模型組合,每次生成的網絡結構都不一樣,通過組合多個模型的方式能夠有效地減少過擬合,Dropout只需要兩倍的訓練時間即可實現模型組合(類似取平均)的效果,非常高效。 如下圖:
3、Alex網絡結構
注:上圖中的輸入是224×224,不過經過計算(224?11)/4=54.75并不是論文中的55×55,而使用227×227作為輸入,則(227?11)/4=55。
網絡包含8個帶權重的層;前5層是卷積層,剩下的3層是全連接層。最后一層全連接層的輸出是1000維softmax的輸入,softmax會產生1000類標簽的分布網絡包含8個帶權重的層;前5層是卷積層,剩下的3層是全連接層。最后一層全連接層的輸出是1000維softmax的輸入,softmax會產生1000類標簽的分布。
- 卷積層C1
??????????該層的處理流程是: 卷積-->ReLU-->池化-->歸一化。
????????? 1)卷積,輸入是227×227,使用96個11×11×3的卷積核,得到的FeatureMap為55×55×96。
??????????2)ReLU,將卷積層輸出的FeatureMap輸入到ReLU函數中。
????????? 3)池化,使用3×3步長為2的池化單元(重疊池化,步長小于池化單元的寬度),輸出為27×27×96((55?3)/2+1=27)。
????????? 4)局部響應歸一化,使用k=2,n=5,α=10?4,β=0.75進行局部歸一化,輸出的仍然為27×27×96,輸出分為兩組,每組的大小為27×27×48。
- ?卷積層C2
??????????? 該層的處理流程是:卷積-->ReLU-->池化-->歸一化。
??????????? 1)卷積,輸入是2組27×27×48。使用2組,每組128個尺寸為5×5×48的卷積核,并作了邊緣填充padding=2,卷積的步長為1. 則輸出的FeatureMap為2組,每組的大小為 27×27 times128. ((27+2?2?5)/1+1=27)。
??????????? 2)ReLU,將卷積層輸出的FeatureMap輸入到ReLU函數中。
????????????3)池化運算的尺寸為3×3,步長為2,池化后圖像的尺寸為(27?3)/2+1=13,輸出為13×13×256。
??????????? 4)局部響應歸一化,使用k=2,n=5,α=10?4,β=0.75進行局部歸一化,輸出的仍然為13×13×256,輸出分為2組,每組的大小為13×13×128。
- 卷積層C3
?????????? 該層的處理流程是: 卷積-->ReLU。
?????????? 1)卷積,輸入是13×13×256,使用2組共384尺寸為3×3×256的卷積核,做了邊緣填充padding=1,卷積的步長為1.則輸出的FeatureMap為13×13 times384。
???????????2)ReLU,將卷積層輸出的FeatureMap輸入到ReLU函數中。
- 卷積層C4
???????????該層的處理流程是: 卷積-->ReLU
???????????該層和C3類似。
?????????? 1)卷積,輸入是13×13×384,分為兩組,每組為13×13×192.使用2組,每組192個尺寸為3×3×192的卷積核,做了邊緣填充padding=1,卷積的步長為1.則輸出的FeatureMap為13×13 times384,分為兩組,每組為13×13×192。
???????????2)ReLU,將卷積層輸出的FeatureMap輸入到ReLU函數中。
- 卷積層C5
?????????? 該層處理流程為:卷積-->ReLU-->池化
???????????卷積,輸入為13×13×384,分為兩組,每組為13×13×192。使用2組,每組為128尺寸為3×3×192的卷積核,做了邊緣填充padding=1,卷積的步長為1.則輸出的FeatureMap為13×13×256。
???????????ReLU,將卷積層輸出的FeatureMap輸入到ReLU函數中。
???????????池化,池化運算的尺寸為3×3,步長為2,池化后圖像的尺寸為 (13?3)/2+1=6,即池化后的輸出為6×6×256。
- 全連接層FC6
????????? 該層的流程為:(卷積)全連接 -->ReLU -->Dropout
????????? 1)卷積->全連接: 輸入為6×6×256,該層有4096個卷積核,每個卷積核的大小為6×6×256。由于卷積核的尺寸剛好與待處理特征圖(輸入)的尺寸相同,即卷積核中的每個系數只與特征圖(輸入)尺寸的一個像素值相乘,一一對應,因此,該層被稱為全連接層。由于卷積核與特征圖的尺寸相同,卷積運算后只有一個值,因此,卷積后的像素層尺寸為4096×1×1,即有4096個神經元。
????????? 2)ReLU,這4096個運算結果通過ReLU激活函數生成4096個值
????????? 3)Dropout,抑制過擬合,隨機的斷開某些神經元的連接或者是不激活某些神經元。
- 全連接層FC7
??????????流程為:全連接-->ReLU-->Dropout
????????? 1)全連接,輸入為4096的向量。
????????? 2)ReLU,這4096個運算結果通過ReLU激活函數生成4096個值。
????????? 3)Dropout,抑制過擬合,隨機的斷開某些神經元的連接或者是不激活某些神經元。
- 輸出層
?????????? 第七層輸出的4096個數據與第八層的1000個神經元進行全連接,經過訓練后輸出1000個float型的值,這就是預測結果。
4)AlexNet參數數量
卷積層的參數 = 卷積核的數量 * 卷積核 + 偏置
C1: 96個11×11×3的卷積核,96×11×11×3+96=34848
C2: 2組,每組128個5×5×48的卷積核,(128×5×5×48+128)×2=307456
C3: 384個3×3×256的卷積核,3×3×256×384+384=885120
C4: 2組,每組192個3×3×192的卷積核,(3×3×192×192+192)×2=663936
C5: 2組,每組128個3×3×192的卷積核,(3×3×192×128+128)×2=442624
FC6: 4096個6×6×256的卷積核,6×6×256×4096+4096=37752832
FC7: 4096?4096+4096=16781312
output: 4096?1000=4096000
卷積層 C2,C4,C5中的卷積核只和位于同一GPU的上一層的FeatureMap相連。從上面可以看出,參數大多數集中在全連接層,在卷積層由于權值共享,權值參數較少。
5)AlexNet模型TensorFlow實現
開發環境:?Python - 3.0、TensorFlow - 1.4.0、無GPU
# -*- coding: utf-8 -*- """ Created on 2017@author: 黃文堅、唐源 """ # 6.1 TensorFlow 實現 AlexNet # 2012年 Hinton 的學生 ALex Krizhevsky 提出 # 為 LeNet的一種更深更寬的版本 # 首次在CNN 中成功應用了 ReLU激活函數解決Sigmoid在網絡較深時的梯度彌散問題、 # Dropout 隨機忽略一部分神經元,以避免模型過擬合(全連接層使用) # 使用重疊的最大池化,且步長比池化核的尺寸小,此前普遍使用的是平均池化,避免平均池化的模糊化效果 # 提出LRN層對局部神經元的活動創建競爭機制,增強模型泛化能力 # 使用 GPU 進行運算加速、增強數據 # 5個卷積層、其中3個卷積層后連接了最大池化層,最后還有3個全連接層from datetime import datetime import math import time import tensorflow as tfbatch_size=32 num_batches=100def print_activations(t):print(t.op.name, ' ', t.get_shape().as_list())def inference(images):parameters = []# conv1with tf.name_scope('conv1') as scope:#定義卷積層參數:前兩個為尺寸 11*11(標準差0.1)、第三個為當前層節點矩陣的深度 3、第四個為卷積層的深度 64kernel = tf.Variable(tf.truncated_normal([11, 11, 3, 64], dtype=tf.float32,stddev=1e-1), name='weights')#tf.nn.conv2d 提供了一個方便的卷積層前向傳播函數#參數1:當前層的節點矩陣,四維矩陣,第一維度對應一個輸入batch,如第一張圖片,第二張圖片..#參數2:卷積層參數#參數3:不同維度上的步長(第一維、最后一維必須為1)#參數4:提供'SAME'和'VALLD'選擇,'SAME'為添加全0填充,'VALLD'為不添加conv = tf.nn.conv2d(images, kernel, [1, 4, 4, 1], padding='SAME')#定義偏置項為 1,及下一層節點矩陣的深度 1(參數共享)biases = tf.Variable(tf.constant(0.0, shape=[64], dtype=tf.float32),trainable=True, name='biases')#tf.nn.bias_add提供給每個conv節點加上偏置項bias = tf.nn.bias_add(conv, biases)#將計算結果通過ReLU激活函數完成去線性化conv1 = tf.nn.relu(bias, name=scope)print_activations(conv1)parameters += [kernel, biases]# pool1lrn1 = tf.nn.lrn(conv1, 4, bias=1.0, alpha=0.001 / 9.0, beta=0.75, name='lrn1')#tf.nn.max_pool 提供了一個方便的最大池化層的前向傳播過程。#tf.nn.avg_pool 提供了一個方便的平均池化層的前向傳播過程,兩者參數一致。#參數1:四維矩陣,第一維度對應一個輸入batch,如第一張圖片,第二張圖片.#參數2:ksize為過濾器參數,常為[1, 2, 2, 1]、[1, 3, 3, 1]#參數3:不同維度上的步長(第一維、最后一維必須為1)#參數4:提供'SAME'和'VALLD'選擇,'SAME'為添加全0填充,'VALLD'為不添加pool1 = tf.nn.max_pool(lrn1,ksize=[1, 3, 3, 1],strides=[1, 2, 2, 1],padding='VALID',name='pool1')print_activations(pool1)# conv2with tf.name_scope('conv2') as scope:kernel = tf.Variable(tf.truncated_normal([5, 5, 64, 192], dtype=tf.float32,stddev=1e-1), name='weights')conv = tf.nn.conv2d(pool1, kernel, [1, 1, 1, 1], padding='SAME')biases = tf.Variable(tf.constant(0.0, shape=[192], dtype=tf.float32),trainable=True, name='biases')bias = tf.nn.bias_add(conv, biases)conv2 = tf.nn.relu(bias, name=scope)parameters += [kernel, biases]print_activations(conv2)# pool2lrn2 = tf.nn.lrn(conv2, 4, bias=1.0, alpha=0.001 / 9.0, beta=0.75, name='lrn2')pool2 = tf.nn.max_pool(lrn2,ksize=[1, 3, 3, 1],strides=[1, 2, 2, 1],padding='VALID',name='pool2')print_activations(pool2)# conv3with tf.name_scope('conv3') as scope:kernel = tf.Variable(tf.truncated_normal([3, 3, 192, 384],dtype=tf.float32,stddev=1e-1), name='weights')conv = tf.nn.conv2d(pool2, kernel, [1, 1, 1, 1], padding='SAME')biases = tf.Variable(tf.constant(0.0, shape=[384], dtype=tf.float32),trainable=True, name='biases')bias = tf.nn.bias_add(conv, biases)conv3 = tf.nn.relu(bias, name=scope)parameters += [kernel, biases]print_activations(conv3)# conv4with tf.name_scope('conv4') as scope:kernel = tf.Variable(tf.truncated_normal([3, 3, 384, 256],dtype=tf.float32,stddev=1e-1), name='weights')conv = tf.nn.conv2d(conv3, kernel, [1, 1, 1, 1], padding='SAME')biases = tf.Variable(tf.constant(0.0, shape=[256], dtype=tf.float32),trainable=True, name='biases')bias = tf.nn.bias_add(conv, biases)conv4 = tf.nn.relu(bias, name=scope)parameters += [kernel, biases]print_activations(conv4)# conv5with tf.name_scope('conv5') as scope:kernel = tf.Variable(tf.truncated_normal([3, 3, 256, 256],dtype=tf.float32,stddev=1e-1), name='weights')conv = tf.nn.conv2d(conv4, kernel, [1, 1, 1, 1], padding='SAME')biases = tf.Variable(tf.constant(0.0, shape=[256], dtype=tf.float32),trainable=True, name='biases')bias = tf.nn.bias_add(conv, biases)conv5 = tf.nn.relu(bias, name=scope)parameters += [kernel, biases]print_activations(conv5)# pool5pool5 = tf.nn.max_pool(conv5,ksize=[1, 3, 3, 1],strides=[1, 2, 2, 1],padding='VALID',name='pool5')print_activations(pool5)return pool5, parametersdef time_tensorflow_run(session, target, info_string): # """Run the computation to obtain the target tensor and print timing stats. # # Args: # session: the TensorFlow session to run the computation under. # target: the target Tensor that is passed to the session's run() function. # info_string: a string summarizing this run, to be printed with the stats. # # Returns: # None # """num_steps_burn_in = 10total_duration = 0.0total_duration_squared = 0.0for i in range(num_batches + num_steps_burn_in):start_time = time.time()_ = session.run(target)duration = time.time() - start_timeif i >= num_steps_burn_in:if not i % 10:print ('%s: step %d, duration = %.3f' %(datetime.now(), i - num_steps_burn_in, duration))total_duration += durationtotal_duration_squared += duration * durationmn = total_duration / num_batchesvr = total_duration_squared / num_batches - mn * mnsd = math.sqrt(vr)print ('%s: %s across %d steps, %.3f +/- %.3f sec / batch' %(datetime.now(), info_string, num_batches, mn, sd)) #計算每輪迭代耗時的評測函數(平均耗時、標準差)def run_benchmark(): # """Run the benchmark on AlexNet.""" with tf.Graph().as_default():# Generate some dummy images.image_size = 224# Note that our padding definition is slightly different the cuda-convnet.# In order to force the model to start with the same activations sizes,# we add 3 to the image_size and employ VALID padding above.images = tf.Variable(tf.random_normal([batch_size, #使用隨機圖片數據 image_size,image_size, 3],dtype=tf.float32,stddev=1e-1))# Build a Graph that computes the logits predictions from the# inference model.pool5, parameters = inference(images) #得到池化層的輸出pool5和網絡中需要訓練的參數集合# Build an initialization operation.init = tf.global_variables_initializer()# Start running operations on the Graph.config = tf.ConfigProto()config.gpu_options.allocator_type = 'BFC'sess = tf.Session(config=config)sess.run(init)# Run the forward benchmark.time_tensorflow_run(sess, pool5, "Forward") #計算運行時間# Add a simple objective so we can calculate the backward pass.objective = tf.nn.l2_loss(pool5)# Compute the gradient with respect to all the parameters.grad = tf.gradients(objective, parameters)# Run the backward benchmark.time_tensorflow_run(sess, grad, "Forward-backward")if __name__ == "__main__":run_benchmark() View Code參考文獻
[1]?https://www.cnblogs.com/wangguchangqing/p/10333370.html
[2]?Krizhevsky A , Sutskever I , Hinton G . ImageNet Classification with Deep Convolutional Neural Networks[C]// NIPS. Curran Associates Inc. 2012.
[3]?黃文堅、唐源等.?TensorFlow 實戰 [M] , 北京:電子工業出版社,2017.
轉載于:https://www.cnblogs.com/ai-learning-blogs/p/11107819.html
總結
以上是生活随笔為你收集整理的CNN-2: AlexNet 卷积神经网络模型的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: angular 的配置文件的应用
- 下一篇: CNN-3: VGGNet 卷积神经网络