當前位置：首頁 > 人文社科 > 生活经验 >内容正文

生活经验

【深度学习理论】(2) 卷积神经网络

發(fā)布時間：2023/11/27 生活经验 38 豆豆

生活随笔收集整理的這篇文章主要介紹了【深度学习理论】(2) 卷积神经网络小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

各位同學(xué)好，最近學(xué)習(xí)了CS231N斯坦福計算機視覺公開課，講的太精彩了，和大家分享一下。

如下圖所示，現(xiàn)在有shape為 32x32x3 的圖像，如果使用全連神經(jīng)網(wǎng)絡(luò)，將圖像拉長成一個一維向量?[None, 3072]；使用10個線性分類器，每個分類器是一個一維向量，含 3072 個權(quán)重，和圖像做點乘，每個分類器得到1個值，得到輸出特征向量為 [None, 10]

使用全連接神經(jīng)網(wǎng)絡(luò)處理圖像分類問題存在的缺陷是，將二維圖像拉平成一維向量之后，丟失了圖像的空間信息。為了解決這個問題，引入卷積操作。

1. 卷積神經(jīng)網(wǎng)絡(luò)組成

卷積神經(jīng)網(wǎng)絡(luò)是由 卷積層、池化層(降采樣)、全連接層 組成。卷積層提取特征；池化層對特征后處理，將特征大而化之的處理，圖變小變模糊；全連接層融合不同的特征，輸出最終結(jié)果。

2. 卷積

卷積操作可以理解為，卷積核在原圖像上滑動，把對應(yīng)位置元素相乘，即圖像像素乘以對應(yīng)位置卷積核的權(quán)重，把相乘的結(jié)果再相加，填到生成特征圖的對應(yīng)位置。

2.1 單通道圖像

以單通道圖像舉例。如下圖，左圖是原始像素，左圖綠色區(qū)域為感受野，中間的圖為卷積核，每次卷積結(jié)果生成特征圖，如右圖。每次卷積的卷積核里面的權(quán)重是不變的。在感受野區(qū)域內(nèi)，將原始像素和卷積核對應(yīng)像值相乘再相加，結(jié)果填到特征圖的對應(yīng)位置上。

有多少個卷積核就有多少張?zhí)卣鲌D。一個卷積核生成一張?zhí)卣鲌D，如果換一套卷積核權(quán)重，就得到了第二張?zhí)卣鲌D。將多個卷積核生成的特征圖堆疊起來，就生成了多通道的特征圖。作為下一個卷積層的輸入。

然而，現(xiàn)在有個小問題。在卷積過程中，原圖像左上角的像素只參加了一次卷積運算，而中間的像素參加了很多次卷積運算。這樣會導(dǎo)致卷積過程中丟失邊緣信息。

如何解決這個問題呢，我們可以在原圖像邊緣使用0填充一圈，稱為padding操作。（1）補0之后，邊緣像素就能更多的參與卷積運算。（2）不使用0填充的話，卷積過程中生成的特征圖size會不斷減小；采用0填充之后，卷積前的特征圖size和卷積后的特征圖size相同

現(xiàn)在卷積核在圖像上移動步長=(1,1)，即卷積核在水平和豎直方向每次滑動一格。若卷積核在圖像上移動步長=(2, 2)，即卷積核在水平和豎直方向每次滑動兩格。

2.2 多通道圖像

在現(xiàn)實生活中，一般都是彩色圖像，即RGB三顏色通道。剛剛介紹的是原圖只有一個通道。

卷積操作中，輸入圖像有多少個通道，卷積核就有多少個通道。如下圖，三個通道的卷積核在三通道的原圖像上滑動，對應(yīng)元素相乘再相加，一個卷積核生成一張?zhí)卣鲌D。

如下圖，輸入圖像三通道，一個卷積核也是三通道的，卷積核的每個通道對應(yīng)原圖的每個通道，卷積核的每個通道的權(quán)重是不相同的。卷積核和原圖像對應(yīng)位置相乘再相加，再加上一個偏置，填到特征圖的對應(yīng)位置上。

2.3 卷積的目的

卷積的目的就是把原圖中符合卷積核定義的特征提取出來。

可以理解為，卷積核定義了一個特征，卷積操作就是在原圖上提取這個特征，如果原圖中某些像素值符合卷積核特征，那么在特征圖中對應(yīng)的像素值就比較大，其他地方的值都很低。不同的卷積核能在原圖中提取不同的特征，如下圖兩種卷積核。

2.4 卷積流程總結(jié)

輸入圖像的shape為 [32, 32, 3]，用6個 5x5x3 的卷積核卷積，得到特征圖的shape為 [28, 28, 6]，再用10個 5x5x6 的卷積核卷，生成特征圖的shape為 [24, 24, 10]

3. 池化

現(xiàn)在有卷積層輸出的特征圖，隨著卷積核個數(shù)越來越多，特征圖通道數(shù)也越來越多，參數(shù)量也越來越大。現(xiàn)在從特征圖中選取一些代表性的像素值作代表，不需要考慮原來這么繁雜的參數(shù)。

選取方法有，最大池化：從每個池化窗中選出一個最大值；平均池化：計算每個池化窗口的平均值。

池化的作用：

（1）使卷積神經(jīng)網(wǎng)絡(luò)具有平移不變性。不管原圖中，對象是處于圖像的哪個位置，經(jīng)過池化層，過濾平移變形。

（2）減少參數(shù)量。從特征圖中提取具有代表性的像素值。

（3）防止過擬合。把特征圖進行大而化之的處理，保留主要特征，過濾噪音。

卷積操作的卷積核是有權(quán)重的，池化操作的池化窗口中是沒有權(quán)重的，只需要找出相應(yīng)的值

4. 全連接

全連接將輸出特征圖拉平成一個長向量，進行模型匯總，得到最后的結(jié)果。

5. 卷積神經(jīng)網(wǎng)絡(luò)特點

（1）局部感受野。每個神經(jīng)元僅于輸入神經(jīng)元的一塊區(qū)域連接，這塊區(qū)域稱為感受野。

和全連接神經(jīng)網(wǎng)絡(luò)不同，全連接網(wǎng)絡(luò)是每一個神經(jīng)元都要處理上一層的全部輸出信息；而在卷積神經(jīng)網(wǎng)絡(luò)中，每個神經(jīng)元只關(guān)注感受野內(nèi)的一小塊區(qū)域。

（2）權(quán)值共享。卷積核是共享的，一次卷積過程中，一個卷積核的權(quán)重參數(shù)是不變的（一個卷積核各通道的權(quán)重參數(shù)可以不相同）

（3）池化（下采樣）減少參數(shù)，防止過擬合，引入了平移不變性。

6. 補充小知識點

6.1 特征圖的size變化

如果輸入圖像的size為（N, N），卷積核的size為（F, F），輸出的特征圖的size為 （N-F）/ stride +1

如下圖，當步長=3時，輸出特征圖size是小數(shù)，應(yīng)該避免這種情況，在原圖的周圍使用0填充，使輸出特征圖size是整數(shù)。

使用padding后，輸出特征圖size公式變?yōu)?#xff1a;（N+2P-F）/ stride +1

p 代表原圖周圍padding幾圈。如果 p =（F-1）/ 2，且步長=1，那么輸入和輸出特征圖的size相同。

6.2 1x1卷積

1x1卷積是指 卷積核的長寬都等于1。如下圖所示，輸入特征圖的shape為 [64, 64, 192]，一個卷積核shape為 [1, 1, 192]，對應(yīng)元素相乘再相加，得到卷積輸出特征圖的shape為 [64, 64, 1]

可以使用不同個數(shù)的1x1卷積核來升維或降維，如果1x1卷積核個數(shù)是128個，就將輸入圖像的shape從 [64, 64, 192] 降為 [64, 64, 128]。

1x1卷積的作用：（1）降維或升維；（2）跨通道信息交融；（3）減少參數(shù)量；（4）增加模型深度，提高非線性表示能力。

如下圖（a）所示，使用 5x5x256 的卷積核計算，參數(shù)量有二十萬。操作數(shù)160.5M，可理解為每張輸出特征圖都是由一次卷積得來的，每一次卷積的運算量就是每個卷積核的size =?5*5

如圖（b）所示，先用1x1卷積核降維，再用5x5卷積提取特征，每個1x1卷積核的參數(shù)量只有1*1*256。大大減少了計算量

總結(jié)

以上是生活随笔為你收集整理的【深度学习理论】(2) 卷积神经网络的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：【机器视觉案例】(13) 脸部和摄像机间
下一篇：【深度学习理论】(3) 激活函数