深度学习~卷积神经网络(CNN)概述
目錄???????
1. 卷積神經網絡的形成和演變
1.1 卷積神經網絡結構
1.2 卷積神經網絡的應用和影響
1.3 卷積神經網絡的缺陷和視圖
1.3.1 缺陷:可能錯分
1.3.2 解決方法:視圖?
1.4 卷積神經網絡的平臺和工具
reference:
1. 卷積神經網絡的形成和演變
背景:卷積神經網絡最初是受到視覺系統的神經機制啟發、針對二維形狀的識別設計的一種生物物理模型,在平移情況下具有高度不變性,在縮放和傾斜情況下也具有一定的不變性。這種生物物理模型集成了“感受野”的思想,可以看作一種特殊的多層感知器或前饋神經網絡,具有局部連接、權值共享(卷積)的特點。其中,大量神經元按照一定方式組織起來對視野中的交疊區域產生反應。
1962年,Hubel和Wiesel通過對貓的視覺皮層細胞的研究,提出了“感受野”的概念。
1979年,日本學者Fukushima在感受野概念的基礎上,提出了神經認知機模型,該模型被認為是實現的第一個卷積神經網絡。
1998年,LeCun等人將卷積層和下采樣層相結合,設計卷積神經網絡的主要結構,形成了現代卷積神經網絡的雛形(LeNet)。
2012年,卷積神經網絡的發展取得了歷史性突破,Krizhevsky等人采用修正線性單元(Rectified Linear Unit, ReLU)作為激活函數提出了著名的AlexNet,并在大規模圖像評測中取得了優異成績,成為深度學習發展史上的重要拐點。
1.1 卷積神經網絡結構
理論上,卷積神經網絡是一種特殊的多層感知器或前饋神經網絡。
標準的卷積神經網絡一般由輸入層、交替的卷積層和池化層、全連接層和輸出層組成。其中,卷積層也稱為檢測層,池化層也稱為下采樣層,它們也被看作特殊的隱含層。
卷積層的權值也稱為卷積核,雖然卷積核一般是需要訓練的,但有時可以是固定的,比如直接采用Gabor濾波器。
- ?從結構的角度來看,卷積神經網絡起初只能處理黑白或灰度圖像,變種模型通過把紅、綠、藍3個顏色通道作為一個整體輸入,已經直接處理彩色圖像,有些還可以直接處理多幀圖像甚至連續圖像。同時,變種模型可以使用多個相鄰的卷積層或多個相鄰的池化層,也可以使用重疊池化和最大池化,還可以使用修正線性單元、滲漏修正線性單元(Leaky ReLu, LReLU)、參數修正線性單元(Parametric ReLU, PReLU)或指數線性單元(Exponential Linear Unit, ELU)取代sigmoid單元作為激活函數,也可以在輸出層采用軟最大函數softmax替代sigmoid函數產生偽概率。
- 從卷積核的角度看,卷積神經網絡可以通過采用非常小的卷積核,比如1X1和3X3大小,被加深成一個更深的網絡,比如16層或19層的VGGNet。卷積神經網絡通過使用小卷積核在保持總體計算代價的條件下增加深度和寬度。并與攝入模塊(inception module)進行集成,可以用來建立谷歌網絡(GoogLeNet)。此外,卷積神經網絡通過使用微型多層感知器代替卷積核,還可以被擴展成更復雜的網絡,比如,網中網(Network In Network, NIN)
- 從區域的角度看,區域卷積神經網絡(Region-based CNN, R-CNN)可以用來抽取區域卷積特征,并通過區域提議進行更加魯棒的定位和分類。空間金字塔池化模型(Spatial Pyramid Pooling Net, SPPNet)可以克服其輸入大小固定的缺點,辦法是在最后一個卷積層和第一個全連接層之間插入一個空間金字塔池化層。為了獲得實時性能極快的對象檢測速度,可以把輸入圖像劃分成許多網格,并通過單個網絡構造的整體檢測管道,直接從整幅圖像預測對象的邊框和類概率建立YOLO模型,只需看一遍圖像就能知道對象的位置和類別。
- 從優化角度看,許多技術可以用來訓練卷積神經網絡,比如dropout丟棄輸出,dropconnect丟棄連接,batch normalization塊歸一化。丟棄輸出是一種減小過擬合的正則化技術,而丟棄連接是dropout的推廣。塊歸一化(或批量歸一化)則是按迷你塊大小對某些層的輸入進行歸一化處理的方法。此外,殘差網絡(Redidual Network,ResNet)采用跨越2~3層的連接策略也是一種重要的優化技術,可以用來克服極深網絡的訓練困難。
- 從演變的角度看,現在卷積網絡以LeNet為雛形,在經過AlexNet的歷史突破之后,演化生成了許多不同的網絡模型,主要包括:加深模型、跨連模型、應變模型、區域模型、分割模型、特殊模型和強化模型等。加深模型的代表是VGGNet-16、VGGNet-19和GoogLeNet;跨連模型的代表是HighwayNet、ResNet和DenseNet;應變模型的代表是SPPNet;區域模型的代表是R-CNN、Fast R-CNN、Faster R-CNN、YOLO和SSD;分割模型的代表是FCN、PSPNet和Mask R-CNN;特殊模型的代表是SiameseNet、SqueezeNet、DCGAN、NIN;強化模型的代表是DQN和AlphaGo。
1.2 卷積神經網絡的應用和影響
- 在手寫字符識別方面,MNIST數據集
- 在圖像分類方面,ILSVRC-2012。AlexNet使用了dropout優化技術和ReLU激活函數。
- 在人臉驗證方面,
- 在交通標志識別方面,GTSRB
- 在視頻游戲方面,深度Q-網絡智能體的機器玩家。
- 在視頻分類方面,使用獨立自空間分析(Independent Subspace Analysis, ISA)
- 在語音識別方面,TIMIT音素識別任務
- 在機器翻譯方面,WMT
- 在圍棋程序方面,AlphaGo利用深層網絡和蒙特卡羅樹搜索(Monte Carlo tree search)
1.3 卷積神經網絡的缺陷和視圖
1.3.1 缺陷:可能錯分
-
對抗樣本。對抗樣本是一種含有人類不可感知的微小擾動的非隨機圖像。
-
欺騙圖像。有些人類根本不可能識別的噪聲圖像,卷積神經網絡以高于99%的置信度識別它為一個熟知的對象(比如數字)
1.3.2 解決方法:視圖?
采用可視化技術來分析其數據表達并解釋其工作機理。常用的可視化技術,比如逆變換(inversion)、激活最大化(activatioin maximization)和卡通化(caricaturazation),是以自然原像概念為基礎的。
自然原像就是那些看起來具有顯著自然特征的圖像,就是平常普通照片。通常,一幅圖像經過卷積神經網絡提取特征后,隨著層次的深入,可視化結果會變得越來越模糊和抽象。
卷積神經網絡(Convolutional Neural Network,簡化為ConvNet或CNN)是一種前饋神經網絡,其中信息從輸入到卷積運算符單向流動到輸出[93]。
1.4 卷積神經網絡的平臺和工具
為了在解決各種實際問題中有效地利用深度學習模型,有很多開發平臺和工具。
Theano, TensorFlow, Caffe, Caffe2, CNTK, MXNet, Torch, Deeplearning4J, keras
reference:
H. Cecotti and A. Graser, “Convolutional neural networks for p300 detection with application to brain-computer interfaces,”IEEE transactions on pattern analysis and machine intelligence, vol. 33, no. 3, pp. 433–445, 2010.
深度學習:卷積神經網絡從入門到精通。李玉鑑,張婷
如圖7所示,
這種卷積算子在CNN中至少包括三個堆疊層,包括卷積層convolutional layer,池化層pooling layer和完全連接層fully connected layer。卷積層對張量進行卷積,池化層簡化了基礎計算以減少數據量。完全連接的層將上一層中的每個神經元連接到一個新層,類似于傳統的多層感知器神經網絡。
具有堆疊層的CNN的本質是將輸入數據減少到易于識別的地層,且損失最小,并且可以通過應用CNN捕獲EEG模式的獨特空間依賴性。例如,CNN已被用于從癲癇皮層內數據中自動提取信號特征[22],并執行自動診斷以取代由專家進行的耗時的視力檢查程序[23]。
總結
以上是生活随笔為你收集整理的深度学习~卷积神经网络(CNN)概述的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 机器学习高阶认识(一): 机器学习假设与
- 下一篇: 深度学习~生成式对抗神经网络GAN