當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文翻译：ImageNet Classification with Deep Convolutional nerual network

發(fā)布時間：2025/3/15 编程问答 27 豆豆

生活随笔收集整理的這篇文章主要介紹了论文翻译：ImageNet Classification with Deep Convolutional nerual network 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

這篇文章是我大四畢設(shè)的翻譯外文文獻(xiàn)，第一次翻譯，而且以前也沒有接觸過深度學(xué)習(xí)方面的內(nèi)容，很多詞語表述還存在問題，有待修改。

基于深度卷積神經(jīng)網(wǎng)絡(luò)的圖片網(wǎng)絡(luò)分類

Alex Krizhevsky University of Toronto kriz@cs.utoronto.ca
Ilya Sutskever University of Toronto ilya@cs.utoronto.ca
Geoffrey E. Hinton University of Toronto hinton@cs.utoronto.ca

摘要

在 ImageNet LSVRC-2010 競賽中，我們訓(xùn)練了一個龐大的深度卷積神經(jīng)網(wǎng)絡(luò)來將 1.2 億高分辨率圖片分成 1000 種類別。對于測試數(shù)據(jù)的 top-1 和 top-5 錯誤率要比之前最高紀(jì)錄好很多，分別達(dá)到了 37.5%和 17.0%。有 60 億個參數(shù)和 650000 個神經(jīng)元的神經(jīng)網(wǎng)絡(luò) 包含 5 個卷積層，其中的一部分為 max-pooling 層和 3 層帶有最后的 1000 種軟性最大值全連接層。我們利用非飽和神經(jīng)元和一個非常有效的 GPU 來提高卷積操作的訓(xùn)練速度。我們采用了一種最新開發(fā)的正則化方法——DROPOUT 來減少在全連接層的出現(xiàn)過擬合情況，這種方法在實(shí)際運(yùn)行中十分有效。在 ILSVER-2012 比賽中，我們將這一模型進(jìn)行改進(jìn)并且使得 top-5 錯誤率降為 15.3%，，而第二名的錯誤率為 26.2%，由此我們獲得了冠軍。

1、介紹

當(dāng)前的目標(biāo)識別必然要用到機(jī)器學(xué)習(xí)。可以通過采集更大的數(shù)據(jù)集、學(xué)習(xí)更有力的模型和利用更好的技術(shù)阻止過擬合現(xiàn)象來提高效果。目前為止，標(biāo)記圖片的數(shù)據(jù)集相對較小，僅有數(shù)萬量級圖片被標(biāo)記（例如NORB [16], Caltech-101/256 [8, 9], 和CIFAR-10/100 [12]）。這一大小的數(shù)據(jù)集對于解決簡單的識別任務(wù)是足夠的，尤其是當(dāng)它們通過標(biāo)簽保留轉(zhuǎn)化來被增強(qiáng)時。例如，在MNIST 數(shù)字識別任務(wù)中，當(dāng)前最低的錯誤率（<0.3%）幾乎可以和人類的表現(xiàn)相媲美，但目標(biāo)在實(shí)際情況下有相當(dāng)大的區(qū)別，識別的結(jié)果也差強(qiáng)人意，由此擴(kuò)大訓(xùn)練集是十分必要的。實(shí)際上，少量圖像數(shù)據(jù)集的缺點(diǎn)已經(jīng)被廣泛認(rèn)同（比如Pinto et al. [21]），但只是最近才認(rèn)為有必要采集數(shù)以萬計的被標(biāo)記的圖片數(shù)據(jù)集。最近更大的數(shù)據(jù)集包括LabelMe[23]和ImageNet[6]分別由成千上萬的完全分割圖像和超過22000種類的15萬張以上的圖片構(gòu)成。
我們需要一個具有強(qiáng)大學(xué)習(xí)能力的模型使得從數(shù)萬張圖片中得到數(shù)以千計的目標(biāo)。然而，龐大而復(fù)雜的目標(biāo)識別任務(wù)也意味著即使數(shù)據(jù)集像ImageNet那么大，這一問題也不能被明確，因此模型需要大量的預(yù)先知識來彌補(bǔ)之前沒有的數(shù)據(jù)。卷積神經(jīng)網(wǎng)絡(luò)（CNNs）便構(gòu)成了一個這樣的類模型[16, 11, 13, 18, 15,22, 26]。可以通過調(diào)整寬度和深度來控制他們的能力，他們同樣可以做出關(guān)于自然圖片強(qiáng)壯并幾乎正確的假設(shè)（也就是統(tǒng)計平穩(wěn)性和本地像素依賴）。因此，和標(biāo)準(zhǔn)的具有相似大小層的前饋神經(jīng)網(wǎng)絡(luò)相比，CNNs有著更少的連接和參數(shù)，所以更容易去訓(xùn)練，只是理論上的最佳表現(xiàn)會略差一些。
盡管CCNs具有非常好的訓(xùn)練質(zhì)量并且本地架構(gòu)相對效率較高，但是它仍具有高昂的價格來支持一個大規(guī)模的高分辨率圖片集。幸運(yùn)的是，當(dāng)前的GPU搭配高度優(yōu)化的二維卷積可以很好促進(jìn)非常大的CNNs訓(xùn)練，并且像最近ImageNet 這種數(shù)據(jù)集包含了足夠多的標(biāo)記樣本來訓(xùn)練這種模型，并且沒有嚴(yán)重的過擬合現(xiàn)象。
本篇論文主要貢獻(xiàn)如下：我們訓(xùn)練了在ILSVRC-2010和ILSVRC-2012兩次比賽中用到的ImageNet的最大的卷積神經(jīng)網(wǎng)絡(luò)子集，并且取得了比之前所有在此數(shù)據(jù)集上訓(xùn)練取得的更好的結(jié)果。我們寫了二維卷積和其他所有在訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)的固有操作的經(jīng)優(yōu)化的GPU實(shí)現(xiàn)，這部分代碼已經(jīng)公開(http://code.google.com/p/cuda-convnet/)。在第三節(jié)中，我們將詳細(xì)描述網(wǎng)絡(luò)所包含的提高訓(xùn)練表現(xiàn)減少訓(xùn)練時間的最新的獨(dú)特的特征。即使帶有120萬的標(biāo)記訓(xùn)練樣本，但由于網(wǎng)絡(luò)規(guī)模龐大會導(dǎo)致過擬合問題，因此第四節(jié)中將闡述我們利用了多種行之有效的技術(shù)來阻止過擬合現(xiàn)象。我們最終的網(wǎng)絡(luò)包括五層卷積層和三層全連接層，這一深度十分重要，因為我們發(fā)現(xiàn)無論去掉哪一個卷積層（每一層都包含不超過模型中1%的參數(shù)），都會降低測試表現(xiàn)。
最后，我們網(wǎng)絡(luò)的規(guī)模主要局限于GPU的存儲能力和訓(xùn)練時間，我們也希望以后在這兩個問題上有所突破。本網(wǎng)絡(luò)利用五至六天的時間來訓(xùn)練兩個GTX 580 3GB的GPU。所有的實(shí)驗結(jié)果都證明可以通過利用更快的GPU和更大的數(shù) 據(jù)集來提高效率。

2、數(shù)據(jù)集

ImageNet是一個有著超過1.5×107個數(shù)據(jù)、2200個類別的被標(biāo)記的高分辨率圖像的數(shù)據(jù)集。這些圖像均采自網(wǎng)絡(luò)，并由標(biāo)記員利用亞馬遜的Mechanical Turk的crow-sourcing工具進(jìn)行手工標(biāo)記。ImageNet 大規(guī)模視覺識別挑戰(zhàn)（ILSVRC）始于2010年，并作為帕斯卡視覺目標(biāo)挑戰(zhàn)（Pascal Visual Object Challenge）的一部分每年舉辦一次。基于ImageNet的一個子集的ILSVRC從1000 個類別中的分別選出大于1000張圖片。共有大約120萬張訓(xùn)練圖像，50,000張有效圖像和150,000張測試圖像。
在ILSVRC比賽中僅有2010年的測試集帶有標(biāo)簽，因此我們的模型在這次比賽中表現(xiàn)最佳。我們也帶著同樣模型參加了2012年度的比賽，但在這次比賽中測試集中并沒有標(biāo)簽，我們將在第六節(jié)展示在此次比賽中的結(jié)果。在ImageNet 中常用top-1和top-5來表示結(jié)果的好壞。top-5錯誤率是測試圖像的一小部分，在這一小部分圖像中，正確的標(biāo)簽不是模型中最常見的5個標(biāo)簽。
ImageNet包含可變分辨率的圖像，然而我們的系統(tǒng)需要一個連續(xù)的輸入維度。因此我們將圖像下采樣來修正分辨率達(dá)到256 × 256。我們首先重新調(diào)整了圖片使得短邊長度為256，緊接著從中心裁剪出256 × 256大小的塊。除了從訓(xùn) 練集中的每個像素點(diǎn)去掉主要活動以外，沒有通過其他任何方式對圖片進(jìn)去預(yù)處理。因此，我們是在（中心）像素的原RGB值的基礎(chǔ)上來訓(xùn)練網(wǎng)絡(luò)的。

3、架構(gòu)

圖二中總結(jié)了網(wǎng)絡(luò)的架構(gòu)。它包含5個卷積層和3個全連接層。稍后在1到4 小節(jié)將介紹網(wǎng)絡(luò)架構(gòu)的新穎和獨(dú)特之處，并將按照重要性由高到低的次序進(jìn)行展開論述。

3.1 矯正線性單元的非線性化

標(biāo)準(zhǔn)的建立一個神經(jīng)輸入x和輸出f的的公式是f(x)=tanh(x)或f(x)=(1+e?x)?1。就帶有梯度下降的訓(xùn)練時間而言飽和非線性化要比不飽和非線性化f(x)=max(0,x)慢很多。我們將基于Nair和Hinton非線性神經(jīng)稱作矯正線性單元（ReLUs）。基于ReLUs的深度卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練結(jié)果要比基于tanh單元的的網(wǎng)絡(luò)快很多倍。圖一中顯示了針對CIFAR-10數(shù)據(jù)集中的4層卷積層，當(dāng)訓(xùn)練誤差為25%時二者的迭代次數(shù)。該曲線圖說明，我們將不會利用傳統(tǒng)的飽和神經(jīng)模型來在在如此大的神經(jīng)網(wǎng)絡(luò)中做實(shí)驗。
我們不會首先考慮在CNNs中更換傳統(tǒng)的神經(jīng)模型。例如，Jarrett et al. [11]表示在Caltech-101數(shù)據(jù)集上，基于帶有本地平均池的對比正常化類型的非線性方法 f(x)=|tanh(x)|表現(xiàn)的尤為突出。然而，這一數(shù)據(jù)及主要關(guān)心的是阻止過擬合現(xiàn)象，因此他們的關(guān)注點(diǎn)與我們所說的利用ReLUs來提高適應(yīng)訓(xùn)練集能力是不同的。更快的學(xué)習(xí)有利于提高大模型在大數(shù)據(jù)集上的訓(xùn)練表現(xiàn)。

圖1.針對CIFAR-10數(shù)據(jù)集中的4層卷積層，當(dāng)訓(xùn)練誤差率為25%時，ReLUs(實(shí)線)比在同等網(wǎng)絡(luò) 中利用tanh神經(jīng)算法（虛線）快6倍。每個網(wǎng)絡(luò)的學(xué)習(xí)率是獨(dú)立選擇的，目的是使得訓(xùn)練速度盡可能快，且沒有明確的使用規(guī)則。有效性與網(wǎng)絡(luò)架構(gòu)有關(guān)，但在同一網(wǎng)絡(luò)下，ReLUs比飽和神經(jīng)快幾倍。

3.2 在多GPU上訓(xùn)練

一個GTX 580 GPU內(nèi)存只有3GB，很大程度上限制了可訓(xùn)練的最大網(wǎng)絡(luò)數(shù) 量。事實(shí)證明，一個120萬的訓(xùn)練樣本足夠訓(xùn)練一個在一個GPU上運(yùn)行的大網(wǎng) 絡(luò)。因此我們利用兩個GPU來加速網(wǎng)絡(luò)。由于當(dāng)前的GPU可以從另一個內(nèi)存中讀取并寫回，因此非常適合跨GPU平行化。我們所采取的平行化模式需要將一半的核（或神經(jīng)元）放到每一個GPU上，這里有額外的小技巧：GPU只在中心層進(jìn)行讀取和寫回操作。這也就意味著，例如，第三層核的輸入全部來自于第二層的核（maps），而第四層僅將第三層中位于同一GPU的核作為輸入。a量核的網(wǎng)絡(luò)相比，這一模式分別降低了top-1和top-5 1.7%和1.2%的錯誤率。兩個 GPU網(wǎng)絡(luò)輕松地比一個GPU網(wǎng)絡(luò)花費(fèi)了更少的時間。(在最終的卷積層中，一個GPU網(wǎng)絡(luò)實(shí)際上有著和兩個GPU網(wǎng)絡(luò)一樣數(shù)量的核。這是因為大多數(shù)的網(wǎng)絡(luò)參數(shù)都在第一個全連接層中，它們將最后一個卷積層作為輸入。因此為了使兩個網(wǎng)絡(luò)有相同個數(shù)的參數(shù)，我們沒有halve最終卷積層的大小（其后的全連接層也沒有改變）。因此這一比較基于一個GPU支持的網(wǎng)絡(luò)，因為它比有兩個 GPU但是每個大小僅為一半的網(wǎng)絡(luò)更大。)

3.3 局部響應(yīng)正規(guī)化

ReLUs有著不需要輸入正規(guī)化來防止飽和現(xiàn)象的性質(zhì)。如果至少有一些訓(xùn) 練樣本為ReLU產(chǎn)生了積極的輸入，那么將會在這一神經(jīng)元發(fā)生學(xué)習(xí)（動作）。但是，我們?nèi)匀话l(fā)現(xiàn)以下本地規(guī)范化方案來幫助一般化。aix,y 表示一個神經(jīng)元利用核i在位置 $(x, y)$ 處應(yīng)用ReLU線性化的動作，響應(yīng)正規(guī)化動作bix,y 的表達(dá)式為：

bix,y=aix,y/??k+α∑j=max(0,i?n/2)min(N?1,i+n/2)(aix,y)2??βbx,yi=ax,yi/(k+α∑j=max(0,i?n/2)min(N?1,i+n/2)(ax,yi)2)β
這里求和部分超過了在同一空間位置與

nn臨近的核圖（kernel maps），N表示層中核的總數(shù)。當(dāng)然，核圖的順序是任意的，并在訓(xùn)練開始前就已確定。這一局部正規(guī)化使得由真正神經(jīng)元中的類型激發(fā)的側(cè)面抑制創(chuàng)造了計算不同核輸出神經(jīng)元間的大動作的競爭。常量

k, n, α, β

是超參數(shù)，它們的值決定了有效集（validation set）。使

k=2,n=5,α=10?4,β=0.75k=2,n=5,α=10?4,β=0.75。在可能的層應(yīng)用ReLU線性化之后，我們應(yīng)用了這一正規(guī)化（見3.5部分）。這一模式降低了局部正規(guī)化和Jarrett et al. [11]的正規(guī)化相似度，但由于我們沒有去掉平均動作，所以應(yīng)該更加正確的措辭“亮度正規(guī)化（brightness normalization）”。響應(yīng)正規(guī)化分別降低了1.4%和1.2%top-1和top-5的錯誤率。我們同樣證實(shí)了在CIFAR-10數(shù)據(jù)集上這一模式的效果：一個四層的CNN在沒有正規(guī)化的情況下達(dá)到了13%的錯誤率，在有正規(guī)化的情況下達(dá)到了11%的錯誤率。(由于空間有限，這里不能詳細(xì)描述網(wǎng)絡(luò)細(xì)節(jié)，詳情請登錄 http://code.google.com/p/cuda-convnet/查看代碼和參數(shù)文件。)

3.4 重疊pooling

CNNs中的Pooling層總結(jié)了同一核圖中鄰組神經(jīng)元的輸出。傳統(tǒng)上來說，通過相鄰pooling單元匯總的部分并不重疊（例如[17,11,4]）。更準(zhǔn)確來說， pooling層可以被認(rèn)為是按照s像素大小分割的pooling單元的坐標(biāo)圖，每個都匯總了一個大小為z×z位于pooling單元的中心的相鄰的pooling單元。如果設(shè)s=z，那么便能得到一個在CNN網(wǎng)絡(luò)中常見的傳統(tǒng)本地pooling。如果設(shè)s<z，那么將得到一個重疊pooling。s=2,z=3是整個網(wǎng)絡(luò)中使用的參數(shù)。與未重疊模式中設(shè)s=2,z=2相比，重疊模式分別降低了top-1和top-5錯誤率0.4%和0.3%，這兩種模式有著相同的維度輸出。由此我們可以得出，在訓(xùn)練過程中，帶有重疊 Pooling的模型不太容易出現(xiàn)過擬合現(xiàn)象。

3.5 整體架構(gòu)

這部分將開始介紹我們的CNN網(wǎng)絡(luò)的的整體架構(gòu)。正如圖2中描述的一樣，網(wǎng)絡(luò)包括帶weights的8層結(jié)構(gòu)；前5層是卷積層，接下來的是三層全連接層。最后的全連接層將輸出到一個產(chǎn)生超過1000類標(biāo)簽的1000中softmax層。我們的網(wǎng)絡(luò)最大化了多項式邏輯回歸目標(biāo)，這一方式等效于最大化訓(xùn)練實(shí)例在預(yù) 分配下正確的標(biāo)記的概率對數(shù)值的平均值。
第二、四、五卷積層的核只與那些位于同一GPU的前一層核圖相連接（見圖 2）。第三卷積層與第二層的所有核圖都相連接。在全連接層中的神經(jīng)元與前一層神經(jīng)元相連接。3.4節(jié)所描述的Max-pooling（最大池）層同時跟隨者反饋正規(guī) 化層與第五卷積層。ReLU非線性化被用于每一層卷積層與全連接層的輸出。第一卷積層過濾的是大小為224 × 224 × 3，同時帶有步長為4個像素大小的96 個大小為11 × 11 × 3的核的圖像（步長指的是同一核圖中相鄰神經(jīng)元接受域中心的距離）。第二卷積層將第一卷積層的輸出最為輸入，并將其過濾為256個大小為5 × 5 × 48大小的核（反饋正規(guī)化和池化）。第三卷積層有384個大小為3 × 3 × 256的核，并與第二卷基層的輸出相連接（正規(guī)化，池化）。第四卷積層有384個大小為3 × 3 × 192的核。第五卷積層有256個大小為3 × 3 × 192的核。每個全連接層有4096個神經(jīng)元。

圖 2 我們CNN網(wǎng)絡(luò)的一個說明，尤其展示了兩個GPU間的責(zé)任描述。一個GPU在圖像頂部運(yùn)行l(wèi)ayer-parts，而另一個GPU上在底部運(yùn)行。GPU之間僅在中心層進(jìn)行交流。網(wǎng)絡(luò)的輸入是150,528維度，網(wǎng)絡(luò)中剩余層的神經(jīng)元個數(shù)是：253,440–186,624–64,896–64,896–43,264– 4096–4096–1000。

4、減少過擬合

我們的神經(jīng)網(wǎng)絡(luò)架構(gòu)有六千萬個參數(shù)。盡管ILSVRC的1000種類別使得每個訓(xùn)練樣本從圖片到標(biāo)簽都將10位約束強(qiáng)加于mapping，但結(jié)果證明在沒有大量的過擬合現(xiàn)象的情況下，學(xué)習(xí)如此多的參數(shù)是不足的。因此，我們將描述減少過擬合現(xiàn)象的兩個主要方法。

4.1 增強(qiáng)數(shù)據(jù)

在圖像數(shù)據(jù)上減少過擬合現(xiàn)象最簡單也最常見的方法是利用標(biāo)簽保留轉(zhuǎn)換方式人為擴(kuò)大數(shù)據(jù)集（e.g., [25, 4, 5]）。我們采用了兩種不同的增強(qiáng)數(shù)據(jù)的方法，兩種方式都允許將原始圖片進(jìn)行很少的計算后生成變換圖像。因此變換圖像不需要存儲在硬盤上。在我們的實(shí)現(xiàn)過程中，在CPU上用Python代碼生成變換圖像而GPU上訓(xùn)練上一批圖像。所以實(shí)際上，這些數(shù)據(jù)增強(qiáng)模式幾乎是沒有計算量的。
第一種數(shù)據(jù)增強(qiáng)的方式由生成圖像的轉(zhuǎn)換和水平映射組成。我們通過從 256 × 256個圖像中隨機(jī)抽取224 × 224個補(bǔ)丁（和對應(yīng)的水平映射），并在這些補(bǔ)丁上訓(xùn)練網(wǎng)絡(luò)(這就是為什么在圖二中輸入圖像是224 × 224 × 3維度)。盡管最終的訓(xùn)練樣本是高度相互依存的，但這種方式將訓(xùn)練集擴(kuò)大了2048倍。如果不采用這種模式，網(wǎng)絡(luò)將會產(chǎn)生大量的過擬合現(xiàn)象，并將使我們不得不使用更小的網(wǎng)絡(luò)。在測試時，網(wǎng)絡(luò)通過抽取5個224 × 224大小的補(bǔ)丁（四個邊角補(bǔ)丁和一個中心補(bǔ)丁）和對應(yīng)的水平映射（共計10個補(bǔ) 丁）做出了預(yù)測，并用在10個補(bǔ)丁上的網(wǎng)絡(luò)的softmax層來計算預(yù)測值的平均值。
第二種數(shù)據(jù)增強(qiáng)的方式通過改變訓(xùn)練圖像的RGB通道值實(shí)現(xiàn)。具體來說就是將PCA在RGB像素值上運(yùn)行，其中像素值變化范圍在ImageNet訓(xùn)練集內(nèi)。對于每一個訓(xùn)練圖像，將對相應(yīng)的特征值按比例成倍的添加主成分，并通過均值為零，標(biāo)準(zhǔn)差為0.1的高斯函數(shù)繪制隨機(jī)變量。因此對于每一個RGB圖像值
Ix,y=[IRx,y,IGx,y,IBx,y]T，添加如下內(nèi)容：

[p1,p2,p3][α1λ1,α2λ2,α3λ3,][p1,p2,p3][α1λ1,α2λ2,α3λ3,]
這里，

pipi和

λiλi分別表示第

ii個特征向量和3 × 3的協(xié)方差矩陣的RGB像素特征值，

α i

是前面所說的隨機(jī)變量。對于一個特定的訓(xùn)練圖像的全部像素，每個

αiαi僅被繪制一次，在圖像被再次訓(xùn)練之前，該點(diǎn)將被再次繪制。這一模式能夠大致捕獲自然圖像的重要性能，也就是說，目標(biāo)識別對于強(qiáng)度改變和光照顏色是不變的。這一模式減少了1%的top-1錯誤率。

4.2 Dropout

將眾多不同的模型預(yù)測結(jié)合起來是減少錯誤率[1,3]最成功的方法，但對于大的神經(jīng)網(wǎng)絡(luò)來說，花費(fèi)許多天來訓(xùn)練的代價太昂貴了。但有一個非常有效的模型結(jié)合版本僅需要花費(fèi)一半的訓(xùn)練時間。最新介紹的技術(shù)——Dropout，將每個可能值為0.5的隱藏神經(jīng)元的輸出設(shè)為0。這種將神經(jīng)元“dropped out”的方法不會導(dǎo)致前向傳播和反向傳播。因此，每當(dāng)一個輸入被確定后，神經(jīng)網(wǎng)絡(luò)會采樣一個不同的結(jié)構(gòu) ，但是所有的這些結(jié)構(gòu)都會共享權(quán)重。由于神經(jīng)元不能依賴于其它特定的神經(jīng)元，因此這一技術(shù)降低了神經(jīng)元間相互適應(yīng)的復(fù)雜度。因此，神經(jīng)元必須去學(xué)習(xí)更強(qiáng)健的、與其他神經(jīng)元的不同的自由子集相聯(lián)系時更有用的特征。在測試時，我們將所有的神經(jīng)元輸出改為原來的0.5倍，這是一種合理的通過指數(shù)級dropout網(wǎng)絡(luò)產(chǎn)生的預(yù)測分布的幾何均值近似方法。
圖1中，在前兩個全連接層使用dropout。如果不使用dropout，網(wǎng)絡(luò)將產(chǎn)生大量的過擬合。Dropout粗略的將迭代次數(shù)降至收斂范圍內(nèi)。

5、學(xué)習(xí)的細(xì)節(jié)

我們按照一個批次128個樣例大小采用隨機(jī)梯度下降法訓(xùn)練模型，動量值為 0.9，權(quán)重衰減值為0.0005。我們發(fā)現(xiàn)權(quán)重衰減值對于模型的學(xué)習(xí)非常重要。也就是說，權(quán)值衰減值不僅僅是一個正則化矩陣，它也降低了模型的訓(xùn)練錯誤。權(quán)值w的更新規(guī)則是 $v i + 1 : = 0.9 v i ? 0.0005 ? ? ? w i ? ? ? ? ? L ? ω | w i ? D i$

wi:=wi+wi+1wi:=wi+wi+1
這里，

ii是迭代下標(biāo)，

v

是動量變量，

??是學(xué)習(xí)率，

??L?ω|wi?Di??L?ω|wi?Di是第

ii個塊

D i

在目標(biāo)

ww<script type="math/tex" id="MathJax-Element-38">w</script>處的導(dǎo)數(shù)的平均值。在每一層，將權(quán)值初始化為均值為0，標(biāo)準(zhǔn)差為0.01的高斯分布。在第二、四、五卷積層和隱藏的全連接層將神經(jīng)元偏差初始化為常量1。這一初始化方式通過提供ReLUs的積極輸入加速了早期的學(xué)習(xí)。在其他層，將神經(jīng)元偏差初始化為常量0。
在訓(xùn)練過程中，我們手動調(diào)節(jié)所有層的學(xué)習(xí)率并保持一致。我們所采用的啟發(fā)式目的是為了當(dāng)有效錯誤率不再隨著當(dāng)前學(xué)習(xí)率的變化而增長時將學(xué)習(xí)率除10。學(xué)習(xí)率初始值為0.01，并在結(jié)束前遞減三次。我們的網(wǎng)絡(luò)訓(xùn)練90次循環(huán) 120萬張圖片需要用兩個NVIDIA GTX型3GB大小的GPU，花費(fèi)5至6天。

6、結(jié)果

我們在ILSVRC-2010集的結(jié)果在表1中列出。我們的網(wǎng)絡(luò)top-1和top-5的錯誤率分別達(dá)到了37.5%和17.0%。(4.1節(jié)中所闡述的沒有計算10個補(bǔ)丁塊的平均預(yù)測值的top-1和top-5的錯誤率分別為39.0%和18.3%。此前，在ILSVRC-2010競賽中最好的表現(xiàn)是47.1%和和 28.2%，這一值與訓(xùn)練在不同特征上的6個稀疏編碼模型平均預(yù)測值相接近[2]，自從那以后，最好的結(jié)果為45.7%和25.7%，這一值與訓(xùn)練在Fisher Vectors(FVs) 集的兩個分類器，根據(jù)兩類密集采樣特征計算的預(yù)測平均值相接近[24]。)

表 1. ILSVRC-2010 的測試結(jié)果對比。斜體標(biāo)出的是其他人做出的最好結(jié)果。

圖 3.由第一卷積層大小為224 × 224 × 3的輸入圖像學(xué)習(xí)的 96 個大小為11 × 11 × 3的卷積核。頂層的 48 個核在 GPU1 上學(xué)習(xí)，底層的在 GPU2 上學(xué)習(xí)。詳見 6.1 節(jié)。

表 2.ILSVRC-2012 中有效集和測試集錯誤率的對比。斜體標(biāo)出的是其他人做出的最好結(jié)果。帶有星號*標(biāo)記的模型是為了將全部的 ImageNet 2011 Fall 版本進(jìn)行分類的“預(yù)訓(xùn)練”。詳見第 6 節(jié)。
我們也同樣參加了 ILSVRC-2012 比賽，并將結(jié)果統(tǒng)計在了表 2 中。由于 ILSVRC-2012 測試集標(biāo)記并不公開，因此我們不能夠?qū)⑺杏?xùn)練的測試結(jié)果的錯誤率公布。其它段中，由于以我們的經(jīng)驗來看，有效錯誤率和測試錯誤相差不超過 0.1%（見表 2），因此我們將其視為可交換的值。本篇論文中所描述的 CNN 的 top-5 錯誤率達(dá)到 18.2%。5 個近似的 CNN 的平均預(yù)測錯誤率值為 16.4%。在額外的 6 個卷積層和最后一個 Pooling 層訓(xùn)練 CNN 來分類 ImageNet 2011 Fall 的全部版本（15M 圖片，22K 類），然后在 ILSVRC-2012 進(jìn)行“微調(diào)”可使錯誤率達(dá)到 16.6%。將在 ImageNet 2011 Fall 的全部版本上預(yù)訓(xùn)練的兩個 CNN 和前面所提到的五個 CNN 計算均值后，錯誤率為 15.3%。根據(jù)比賽記錄，第二佳的錯誤率為 26.2%，這一值與訓(xùn)練在 FVs 上的若干分類器，根據(jù)不同類型的密集采樣特征計算的預(yù)測平均值相接近。
最后，我們同樣公布了在 Fall 2009 版本中 ImageNet 10184 個類別 890 萬張圖片的錯誤率結(jié)果。在數(shù)據(jù)集中，我們遵循了文獻(xiàn)中要求的一半的圖片用來訓(xùn)練另一半用來測試的約定。由于沒有已建立好的測試集，我們的分割需要與以往的的分割不同，但是這并沒有明顯的影響結(jié)果。在這一數(shù)據(jù)集中 top-1 和 top-5 的錯誤率分別為 67.4%和 40.9%，采用的是描述的全部的網(wǎng)絡(luò)以及額外的六個卷積層和最后一個 pooling 層。在這一數(shù)據(jù)集中最好的結(jié)果是 78.1%和 60.9%。

圖 4.（左側(cè)）8 個 ILSVRC-2010 測試圖像和 5 個模型認(rèn)為最可能的標(biāo)簽。正確的標(biāo)簽寫在了每張圖像的下方，可能正確的標(biāo)簽也用紅色條顯示了出來（如果它出現(xiàn)在前五個）。（右側(cè)）第一列是 5 個 ELSVEC-2010 測試圖像。其他列則顯示了 6 個訓(xùn)練圖像，它們在隱藏層的特征向量與測試圖像的特征向量的歐幾里得距離最小。

6.1 定性評估

圖3描述了通過網(wǎng)絡(luò)的兩個數(shù)據(jù)連接層學(xué)習(xí)的卷積核。網(wǎng)絡(luò)已經(jīng)學(xué)習(xí)了多種頻率選擇核和定向選擇核，以及多種色彩塊（blobs）。注意在3.5節(jié)中特別描述的兩個GPU，是嚴(yán)格連接的結(jié)果。第一個GPU中的核多半是顏色不可知的，而另一塊GPU中的核多半是顏色可知的。這種專門化在每次運(yùn)行中都會出現(xiàn)，同時它也是獨(dú)立于特定的隨機(jī)權(quán)值初始化的（對重新編號的GPU取模）。圖4左半部分定性的評估了網(wǎng)絡(luò)在8個測試圖像中通過計算top-5預(yù)測值的學(xué)習(xí)內(nèi)容。注意，即使是不在中心的目標(biāo)，比如左上角的小蟲子，網(wǎng)絡(luò)也能夠?qū)⑵渥R別出來。大部分的top-5標(biāo)簽是有原因出現(xiàn)的。例如，對于豹子來說，只有其他類型的貓才會被模糊的識別為豹子。在某些情況下（格柵，櫻桃），圖像的預(yù)重點(diǎn) 的確是模棱兩可的。
其他探尋網(wǎng)絡(luò)的視覺知識是在圖像的最后4096維隱藏層考慮特征激活引誘方式。如果兩個圖片的特征激活向量是一個小的歐幾里得分離，那么可以說二者神經(jīng)網(wǎng)絡(luò)的高層部分是相似的。圖4展示了5個來自測試集的圖片和6張來自訓(xùn) 練集的圖片，根據(jù)這一衡量標(biāo)準(zhǔn)，它們之間是最相似的。注意，在像素級別，補(bǔ)償訓(xùn)練圖片一般并不與第一列的查詢圖片L2相近。例如，檢索到的狗和大象的姿態(tài)多種多樣。我們展示了在補(bǔ)充材料中更過的測試圖像結(jié)果。
通過計算兩個4096維真值向量的歐幾里得距離來計算相似度是無效的，但是可以通過訓(xùn)練一個能夠?qū)⑦@些向量壓縮為短二值編碼的自動編碼器來使得這一方法行之有效。這要產(chǎn)生一種比自動編碼未經(jīng)處理的像素更好的圖像檢索方法，這種方法并不利用圖像的標(biāo)簽，因此不管邊緣圖案是否語義相似，它們都提供了這一種檢索圖像的趨勢。

7、討論

我們的結(jié)果展示了一個大而深的卷積神經(jīng)網(wǎng)絡(luò)是有能力在高挑戰(zhàn)性的數(shù)據(jù) 集上通過純粹的有監(jiān)督學(xué)習(xí)打破記錄。值得注意的是，如果移除一層卷積層我們的網(wǎng)絡(luò)性能會降低。例如，移除任何中間的一層都會導(dǎo)致網(wǎng)絡(luò)的top-1性能損失2%。因此，對于達(dá)到這樣的結(jié)果，網(wǎng)絡(luò)的深度尤為重要。
為了簡化實(shí)驗，我們沒有使用任何非監(jiān)督式預(yù)訓(xùn)練，即使我們也希望會用效果，尤其如果我們獲得足夠的計算能力來大幅度擴(kuò)大網(wǎng)絡(luò)規(guī)模，在沒有獲得相應(yīng)數(shù)量的標(biāo)簽數(shù)據(jù)。目前為止，我們擴(kuò)大了網(wǎng)絡(luò)并增加了訓(xùn)練時間，結(jié)果由此得到提升，但是為了達(dá)到可以人類的視覺系統(tǒng)相媲美的結(jié)果我們?nèi)杂写罅康?工作要做。最后，我們非常愿意將大而深的卷積網(wǎng)絡(luò)應(yīng)用于視頻序列上，時間結(jié)構(gòu)提供了一個丟失或靜態(tài)圖像并不明顯的非常有用的信息。

參考文獻(xiàn)

[1] R.M. Bell and Y. Koren. Lessons from the netflix prize challenge. ACM SIGKDD Explorations Newsletter,9(2):75–79, 2007.
[2] A. Berg, J. Deng, and L. Fei-Fei. Large scale visual recognition challenge 2010. www.imagenet.org/challenges. 2010.
[3] L. Breiman. Random forests. Machine learning, 45(1):5–32, 2001.
[4] D. Cire?san, U. Meier, and J. Schmidhuber. Multi-column deep neural networks for image classification.Arxiv preprint arXiv:1202.2745, 2012.
[5] D.C. Cire?san, U. Meier, J. Masci, L.M. Gambardella, and J. Schmidhuber. High- performance neural networks for visual object classification. Arxiv preprint arXiv:1102.0183, 2011.
[6] J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei-Fei. ImageNet: A Large- Scale Hierarchical Image Database. In CVPR09, 2009.
[7] J. Deng, A. Berg, S. Satheesh, H. Su, A. Khosla, and L. Fei-Fei. ILSVRC-2012, 2012. URL http://www.image-net.org/challenges/LSVRC/2012/.
[8] L. Fei-Fei, R. Fergus, and P. Perona. Learning generative visual models from few training examples: An incremental bayesian approach tested on 101 object categories. Computer Vision and Image Understanding,106(1):59–70, 2007.

[9] G. Griffin, A. Holub, and P. Perona. Caltech-256 object category dataset. Technical Report 7694, California Institute of Technology, 2007. URL http://authors.library.caltech.edu/7694.
[10] G.E. Hinton, N. Srivastava, A. Krizhevsky, I. Sutskever, and R.R. Salakhutdinov.
Improving neural networks
by preventing co-adaptation of feature detectors. arXiv preprint arXiv:1207.0580, 2012.
[11] K. Jarrett, K. Kavukcuoglu, M. A. Ranzato, and Y. LeCun. What is the best multi-stage architecture for object recognition? In International Conference on Computer Vision, pages 2146–2153. IEEE, 2009.
[12] A. Krizhevsky. Learning multiple layers of features from tiny images. Master’s thesis, Department of Computer Science, University of Toronto, 2009.
[13] A. Krizhevsky. Convolutional deep belief networks on cifar-10. Unpublished manuscript, 2010.
[14] A. Krizhevsky and G.E. Hinton. Using very deep autoencoders for content-based image retrieval. In ESANN, 2011.
[15] Y. Le Cun, B. Boser, J.S. Denker, D. Henderson, R.E. Howard, W. Hubbard,
L.D. Jackel, et al. Handwritten digit recognition with a back-propagation network. In Advances in neural information processing systems, 1990.
[16] Y. LeCun, F.J. Huang, and L. Bottou. Learning methods for generic object recognition with invariance to pose and lighting. In Computer Vision and Pattern Recognition, 2004. CVPR 2004. Proceedings of the 2004 IEEE Computer Society Conference on, volume 2, pages II–97. IEEE, 2004.
[17] Y. LeCun, K. Kavukcuoglu, and C. Farabet. Convolutional networks and applications in vision. In Circuits and Systems (ISCAS), Proceedings of 2010 IEEE International Symposium on, pages 253–256.IEEE, 2010.
[18] H. Lee, R. Grosse, R. Ranganath, and A.Y. Ng. Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations. In Proceedings of the 26th Annual International Conference on Machine Learning, pages 609–616. ACM, 2009.
[19] T. Mensink, J. Verbeek, F. Perronnin, and G. Csurka. Metric Learning for Large Scale Image Classification:Generalizing to New Classes at Near-Zero Cost. In ECCV - European Conference on Computer Vision, Florence, Italy, October 2012.
[20] V. Nair and G. E. Hinton. Rectified linear units improve restricted boltzmann machines. In Proc. 27th International Conference on Machine Learning, 2010.
[21] N. Pinto, D.D. Cox, and J.J. DiCarlo. Why is real-world visual object recognition hard? PLoS computational biology, 4(1):e27, 2008.
[22] N. Pinto, D. Doukhan, J.J. DiCarlo, and D.D. Cox. A high-throughput screening approach to discovering good forms of biologically inspired visual representation. PLoS computational biology, 5(11):e1000579,2009.
[23] B.C. Russell, A. Torralba, K.P. Murphy, and W.T. Freeman. Labelme: a database and web-based tool for image annotation. International journal of computer vision, 77(1):157–173, 2008.
[24] J. Sánchez and F. Perronnin. High-dimensional signature compression for large- scale image classification.In Computer Vision and Pattern Recognition (CVPR), 2011 IEEE Conference on, pages 1665–1672. IEEE,2011.
[25] P.Y. Simard, D. Steinkraus, and J.C. Platt. Best practices for convolutional neural networks applied to visual document analysis. In Proceedings of the Seventh International Conference on Document Analysis and Recognition, volume 2, pages 958–962, 2003.
[26] S.C. Turaga, J.F. Murray, V. Jain, F. Roth, M. Helmstaedter, K. Briggman,W. Denk, and H.S. Seung. Convolutionalnetworks can learn to generate affinity graphs for image segmentation. Neural Computation,22(2):511–538, 2010.

總結(jié)

以上是生活随笔為你收集整理的论文翻译：ImageNet Classification with Deep Convolutional nerual network的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： python闭包应用实例_Python中
下一篇： caffe教程翻译：Alex’s CIF