Stanford UFLDL教程 卷积特征提取
卷積特征提取
Contents[hide]
|
概述
前面的練習中,解決了一些有關低分辨率圖像的問題,比如:小塊圖像,手寫數字小幅圖像等。在這部分中,我們將把已知的方法擴展到實際應用中更加常見的大圖像數據集。
全聯通網絡
在稀疏自編碼章節中,我們介紹了把輸入層和隱含層進行“全連接”的設計。從計算的角度來講,在其他章節中曾經用過的相對較小的圖像(如在稀疏自編碼的作業中用到過的 8x8 的小塊圖像,在MNIST數據集中用到過的28x28 的小塊圖像),從整幅圖像中計算特征是可行的。但是,如果是更大的圖像(如 96x96 的圖像),要通過這種全聯通網絡的這種方法來學習整幅圖像上的特征,從計算角度而言,將變得非常耗時。你需要設計 10 的 4 次方(=10000)個輸入單元,假設你要學習 100 個特征,那么就有 10 的 6 次方個參數需要去學習。與 28x28 的小塊圖像相比較, 96x96 的圖像使用前向輸送或者后向傳導的計算方式,計算過程也會慢 10 的 2 次方(=100)倍。
部分聯通網絡
解決這類問題的一種簡單方法是對隱含單元和輸入單元間的連接加以限制:每個隱含單元僅僅只能連接輸入單元的一部分。例如,每個隱含單元僅僅連接輸入圖像的一小片相鄰區域。(對于不同于圖像輸入的輸入形式,也會有一些特別的連接到單隱含層的輸入信號“連接區域”選擇方式。如音頻作為一種信號輸入方式,一個隱含單元所需要連接的輸入單元的子集,可能僅僅是一段音頻輸入所對應的某個時間段上的信號。)
網絡部分連通的思想,也是受啟發于生物學里面的視覺系統結構。視覺皮層的神經元就是局部接受信息的(即這些神經元只響應某些特定區域的刺激)。
卷積
自然圖像有其固有特性,也就是說,圖像的一部分的統計特性與其他部分是一樣的。這也意味著我們在這一部分學習的特征也能用在另一部分上,所以對于這個圖像上的所有位置,我們都能使用同樣的學習特征。
更恰當的解釋是,當從一個大尺寸圖像中隨機選取一小塊,比如說 8x8 作為樣本,并且從這個小塊樣本中學習到了一些特征,這時我們可以把從這個 8x8 樣本中學習到的特征作為探測器,應用到這個圖像的任意地方中去。特別是,我們可以用從 8x8 樣本中所學習到的特征跟原本的大尺寸圖像作卷積,從而對這個大尺寸圖像上的任一位置獲得一個不同特征的激活值。
下面給出一個具體的例子:假設你已經從一個 96x96 的圖像中學習到了它的一個 8x8 的樣本所具有的特征,假設這是由有 100 個隱含單元的自編碼完成的。為了得到卷積特征,需要對 96x96 的圖像的每個 8x8 的小塊圖像區域都進行卷積運算。也就是說,抽取 8x8 的小塊區域,并且從起始坐標開始依次標記為(1,1),(1,2),...,一直到(89,89),然后對抽取的區域逐個運行訓練過的稀疏自編碼來得到特征的激活值。在這個例子里,顯然可以得到 100 個集合,每個集合含有 89x89 個卷積特征。
假設給定了 的大尺寸圖像,將其定義為xlarge。首先通過從大尺寸圖像中抽取的 的小尺寸圖像樣本xsmall 訓練稀疏自編碼,計算 f = σ(W(1)xsmall + b(1))(σ 是一個 sigmoid 型函數)得到了 k 個特征, 其中 W(1) 和b(1) 是可視層單元和隱含單元之間的權重和偏差值。對于每一個 大小的小圖像xs,計算出對應的值 fs = σ(W(1)xs +b(1)),對這些 fconvolved 值做卷積,就可以得到 個卷積后的特征的矩陣。
在接下來的章節里,我們會更進一步描述如何把這些特征匯總到一起以得到一些更利于分類的特征。
中英文對照
《新程序員》:云原生和全面數字化實踐50位技術專家共同創作,文字、視頻、音頻交互閱讀
總結
以上是生活随笔為你收集整理的Stanford UFLDL教程 卷积特征提取的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Stanford UFLDL教程 线性解
- 下一篇: Stanford UFLDL教程 数据预