當前位置：首頁 >

论文阅读：Multi-scale orderless pooling of deep convolutional activation features

發布時間：2025/3/15 33 豆豆

生活随笔收集整理的這篇文章主要介紹了论文阅读：Multi-scale orderless pooling of deep convolutional activation features 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

2014年ECCV

Motivation

以往的圖像分類，關注的信息可能更容易被干擾。比如下圖中的（a），groundtruth應該是滑雪（ski），但是由于一些其他信息的干擾，導致紅框中框出來的部分被分類為shovel，籃框中被認為是阿爾卑斯山，那么這篇論文就是基于這樣一個motivation，試圖關注圖像中更細節的信息。

Basic Idea

Multi-scale體現在對于同一張輸入圖片，作者做了三個尺度上的變化，第一個，level one就是原圖經過CNN后，提取全連接層的特征，得到一個4096維的向量。第二個和第三個是對圖像做了不同尺度的scale，第二個level每個patch的大小是128*128，第三level和第二個level做的操作是一樣的，區別就是他的每個patch大小是64*64。

Framework

我自己畫了一個非常low的framework圖，對于一張輸入圖像，首先做一個multi-scale，也就是將它分成若干不同大小的patch，然后將其送到一個CNN中訓練，并提取全連接層的特征，再經過一個ReLU變化將所有的值轉化為非負，經過K近鄰和VLAD pooling后，送到線性SVM中訓練并得到結果。再整個過程中，對于每一個patch得到的4096維的全連接層輸出，使用了PCA降維至500，論文中使用了100 k-means 中心，所以將得到一個50000維的向量，但是對于大規模應用來說，這一維度仍然很高，所以作者又再次使用PCA將50000的向量降維至4096維。

Performance

測試過程中考慮到了四種情況的變換：平移，縮放，翻轉和旋轉。如下圖，第一行第一列是原圖，第一行是不同尺度下的scale，第二行是平移，第三行是翻轉和旋轉。

與CNN相比，多種變換下的分類準確率：

注意到在翻轉變換（d）中，水平翻轉后的分類準確率可以達到與原圖相一致，這是因為在CNN中的data層采用了mirror進行了數據增廣，因此對水平翻轉具有很好的識別率。
論文中還做了其他很多實驗，除了在SUN397和MIT Indoor Scenes數據庫上做了Image classification，還在ILSVRC2012/2013上做了Image retrieval。總的來說結果還不錯，不過思想很簡單，包裝的也蠻玄乎的。

總結

以上是生活随笔為你收集整理的论文阅读：Multi-scale orderless pooling of deep convolutional activation features的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： python 无法引入同级目录的方法_再
下一篇：论文阅读：Deep Filter Ban