日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 >

论文阅读:Multi-scale orderless pooling of deep convolutional activation features

發布時間:2025/3/15 33 豆豆
生活随笔 收集整理的這篇文章主要介紹了 论文阅读:Multi-scale orderless pooling of deep convolutional activation features 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

2014年ECCV



Motivation

以往的圖像分類,關注的信息可能更容易被干擾。比如下圖中的(a),groundtruth應該是滑雪(ski),但是由于一些其他信息的干擾,導致紅框中框出來的部分被分類為shovel,籃框中被認為是阿爾卑斯山,那么這篇論文就是基于這樣一個motivation,試圖關注圖像中更細節的信息。

Basic Idea

Multi-scale體現在對于同一張輸入圖片,作者做了三個尺度上的變化,第一個,level one就是原圖經過CNN后,提取全連接層的特征,得到一個4096維的向量。第二個和第三個是對圖像做了不同尺度的scale,第二個level每個patch的大小是128*128,第三level和第二個level做的操作是一樣的,區別就是他的每個patch大小是64*64。

Framework

我自己畫了一個非常low的framework圖,對于一張輸入圖像,首先做一個multi-scale,也就是將它分成若干不同大小的patch,然后將其送到一個CNN中訓練,并提取全連接層的特征,再經過一個ReLU變化將所有的值轉化為非負,經過K近鄰和VLAD pooling后,送到線性SVM中訓練并得到結果。再整個過程中,對于每一個patch得到的4096維的全連接層輸出,使用了PCA降維至500,論文中使用了100 k-means 中心,所以將得到一個50000維的向量,但是對于大規模應用來說,這一維度仍然很高,所以作者又再次使用PCA將50000的向量降維至4096維。

Performance

測試過程中考慮到了四種情況的變換:平移,縮放,翻轉和旋轉。如下圖,第一行第一列是原圖,第一行是不同尺度下的scale,第二行是平移,第三行是翻轉和旋轉。

與CNN相比,多種變換下的分類準確率:


注意到在翻轉變換(d)中,水平翻轉后的分類準確率可以達到與原圖相一致,這是因為在CNN中的data層采用了mirror進行了數據增廣,因此對水平翻轉具有很好的識別率。
論文中還做了其他很多實驗,除了在SUN397和MIT Indoor Scenes數據庫上做了Image classification,還在ILSVRC2012/2013上做了Image retrieval。總的來說結果還不錯,不過思想很簡單,包裝的也蠻玄乎的。

總結

以上是生活随笔為你收集整理的论文阅读:Multi-scale orderless pooling of deep convolutional activation features的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。