日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文阅读:Multi-scale orderless pooling of deep convolutional activation features

發布時間:2025/3/15 编程问答 22 豆豆
生活随笔 收集整理的這篇文章主要介紹了 论文阅读:Multi-scale orderless pooling of deep convolutional activation features 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

2014年ECCV



Motivation

以往的圖像分類,關注的信息可能更容易被干擾。比如下圖中的(a),groundtruth應該是滑雪(ski),但是由于一些其他信息的干擾,導致紅框中框出來的部分被分類為shovel,籃框中被認為是阿爾卑斯山,那么這篇論文就是基于這樣一個motivation,試圖關注圖像中更細節的信息。

Basic Idea

Multi-scale體現在對于同一張輸入圖片,作者做了三個尺度上的變化,第一個,level one就是原圖經過CNN后,提取全連接層的特征,得到一個4096維的向量。第二個和第三個是對圖像做了不同尺度的scale,第二個level每個patch的大小是128*128,第三level和第二個level做的操作是一樣的,區別就是他的每個patch大小是64*64。

Framework

我自己畫了一個非常low的framework圖,對于一張輸入圖像,首先做一個multi-scale,也就是將它分成若干不同大小的patch,然后將其送到一個CNN中訓練,并提取全連接層的特征,再經過一個ReLU變化將所有的值轉化為非負,經過K近鄰和VLAD pooling后,送到線性SVM中訓練并得到結果。再整個過程中,對于每一個patch得到的4096維的全連接層輸出,使用了PCA降維至500,論文中使用了100 k-means 中心,所以將得到一個50000維的向量,但是對于大規模應用來說,這一維度仍然很高,所以作者又再次使用PCA將50000的向量降維至4096維。

Performance

測試過程中考慮到了四種情況的變換:平移,縮放,翻轉和旋轉。如下圖,第一行第一列是原圖,第一行是不同尺度下的scale,第二行是平移,第三行是翻轉和旋轉。

與CNN相比,多種變換下的分類準確率:


注意到在翻轉變換(d)中,水平翻轉后的分類準確率可以達到與原圖相一致,這是因為在CNN中的data層采用了mirror進行了數據增廣,因此對水平翻轉具有很好的識別率。
論文中還做了其他很多實驗,除了在SUN397和MIT Indoor Scenes數據庫上做了Image classification,還在ILSVRC2012/2013上做了Image retrieval。總的來說結果還不錯,不過思想很簡單,包裝的也蠻玄乎的。

總結

以上是生活随笔為你收集整理的论文阅读:Multi-scale orderless pooling of deep convolutional activation features的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。