目标检测--Selective Search for Object Recognition(IJCV, 2013)
Selective Search for Object Recognition
作者:?J. R. R. Uijlings, K. E. A. van de Sande, T. Gevers, A. W. M. Smeulders.
引用:?Uijlings, Jasper RR, et al. "Selective search for object recognition." International journal of computer vision, 104(2) (2013): 154-171.
引用次數(shù): 803(Google Scholar,by 2016/11/29).
項(xiàng)目地址:?http://disi.unitn.it/~uijlings/MyHomepage/index.php#page=projects1
這是一篇2013年發(fā)表的文章,應(yīng)該是下面2011年ICCV會(huì)議論文的擴(kuò)展:
Van, de Sande, Koen E A, et al. "Segmentation as selective search for object recognition. "?IEEE International Conference on Computer Vision, ICCV 2011, Barcelona, Spain, November?2011:1879-1886.
1 介紹
如何定位一張圖像上的目標(biāo)(比如"牛")? 處理的流程可以是這樣的:
第一步: 將圖像劃分成很多的小區(qū)域(regions);
第二步: 判定每個(gè)區(qū)域是屬于"牛"的還是"非牛",將屬于"牛"的區(qū)域進(jìn)行合并,就定位到牛了!
解釋:
第一步解釋: 如何將圖像劃分成很多的小區(qū)域? 劃分的方式應(yīng)該有很多種,比如: 1)等間距劃分grid cell,這樣劃分出來的區(qū)域每個(gè)區(qū)域的大小相同,但是每個(gè)區(qū)域里面包含的像素分布不均勻,隨機(jī)性大;同時(shí),不能滿足目標(biāo)多尺度的要求(當(dāng)然,可以用不同的尺度劃分grid cell,這稱為Exhaustive Search, 計(jì)算復(fù)雜度太大)! 2)使用邊緣保持超像素劃分; 3)使用本文提出的Selective Search(SS)的方法來找到最可能的候選區(qū)域;
其實(shí)這一步可以看做是對(duì)圖像的過分割,都是過分割,本文SS方法的過人之處在于預(yù)先劃分的區(qū)域什么大小的都有(滿足目標(biāo)多尺度的要求),而且對(duì)過分割的區(qū)域還有一個(gè)合并的過程(區(qū)域的層次聚類),最后剩下的都是那些最可能的候選區(qū)域,然后在這些已經(jīng)過濾了一遍的區(qū)域上進(jìn)行后續(xù)的識(shí)別等處理,這樣的話,將會(huì)大大減小候選區(qū)域的數(shù)目,提供了算法的速度.
下面放一張圖說明目標(biāo)的多尺度:
第二步解釋:?第一步中先生成,后合并得到了那些最可能的候選區(qū)域,這一步將對(duì)每個(gè)區(qū)域進(jìn)行判別,也就是判別每個(gè)區(qū)域到底是"牛"還是"非牛"! 流程的話,無非是在每個(gè)區(qū)域上提取特征,然后訓(xùn)練一個(gè)分類器(Kernel SVM);
2 訓(xùn)練和測(cè)試流程圖
2.1 本文模型訓(xùn)練流程圖
下面我將按照自己的理解一步一步地對(duì)此訓(xùn)練流程圖進(jìn)行講解:?這個(gè)流程圖我認(rèn)為應(yīng)該分成四個(gè)部分:
第一部分: 訓(xùn)練集構(gòu)造
負(fù)樣本: 給定一張訓(xùn)練圖像 --> 形成原始的過分割區(qū)域 --> 使用本文SS方法對(duì)區(qū)域進(jìn)行融合,形成一系列最可能的候選區(qū)域 --> 計(jì)算每個(gè)候選區(qū)域與真實(shí)標(biāo)記區(qū)域GT之間的重合度,如果區(qū)域A與GT的重合度在20-50%之間,而且A與其他的任何一個(gè)已生成的負(fù)樣本之間的重合度不大于70%,則A被采納為負(fù)樣本,否則丟棄A,繼續(xù)判別下一個(gè)區(qū)域;
正樣本: 就是那些手工標(biāo)記的GT區(qū)域作為正樣本;
(問題1: 會(huì)不會(huì)負(fù)樣本很多而正樣本很少? 從而出現(xiàn)類不均衡問題)
下圖展示了區(qū)域合并的過程: 對(duì)于此圖而言,正樣本是兩個(gè)綠色框框圈出來的區(qū)域;負(fù)樣本為藍(lán)色框框圈出來的區(qū)域;正樣本是人手工標(biāo)記的,負(fù)樣本是SS方法得到的!
第二部分: 提取每個(gè)正/負(fù)樣本(都是一個(gè)個(gè)不同大小的區(qū)域)的特征
第一部分中將正樣本區(qū)域和負(fù)樣本區(qū)域都提取出來了,現(xiàn)在就需要提取每個(gè)區(qū)域的特征了.本文主要采用了兩種特征: HOG特征 + bag-of-words特征,同時(shí)輔助性地增加了SIFT,two colour SIFT,Extended OpponentSIFT,RGB-SIFT這四種特征,這樣特征加起來的維度達(dá)到了驚人的360,000.
(問題2:每個(gè)區(qū)域的大小都是不相同的,如何保證提取到的每個(gè)區(qū)域的特征向量維度相同?)
第三部分: 分類器
第二部分中,每個(gè)區(qū)域的特征提取出來了,真實(shí)類別標(biāo)簽也知道,那這就是一個(gè)2分類問題;分類器這里采用了帶有Histogram Intersection Kernel的SVM分類器進(jìn)行分類;這里沒有對(duì)分類器本身做什么改進(jìn),我們可能會(huì)質(zhì)疑一下他這種分類器的選擇是否對(duì)這種場(chǎng)合是最好的,其他的沒什么好講的.
(問題3:選這種分類器的原因是不是它適用于處理高維度數(shù)據(jù)?)
第四部分: 反饋
第三部分將分類器訓(xùn)練好了,訓(xùn)練好了就完了嗎? NO! 現(xiàn)在流行一種反饋機(jī)制,SVM訓(xùn)練完成了,將得到每個(gè)訓(xùn)練圖像每個(gè)候選區(qū)域的軟分類結(jié)果(每個(gè)區(qū)域都會(huì)得到一個(gè)屬于正樣本的概率),一般如果概率大于0.5將被認(rèn)為是目標(biāo),否則被認(rèn)為是非目標(biāo),如果完全分類正確,所有的正樣本的SVM輸出概率都大于0.5,所有負(fù)樣本的SVM輸出概率都小于0.5,但是最常見的情況是有一部分的負(fù)樣本的輸入概率也是大于0.5的,我們會(huì)錯(cuò)誤地將這樣樣本認(rèn)為是目標(biāo),這些樣本就稱之為"False Positives".
我們這里就是想把這些"False Positives"收集起來,以剛才訓(xùn)練得到的SVM的權(quán)值作為其初始權(quán)值,對(duì)SVM進(jìn)行二次訓(xùn)練,經(jīng)過二次訓(xùn)練的SVM的分類準(zhǔn)確度一般會(huì)有一定的提升;
2.2 測(cè)試過程
測(cè)試的過程基本和訓(xùn)練過程相同: 首先用SS方法得到測(cè)試圖像上候選區(qū)域 --> 然后提取每個(gè)區(qū)域的特征向量 --> 送入已訓(xùn)練好的SVM進(jìn)行軟分類 --> 將這些區(qū)域按照概率值進(jìn)行排序 --> 把概率值小于0.5的區(qū)域去除 --> 對(duì)那些概率值大于0.5的,計(jì)算每個(gè)區(qū)域與比它分?jǐn)?shù)更高的區(qū)域之間的重疊程度,如果重疊程度大于30%,則把這個(gè)區(qū)域也去除了 --> 最后剩下的區(qū)域?yàn)槟繕?biāo)區(qū)域.
(問題4:重疊程度如何計(jì)算,如果計(jì)算A與B之間的重疊程度,分子是A與B的交集,分母是A還是B?)
總結(jié)
1. 本文最大的賣點(diǎn)在于它的Selective Search策略,這個(gè)策略其實(shí)是借助了層次聚類的思想(可以搜索了解一下"層次聚類算法"),將層次聚類的思想應(yīng)用到區(qū)域的合并上面;作者給出了SS的計(jì)算過程:
總體思路:假設(shè)現(xiàn)在圖像上有n個(gè)預(yù)分割的區(qū)域,表示為R={R1, R2, ..., Rn}, 計(jì)算每個(gè)region與它相鄰region(注意是相鄰的區(qū)域)的相似度,這樣會(huì)得到一個(gè)n*n的相似度矩陣(同一個(gè)區(qū)域之間和一個(gè)區(qū)域與不相鄰區(qū)域之間的相似度可設(shè)為NaN),從矩陣中找出最大相似度值對(duì)應(yīng)的兩個(gè)區(qū)域,將這兩個(gè)區(qū)域合二為一,這時(shí)候圖像上還剩下n-1個(gè)區(qū)域; 重復(fù)上面的過程(只需要計(jì)算新的區(qū)域與它相鄰區(qū)域的新相似度,其他的不用重復(fù)計(jì)算),重復(fù)一次,區(qū)域的總數(shù)目就少1,知道最后所有的區(qū)域都合并稱為了同一個(gè)區(qū)域(即此過程進(jìn)行了n-1次,區(qū)域總數(shù)目最后變成了1).算法的流程圖如下圖所示:
2.?除了SS這個(gè)賣點(diǎn)之外, 本文還用較大的篇幅講述了"Diversification Strategies(多樣化策略)"這個(gè)東西,在我看來,這就是一個(gè)模型選擇問題,講不講都沒有多大的關(guān)系.我認(rèn)為,面對(duì)一個(gè)具體的問題,有很多的超參需要調(diào)節(jié).何為超參?我認(rèn)為超參從小到大應(yīng)該分成三類:
第一類: 一個(gè)既定模型里面可以調(diào)節(jié)的參數(shù).比如在CNN里面有學(xué)習(xí)率,卷積核尺寸,卷積maps數(shù)目等等參數(shù),面對(duì)不同的問題,這些參數(shù)的設(shè)置可能是不相同的,不同的參數(shù)帶來不同的結(jié)果,因此我們需要對(duì)這些參數(shù)進(jìn)行調(diào)節(jié);再比如本文SS算法里面的相似度度量,度量方法不止一種,你可能需要面對(duì)實(shí)際的任務(wù)對(duì)其進(jìn)行實(shí)驗(yàn)調(diào)整.
第二類: 一個(gè)既定模型里面可以調(diào)節(jié)的模塊.比如說本文的模型,它采用了SVM分類器,你可以把它換成其他的分類器;提取了HOG等特征,你也可以把它換成深度特征;利用了RGB圖像,你也可以把RGB轉(zhuǎn)化到其他的色彩空間進(jìn)行;采用這種初始區(qū)域初始化方法,當(dāng)然也可以換成其他的,只要最適合你的任務(wù)就行.
第三類: 模型方法超參.比如同樣是解決目標(biāo)檢測(cè)問題,本文的方法算是一種,但是還有千千萬萬種其他的不同的目標(biāo)檢測(cè)算法,從這個(gè)角度來說,模型方法整體上可以看做是一種超參,當(dāng)然,在實(shí)際進(jìn)行中我們可能只專注于自己的算法,對(duì)這個(gè)超參的調(diào)節(jié)表現(xiàn)在實(shí)驗(yàn)部分對(duì)不同方法之間的對(duì)比.
原文"3.2 Diversification Strategies"這一節(jié)提供了調(diào)參的一些思路,分析了不同顏色空間各通道的特點(diǎn),這有利于我們?cè)诿鎸?duì)自己的實(shí)際任務(wù)時(shí)明白要嘗試的方向.還有就是給出了SS算法里面相似度度量的幾種方法,比如顏色相似度,紋理相似度,尺寸相似度,填充相似度,作者肯定沒有對(duì)所有的相似度進(jìn)行窮舉,也沒有說哪種相似度適合哪種任務(wù),我覺得更重要的還是一種思路的借鑒,提供了一種思路和思考方向,我覺得這篇論文的價(jià)值就達(dá)到了.
3. 計(jì)算速度
相比于以往的對(duì)圖像上的區(qū)域進(jìn)行窮舉的方法,本文SS方法只生產(chǎn)一小部分的最可能的候選區(qū)域,這樣對(duì)后續(xù)的處理以及整體計(jì)算有效性確實(shí)有所提高.但是我認(rèn)為對(duì)每個(gè)區(qū)域都要提取高達(dá)36萬維度的特征向量,這可能是本文算法最耗時(shí)的地方,如此高緯度的特征向量是否有必要?(給人的感覺就是一股腦把那些典型的手工特征HOG,SIFT不管好壞都提取出來了)
本文難念有一些誤解或者不當(dāng)之處, 敬請(qǐng)留言指教, 謝謝!
參考文獻(xiàn):
[1]Selective Search for Object Recognition:?http://blog.csdn.net/charwing/article/details/27180421
[2]Selective Search for Object Recognition解讀:?http://blog.csdn.net/mao_kun/article/details/50576003
[3]MATLAB源代碼SelectiveSearchCodeIJCV.zip:?https://pan.baidu.com/s/1bncWrQR
[4]官網(wǎng):https://ivi.fnwi.uva.nl/isis/publications/bibtexbrowser.php?key=UijlingsIJCV2013&bib=all.bib
總結(jié)
以上是生活随笔為你收集整理的目标检测--Selective Search for Object Recognition(IJCV, 2013)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 目标检测中召回率(Recall),精确率
- 下一篇: 目标检测--Rich feature h