當前位置：首頁 > 人文社科 > 生活经验 >内容正文

生活经验

目标识别的选择性搜索

發布時間：2023/11/28 生活经验 41 豆豆

生活随笔收集整理的這篇文章主要介紹了目标识别的选择性搜索小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

目標識別的選擇性搜索

Selective Search for Object Recognition

論文地址：

https://ivi.fnwi.uva.nl/isis/publications/bibtexbrowser.php?key=UijlingsIJCV2013&bib=all.bib

代碼地址：https://github.com/belltailjp/selective_search_py

一．論文解析

摘要

本文討論了在目標識別中生成可能的目標位置的問題。引入了選擇性搜索，結合了窮舉搜索和分割的優點。像分割一樣，使用圖像結構來指導采樣過程。像窮舉搜索一樣，目標是捕獲所有可能的目標位置。不再使用單一的技術來生成可能的目標位置，而是使搜索多樣化，并使用各種互補的圖像分割來處理盡可能多的圖像條件。選擇性搜索結果是一組數據驅動的、與類無關的、高質量的位置，在10097個位置產生99%的召回率和0.879的平均最佳重疊。與窮舉搜索相比，位置數目的減少使得能夠使用更強的機器學習技術和更強的外觀模型進行對象識別。在本文中，證明了選擇性搜索能夠使用強大的單詞袋模型進行識別。選擇性搜索軟件是公開提供的。

基本原理和貢獻

很長一段時間以來，人一直在尋找物體的輪廓，然后才對其進行辨認。這就產生了分割，目標是通過一種通用算法對圖像進行獨特的分割，即圖像中所有對象輪廓都有一個部分。在過去的幾年里，對這一課題的研究取得了巨大的進展[3，6，13，26]。但圖像本質上是分的：

在圖1a中，沙拉和調羹放在沙拉碗中，然后放在桌子上。此外，根據上下文的不同，本圖中的術語表只能指木材或包括表中的所有內容。

因此，圖像的性質和對象類別的不同用途都是層次性的。這就禁止了對象的唯一分區，除了最特殊的用途之外。因此，對于大多數任務來說，在一個分段中使用多個尺度是必要的。最自然的解決方法是使用分層分區，如Arbelaez等人所做的那樣[3]。
此外，分割應該是分層的，使用單一策略分割的通用解決方案可能根本不存在。一個區域為什么要歸在一起，有許多相互矛盾的原因：

在圖1b中，貓可以用顏色分開，但質地是一樣的。相反，在圖1c中，變色龍的顏色與其周圍的葉子相似，但其紋理不同。

最后，在圖1d中，車輪在顏色和質地上與汽車有著天壤之別，但卻被汽車所包圍。因此，單個視覺特征無法解決分割的模糊性。

最后，還有一個更根本的問題。具有非常不同特征的區域，例如毛衣上的臉，只有在確定手上的物體是人之后，才能組合成一個物體。因此，如果沒有事先的識別，很難確定一張臉和一件毛衣是一個物體的一部分[29]。

這導致了與傳統方法相反的情況：通過識別對象來進行本地化。最近這種物體識別方法在不到十年的時間里取得了巨大的進步[8，12，16，35]。通過從示例中學習的外觀模型，執行窮舉搜索，其中檢查圖像中的每個位置，以確保不會遺漏任何潛在的對象位置[8、12、16、35]。

然而，窮盡式搜索本身有幾個缺點。搜索每個可能的位置在計算上都是不可行的。必須通過使用規則的網格、固定的比例和固定的縱橫比來減少搜索空間。在大多數情況下，訪問的地點仍然很多，以至于需要實施其他限制。該方法簡化了分類器的結構，并且需要快速建立外觀模型。此外，均勻采樣會產生許多盒子，很明顯不支持對象。而不是盲目地使用窮舉搜索的抽樣地點，一個關鍵問題是：可以通過數據驅動的分析來控制抽樣嗎？

在本文中，目標是結合分割和窮舉搜索的直覺，提出一個數據驅動的選擇性搜索。受自底向上分割的啟發，目標是利用圖像的結構來生成目標位置。受詳盡搜索的啟發，目標是捕獲所有可能的目標位置。

因此，目標不是使用單一的采樣技術，而是使采樣技術多樣化，以盡可能多地考慮圖像條件。具體來說，使用基于數據驅動的分組策略，通過使用各種互補分組準則和具有不同不變性的各種互補顏色空間來增加多樣性。通過組合這些互補分區的位置來獲得位置集。目標是生成一個獨立于類的、數據驅動的、有選擇的搜索策略，該策略生成一小組高質量的對象位置。

選擇性搜索的應用領域是目標識別。因此，在最常用的數據集上對此進行評估，Pascal VOC檢測挑戰由20個對象類組成。這個數據集的大小為選擇性搜索產生了計算約束。此外，使用這個數據集意味著位置的質量主要是根據邊界框來評估的。然而，選擇性搜索同樣適用于區域，也適用于“草”等概念。

本文提出了一種目標識別的選擇性搜索方法。主要研究問題是：

（1）什么樣的多樣化策略可以作為選擇性搜索策略來適應分割？

（2）選擇性搜索在圖像中創建一組小的高質量位置的效果如何？

（3）可以使用選擇性搜索來使用更強大的分類器和外觀模型來進行對象識別嗎？

2. 研究內容

選擇性搜索

在這一節中，詳細介紹了目標識別的選擇性搜索算法，并提出了各種多樣的策略來處理盡可能多的圖像條件。選擇性搜索算法需要考慮以下設計因素：

捕獲所有尺寸范圍

對象可以在圖像中以任何比例出現。此外，一些對象的邊界比其他對象的邊界更不清晰。因此，在選擇性搜索中，必須考慮所有對象比例，如圖2所示。最自然的方法是使用分層算法。

多元化

沒有一個單一的最優策略可以將區域組合在一起。如圖1所示，區域可以形成一個對象，因為只有顏色，只有紋理，或因為部分是封閉的。此外，諸如陰影和光的顏色等照明條件可能影響區域形成對象的方式。因此，希望有一套不同的策略來處理所有的情況，而不是一個在大多數情況下都很有效的單一策略。

計算速度快

選擇性搜索的目標是產生一組可能的目標位置，用于實際的目標識別框架。這個集合的創建不應該成為計算瓶頸，因此算法應該相當快。

本文利用選擇性搜索產生的位置進行目標識別。本節詳細介紹了對象識別框架。
在目標識別中，兩類特征占主導地位：

定向梯度直方圖（HOG）[8]和單詞袋[7，27]。Felzenszwalb等人將HOG與基于部分的模型結合起來已經證明是成功的
[12] 。然而，由于使用窮舉搜索，從計算角度來看，HOG特征與線性分類器結合是唯一可行的選擇。

相比之下，選擇性搜索能夠使用更昂貴和潛在更強大的功能。因此，使用單詞包進行對象識別[16，17，34]。然而，使用比[16，17，34]更強大（和昂貴）的實現，通過使用各種顏色篩選描述符[32]和更精細的空間金字塔分割[18]。具體地說，在單個尺度（σ=1.2）上對每個像素的描述符進行采樣。利用文獻[32]中的軟件，提取了SIFT[21]和兩個對檢測圖像結構最敏感的顏色SIFT[31]和RGBSIFT[32]。使用4000大小的視覺碼本和4層空間金字塔，使用1x1、2x2、3x3和4x4分區。
這使得特征向量的總長度為360000。在圖像分類中，已經使用了這種大小的特征[25，37]。由于空間金字塔比構成HOG描述符的單元產生更粗糙的空間細分，因此特征包含的關于對象的特定空間布局的信息更少。因此，HOG更適合于剛性對象，而特征更適合于可變形對象類型。

作為分類器，使用了一個支持向量機和一個直方圖相交核，使用Shogun工具箱[28]。為了應用訓練好的分類器，使用了快速、近似的分類策略[22]，這對[30]中的袋裝詞很有效。

訓練程序如圖3所示。最初的正面例子由所有地面真值對象窗口組成。作為最初的負面例子，選擇性搜索生成的所有對象位置中選擇與正面例子重疊20%到50%的位置。為了避免近似重復的負數示例，如果負數示例與另一負數的重疊超過70%，則將其排除。為了使每類的初始負片數保持在20000個以下，隨機地將一半的負樣本投給汽車、貓、狗和人。直覺上，這組例子可以被看作是困難的否定，接近于積極的例子。

這意味著接近于決策邊界，因此很可能成為支持向量，即使考慮了全組否定。事實上，發現這種訓練例子的選擇給出了相當好的初始分類模型。然后進入一個再訓練階段，迭代地添加硬的否定例子（例如[12]）：使用選擇性搜索生成的位置將學習到的模型應用到訓練集。對于每一張負面圖片，都會加上得分最高的位置。由于初始訓練集已經產生了好的模型，模型只在兩次迭代中收斂。
對于測試集，最終模型將應用于選擇性搜索生成的所有位置。窗口按分類器得分排序，與得分較高的窗口重疊超過30%的窗口被視為接近重復項并被刪除。

3. 評估測試

二．代碼解析

代碼地址：https://github.com/belltailjp/selective_search_py

參考代碼和實驗地址：http://disi.unitn.it/~uijlings/MyHomepage/index.php#page=projects1

概述

這是選擇性搜索的python實現[1][2]。

選擇搜索作為目標檢測/識別流水線的預處理。

發現可能包含來自輸入圖像的任何對象的區域，而不管其大小和位置如何，這使得檢測器只能集中于此類“預期”區域。

因此，可以配置計算效率更高的檢測器，或者使用比傳統窮舉搜索方案更豐富的特征表示和分類方法[3]。

前提條件

CMake (>= 2.8)
GCC
(>= 4.8.2)
Python
(>= 3.4.3)

有關所需的軟件包，請參見 requirements.txt

Boost (>= 1.58.0) 使用python支持構建
Boost.NumPy

如果編譯報錯，請參見 belltailjp/Boost.NumPy)

此外，這只在x64 Linux環境下測試。

準備工作

此實現包含幾個C++代碼，其封裝用于生成初始值的高效基于圖形的圖像分割[4 ]。作為一個python模塊工作，所以首先構建。

% git clone https://github.com/belltailjp/selective_search_py.git

% cd selective_search_py

% wget http://cs.brown.edu/~pff/segment/segment.zip; unzip segment.zip; rm segment.zip

% cmake .

% make

然后將看到一個共享segment.so在目錄里。將其保存在主Python腳本的同一目錄中，或者保存在LD_LIBRARY_PATH中描述的可引用位置。

演示

交互顯示可能包含對象的區域

show candidate demo允許交互查看選擇性搜索的結果。

% ./demo_showcandidates.py image.jpg

showcandidate圖形用戶界面示例

可以在屏幕左側選擇任何參數組合。然后單擊“運行”按鈕并等待一段時間。將在右側看到生成的區域。

通過更改底部的滑塊，可以增加/減少候選區域的數量。向左滑動的滑塊越多，顯示的區域越自信，如下所示：

顯示候選GUI示例更多區域

顯示圖像分割層次結構

ShowHierarchy演示為迭代中的每個步驟可視化彩色區域圖像。

% ./demo_showhierarchy.py image.jpg --k 500 --feature color texture --color rgb

圖像分割層次可視化

如果要查看與輸入圖像合成的標簽，請指定特定的alpha值。

% ./demo_showhierarchy.py image.jpg --k 500 --feature color texture --color rgb --alpha 0.6

概況

該方法的算法在原稿的期刊版（[1]）中有詳細描述。對于多元化策略，本次實施支持按照原論文的建議，改變以下參數。

色空間

RGB、Lab、rgI、HSV、歸一化RGB和色調

當前不支持顏色不變性的C[5]。

相似性度量

紋理、顏色、填充和大小

初始分割參數k

作為初始（細粒度）分段，此實現使用[4]。k是該方法的參數之一。可以為每個策略提供任何組合。

如何集成到代碼中

如果只想將此實現用作黑盒，則只需要導入選擇性搜索模塊。

from selective_search import *img = skimage.io.imread(‘image.png’)regions = selective_search(img)for v, (i0, j0, i1, j1) in regions:

然后可以得到一個按分數升序排序的列表區域。得分較高的區域（列表的后一個元素）被視為“非預期”區域，因此可以根據需要將其過濾掉。

要更改參數，只需列出每個多元化戰略的價值。注意，必須作為一個列表給出。selective_search返回生成的區域的單個列表，其中包含selective search結果的每個組合。這個結果也被排序。

regions = selective_search(img, \ color_spaces = [‘rgb’, ‘hsv’],\ #color space. should be lower case. ks = [50, 150, 300],\ #k. feature_masks = [(0, 0, 1, 1)]) #indicates whether S/C/T/F similarity is used, respectively.

測試

此實現包含使用PyTest的自動化單元測試。

要執行完整測試，請鍵入：

% py.test

許可證

這個實現是公開的。見LICENSE.txt更多細節。
然而，對于選擇性搜索方法本身，原論文的作者至今沒有提及。

References
[1] J. R. R. Uijlings et al., Selective Search for Object Recognition, IJCV, 2013

[2] Koen van de Sande et al., Segmentation As Selective Search for Object Recognition, ICCV, 2011

[3] R. Girshick et al., Rich Feature Hierarchies for Accurate
Object Detection and Semantic Segmentation, CVPR, 2014

[4] P. Felzenszwalb et al., Efficient Graph-Based Image
Segmentation, IJCV, 2004

[5] J. M. Geusebroek et al., Color invariance, TPAMI, 2001

總結

以上是生活随笔為你收集整理的目标识别的选择性搜索的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。