當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Visual Object Classes Challenge 2012 (VOC2012) 简介

發布時間：2023/12/14 编程问答 35 豆豆

生活随笔收集整理的這篇文章主要介紹了 Visual Object Classes Challenge 2012 (VOC2012) 简介小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

介紹

這項挑戰的主要目標是從現實場景中的許多視覺對象類（即未預先分割的對象）中識別對象。這是一個有監督的學習問題，因為它提供了一組標記圖像的訓練集。選擇的20個對象類是：

人：人
動物：鳥、貓、牛、狗、馬、羊
車輛：飛機、自行車、船、公共汽車、汽車、摩托車、火車
室內：瓶子、椅子、餐桌、盆栽植物、沙發、電視/顯示器

主要有三個目標識別競賽：分類、檢測和分割、動作分類競賽和ImageNet大規模識別競賽。此外，還有一個“品嘗者”的個人布局比賽。

圖像分類/檢測比賽

分類：對于20個類中的每一個，預測測試圖像中是否存在該類的示例。

檢測：從測試圖像的20個目標類中預測每個對象的包圍盒和標簽。

參賽者可以參加其中一項（或兩項）比賽，也可以選擇參加二十個目標類中的任何一項（或全部）。這項挑戰為每項比賽提供了兩種方法：

參與者可以使用使用任何方法或數據（不包括提供的測試集）構建或訓練的系統。

僅使用提供的培訓/驗證數據建立或培訓系統。

在第一種情況下，目的是確定目前在這些問題上可以達到什么程度的成功以及通過什么方法；在第二種情況下，目的是確定在給定特定的訓練集的情況下，哪種方法最成功。

圖像分割比賽

分割：產生像素級的分割，給出在每個像素處可見的對象類別，否則為“背景”。

動作分類比賽

動作分類：預測一個人在靜止圖像中所做的動作。

2012年，這場比賽有兩種不同的方式，這取決于在測試圖像中如何識別動作要分類的人：（i）在人的周圍有一個緊密的包圍盒；（ii）只有一個位于身體某處的點。后一個競賽的目的是研究方法的性能，只給出一個人的近似定位，可能是從一個通用的人檢測器的輸出。

ImageNet大型視覺識別比賽

本次比賽的目的是評估照片的內容，以便使用大型手工標記ImageNet數據集（描繪10000多個對象類別的10000000個標記圖像）的子集進行檢索和自動標注。測試圖像將顯示沒有初始注釋-沒有分割或標簽-并且算法將必須生成指定圖像中存在哪些對象的標簽。在這個初始版本的挑戰中，目標只是識別圖像中的主要對象，而不是指定對象的位置。

更多詳情請訪問ImageNet網站。

人物布局大賽

人物布局：預測人物各部位（頭、手、腳）的包圍盒和標簽。

數據

要下載培訓/驗證數據，請參閱開發工具包。

提供的訓練數據由一組圖像組成；每個圖像都有一個注釋文件，為圖像中20個類中的一個類中的每個對象提供一個邊界框和對象類標簽。注意，來自多個類的多個對象可能出現在同一個圖像中。注釋是根據分發給所有注釋者的一組準則執行的。

為了支持圖像分割的競爭性，對圖像子集進行了逐像素分割。

動作分類任務的圖像與分類/檢測/分割任務的圖像不相交。它們部分地用人、邊界框、參照點及其動作進行了注釋。注釋是根據分發給所有注釋者的一組準則執行的。

測試集與主要任務分離的person layout taster的圖像還附加了部分人（頭/手/腳）的注釋。

數據將分兩個階段提供；在第一階段，將發布一個開發工具包，其中包括培訓和驗證數據，以及評估軟件（用MATLAB編寫）。驗證集的一個目的是演示在提交競賽之前評估軟件是如何工作的。

在第二階段，將為實際比賽提供測試集。正如在VOC2008-2011年的挑戰中一樣，測試數據的基本事實不會被公布。

數據分為50%用于培訓/驗證，50%用于測試。在訓練/驗證和測試集中，圖像和對象按類的分布大致相等。數據庫的統計數據是在線的。

可在線查看分類/檢測/分割/動作任務和人員布局品嘗器的示例圖像和相應注釋：

分類/檢測示例圖像
分割示例圖像
動作分類示例圖片
個人布局品嘗者示例圖片

VOC2012與VOC2011

對于VOC2012，大部分注釋工作都用于增加分段和動作分類數據集的大小，并且沒有為分類/檢測任務執行額外的注釋。下表總結了VOC2012和VOC2011之間的數據差異。

分類/檢測：2012年數據集與2011年使用的數據集相同。沒有其他數據被注釋。因此，參與者不允許在VOC2011數據集上運行評估，評估服務器上的此選項已被禁用。
分割：2012年的數據集包含2008-2011年的圖像，已經為這些圖像準備了額外的分割。與前幾年一樣，培訓/測試組的任務也得到了維持。分割后的圖像總數從7062幅增加到9993幅。
動作分類：2012年的數據集包括2011年的數據集和附加注釋的圖像。培訓/測試集的任務已經得到維護。除了框注釋之外，人們現在還使用主體上的參考點進行注釋，以支持“無框”動作分類任務（參見開發工具包）。
人體布局：2012年的數據集與2011年使用的數據集相同。沒有其他數據被注釋。因此，參與者不允許在VOC2011數據集上運行評估，評估服務器上的此選項已被禁用。

開發工具包

開發包由訓練/驗證數據、用于讀取注釋數據的MATLAB代碼、支持文件和每個比賽的示例實現組成。

開發工具包現在可用：

下載培訓/驗證數據（2GB tar文件）
下載開發工具包代碼和文檔（500KB tar文件）
下載PDF文檔（500kbpdf）
瀏覽HTML文檔
查看用于注釋數據庫的準則（VOC2011）
查看用于注釋操作任務圖像的操作準則

試驗數據

測試數據將根據挑戰時間表提供。請注意，數據中唯一的注釋是用于操作任務和人體布局的。與2008-2011年一樣，目前還沒有發布完整注釋的計劃——主辦方將提供結果評估。

測試數據可以從評估服務器下載。您還可以使用評估服務器在測試數據上評估您的方法。

有用的軟件

下面是一個您可能會發現有用的軟件列表，由參與者提供給以前的挑戰。

編碼方法評估工具包
Encoding Methods Evaluation Toolkit
Ken Chatfield, Victor Lempitsky, Andrea Vedaldi, Andrew Zisserman
CPMC：用于自動目標分割的約束參數最小割集
Joao Carreira和Cristian Sminchisescu。
自動標記環境（語義分割）
Automatic Labelling Environment (Semantic Segmentation)
Lubor Ladicky, Philip H.S. Torr.
可變形零件模型的判別訓練
Discriminatively Trained Deformable Part Models
Pedro Felzenszwalb, Ross Girshick, David McAllester, Deva Ramanan.
顏色描述符
Color Descriptors
Koen van de Sande, Theo Gevers, Cees Snoek.

時刻表

2012年5月：提供開發工具包（培訓和驗證數據以及評估軟件）。
2012年6月25日：提供測試集。
2012年9月23日（格林尼治標準時間2300小時，星期日）：提交結果的截止日期（不會延期）。
2012年10月12日：與ECCV2012相關的挑戰研討會。

提交結果

要求參與者按照所采用的方法提交一組結果。研究過多個算法的參與者可以每種方法提交一個結果。算法參數的變化并不構成一種不同的方法-所有參數的調整都必須使用單獨的訓練和驗證數據。

必須使用自動評估服務器提交結果：

PASCAL VOC評估服務器

結果文件的格式必須正確。提交結果所需文件格式的詳細信息可以在開發工具包文檔中找到。結果文件應該收集在一個歸檔文件（tar/tgz/tar.gz）中。

提交多個不同方法結果的參與者（注意上面不同方法的定義）應該為每個方法生成一個單獨的存檔。

除結果文件外，參與者還需要指定：

聯系方式及隸屬關系
貢獻者名單
方法說明（至少500個字符）-見下文

自2011年以來，我們要求所有提交的資料都附有一份描述該方法的摘要，至少500個字符。摘要將部分用于在挑戰研討會上挑選受邀的發言者。如果由于商業利益或其他保密問題，您無法提交說明，則必須聯系主辦方進行討論。下面是兩個示例說明，用于先前在挑戰研討會上介紹的分類和檢測方法。注意這些是我們自己的摘要，不是由原始作者提供的。

示例摘要：對象分類

基于張建國、科迪莉亞·施密德、斯維特蘭娜·拉澤尼克、讓·龐斯在帕斯卡視覺對象類挑戰賽2006（VOC2006）第2.16節中對LSPCH的VOC1006 QMUL描述的結果。

我們使用視覺詞匯袋法（cf Csurka等人2004）。感興趣的區域用拉普拉斯檢測器檢測（Lindeberg，1998），并按比例進行歸一化。然后為每個檢測計算SIFT描述符（Lowe 2004）。然后，從訓練集中隨機選擇50000個描述符，將其矢量量化（使用k-均值）為k=3000個“可視詞”（10個類中每個類300個）。然后，每個圖像由每個可視單詞使用頻率的直方圖表示。我們還使用空間金字塔方案（Lazebnik等人，CVPR 2006）。我們首先利用chi^2核來訓練基于金字塔中每一層直方圖的支持向量機分類器。然后，這些SVM分類器的輸出被連接到每個圖像的特征向量中，并用于學習另一個基于高斯RBF核的SVM分類器。
示例摘要：對象檢測

基于“基于部件模型的目標檢測”；Pedro F.Felzenszwalb、Ross B.Girshick、David McAllester和Deva Ramanan；IEEE模式分析和機器智能交易，第32卷，第9期，2010年9月。

提出了一種基于判別訓練零件的目標檢測模型。該模型由一個粗糙的HOG特征“根”模板（Dalal和Triggs，2006）加上一些高分辨率的基于零件的HOG模板組成，這些模板可以在相對于其默認位置的鄰域中進行轉換。根模板和零件模板的響應通過一個潛在的支持向量機模型進行組合，其中潛在的變量是零件的偏移量。提出了一種新的隱式支持向量機訓練算法。我們還利用了一個迭代訓練過程，利用了“硬-負”示例，這些示例是在早期迭代中錯誤分類的負示例。最后以滑動窗口的方式在不同尺度上掃描測試圖像，產生候選檢測結果，然后進行貪婪的非最大值抑制。該模型適用于所有20帕斯卡的VOC目標檢測挑戰。

如果要提交方法的更詳細描述（例如相關出版物），可以將其包含在結果存檔中。

最佳實踐

VOC挑戰鼓勵兩種類型的參與：（i）僅使用所提供的“trainval”（培訓+驗證）數據進行培訓的方法；（ii）使用除所提供的測試數據以外的任何數據構建或培訓的方法，例如商業系統。在這兩種情況下，測試數據必須嚴格用于單獨報告結果-不得以任何方式用于培訓或調整系統，例如運行多個參數選擇并報告獲得的最佳結果。

如果使用我們作為挑戰開發工具包一部分提供的培訓數據，則所有開發（如功能選擇和參數調整）必須單獨使用“trainval”（培訓+驗證）集。一種方法是將集合分為訓練集和驗證集（如開發工具包中所建議的）。其他方案，如n倍交叉驗證，同樣有效。調整后的算法應該只在測試數據上運行一次。

在VOC2007中，我們提供了所有注釋（即用于培訓、驗證和測試數據），但從那時起，我們就沒有提供測試注釋。相反，測試數據的結果將提交到評估服務器。

由于算法只應在測試數據上運行一次，我們強烈建議不向服務器多次提交（實際上，嚴格控制同一算法的提交次數），因為評估服務器不應用于參數調整。

我們鼓勵您使用評估服務器的輸出，始終在最新版本的挑戰上發布測試結果。如果您希望比較方法或設計選擇，例如功能的子集，則有兩個選項：（i）使用所有注釋都可用的整個VOC2007數據；（ii）單獨使用最新的“trainval”集報告交叉驗證結果。

注冊評估服務器時電子郵件地址要求的策略
根據上面的最佳實踐過程，我們限制評估服務器處理測試數據的次數。為防止濫用此限制，注冊評估服務器時需要提供機構電子郵件地址。這旨在防止一個用戶在不同的電子郵件下多次注冊。機構電子郵件包括學術電子郵件，如name@university.ac.uk和公司電子郵件，但不包括個人電子郵件，如name@gmail.com或name@123.com。

出版政策

傳播結果的主要機制將是挑戰網頁。

每個提交方法的詳細輸出將在線發布，例如分類任務的每個圖像置信度，以及檢測任務的邊界框。其目的是協助社區內的其他人對自己的方法進行詳細的分析和比較。發布的結果不會是匿名的-通過提交結果，參與者同意在網上共享他們的結果。

引用

如果您使用VOC12012數據，請在任何出版物中引用以下參考資料（將在挑戰研討會之后準備）：

@misc{pascal-voc-2012,
author = “Everingham, M. and Van~Gool, L. and Williams, C. K. I. and Winn, J. and Zisserman, A.”,
title = “The {PASCAL} {V}isual {O}bject {C}lasses {C}hallenge 2012 {(VOC2012)} {R}esults”,
howpublished = “http://www.pascal-network.org/challenges/VOC/voc2012/workshop/index.html”}

數據庫權限

VOC2012數據包括從“flickr”網站獲得的圖像。使用這些圖像必須遵守相應的使用條款：

“flickr”使用條款

為了質詢的目的，數據庫中圖像的身份，例如來源和所有者的姓名，已經被模糊了。在完成挑戰后，每個圖像的貢獻者的詳細信息可以在注釋中找到，這些注釋將包含在數據的最終版本中。任何關于數據使用或所有權的疑問都應向組織者提出。

組織者

Mark Everingham（利茲大學）
盧克·范·古爾（蘇黎世埃茨）
克里斯·威廉姆斯（愛丁堡大學）
John Winn（微軟劍橋研究院），John@John Winn.org
安德魯·齊瑟曼（牛津大學）

致謝

我們非常感謝以下人員，他們花了很多時間為VOC2012數據庫提供注釋：

優素福·艾塔爾、露西亞·巴列里尼、哈肯·比倫、肯·查特菲爾德、米爾恰·西姆波伊、阿里·伊斯拉米、巴蘇拉·費爾南多、克里斯托夫·戈多、伯坦·岡耶爾、鳳凰社/黃軒、杰里·基維寧、馬庫斯·馬蒂亞斯、克里斯托夫·奧杜夫、康斯坦蒂諾斯·雷馬塔斯、約翰·范·隆帕伊、吉拉德·謝里爾、馬蒂亞斯·維克魯伊斯、維巴夫·維內特、張子明、帥凱爾·鄭。

我們還感謝優素福·艾塔爾繼續開發和管理評估服務器，并感謝阿里·伊斯拉米對結果的分析。

支持

歐盟資助的PASCAL2模式分析、統計建模和計算學習卓越網絡支持這項挑戰的準備和實施。

歷史和背景

自2005年以來，每年都有主要挑戰。有關VOC的更多背景，以下期刊論文討論了我們在應對挑戰中所做的一些選擇和我們的經驗，并對2007年的方法和結果進行了更深入的討論：

PASCAL可視化對象類（VOC）挑戰

Everingham，M.，Van Gool，L.，Williams，C.K.I.，Winn，J.和Zisserman，A。
國際計算機視覺雜志，88（2），303-33820010
Bibtex源|摘要| PDF

下表簡要總結了揮發性有機化合物發展的主要階段。

2005 ：只有4類，自行車，汽車，摩托車，人。訓練/驗證/測試：1578個圖像，包含2209個注釋對象。

兩項比賽：分類和檢測|圖片大部分是從現有的公共數據集中獲取的，并不像隨后使用的flickr圖片那樣具有挑戰性。此數據集已過時。
2006：10個類，自行車、公共汽車、汽車、貓、牛、狗、馬、摩托車、人、羊。訓練/驗證/測試：包含4754個注釋對象的2618個圖像。

來自flickr和微軟劍橋研究中心（MSRC）數據集的圖像|MSRC的圖片比flickr容易，因為照片通常集中在感興趣的對象上。此數據集已過時。
2007 ：20個類。
- 人：人
- 動物：鳥、貓、牛、狗、馬、羊
- 車輛：飛機、自行車、船、公共汽車、汽車、摩托車、火車
- 室內：瓶子、椅子、餐桌、盆栽植物、沙發、電視/顯示器
- 訓練/驗證/測試：9963張圖像，包含24640個注釋對象。
- 班級從10個增加到20個
- 細分品嘗器介紹
- 人布局品嘗師介紹
- 添加到批注的截斷標志
- 分類挑戰的評估方法改為平均精度。以前是ROC-AUC。

今年設立了20個類，從那時起就固定下來了。這是為測試數據發布注釋的最后一年。

2008： 20個類。數據在50%的train/val和50%的測試中被分割（和往常一樣）。train/val數據有4340個圖像，其中包含10363個注釋對象。
- 添加到批注的遮擋標志。
- 測試數據注釋不再公開。
- 分割和人物布局數據集包括來自相應VOC2007集的圖像。
2009：20類。train/val數據包含7054幅圖像，其中包含17218個ROI注釋對象和3211個分段。
- 從現在起，所有任務的數據都由前幾年的圖像和新圖像組成。在早些年，每年都會發布一個全新的數據集，用于分類/檢測任務。
- 增強允許圖像數量每年增長，這意味著測試結果可以與前幾年的圖像進行比較。
- 分割成為一個標準的挑戰（從品嘗者那里提升）
- 沒有為附加圖像提供困難的標記（省略）。
- 測試數據注釋未公開。
2010：20類。train/val數據包含10103個圖像，其中包含23374個ROI注釋對象和4203個分段。
- 動作分類嘗試者介紹。
- 提出了基于ImageNet的大規模分類的相關挑戰。
- 亞馬遜機械土耳其人用于早期的注釋階段。
- 計算AP的方法改變了。現在使用所有數據點，而不是TREC樣式的采樣。
- 測試數據注釋未公開。
2011：20類。train/val數據包含11530個圖像，其中包含27450個ROI注釋對象和5034個分段。

動作分類嘗試者擴展到10個等級+其他。

布局注釋現在不是“完整的”：只有人被注釋，有些人可能沒有注釋。
2012：20類。train/val數據包含11530個圖像，其中包含27450個ROI注釋對象和6929個分段。
- 分割數據集的大小大大增加。
- 動作中的人分類數據集在正文上附加了一個引用點注釋。
- 分類、檢測和人員布局的數據集與VOC2011相同。

總結

以上是生活随笔為你收集整理的Visual Object Classes Challenge 2012 (VOC2012) 简介的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： →箭头符号大全复制_特别符号大全，特殊符
下一篇： Git之基于图形界面工具Tortoise