数据集Pascal VOC2012
寫在前面
PASCAL VOC為圖像識(shí)別提供了一套標(biāo)準(zhǔn)化的優(yōu)秀的數(shù)據(jù)集。其三個(gè)主要的物體識(shí)別競(jìng)賽分別是分類classification, 檢測(cè)detection, 分割segmentation。
PASCAL---- Pattern Analysis, Statistical Modelling and Computational Learning,分別是 模式分析、 統(tǒng)計(jì)建模、 計(jì)算學(xué)習(xí);
VOC----Visual Object Class, 視覺(jué)對(duì)象類;
對(duì)于分割任務(wù), VOC2012的trainval包含2007-2011年所有對(duì)應(yīng)圖片,test只包含2008-2011,trainval有2913張圖片,共6929個(gè)物體。
分類
總共分成20+1類,有20類物體,第21類為背景:
Person : person
Animal : bird , cat , cow , dog , horse , sheep
Vehicle : aeroplane , bicycle , boat , bus , car , motorbike , train
Indoor: bottle, chaire, dining-table, potted plant, sofa, tv/monitor
編號(hào)分別如下:(序號(hào)為(0代表背景,1~20代表20個(gè)類別))
| 0 ? ? ? ? | background | ||
| 1 ? ?? | aeroplane | 11 | dining-table |
| 2 | bicycle | 12 | dog |
| 3 | bird | 13 | horse |
| 4 | boat | 14 | motorbike |
| 5 | bottle | 15 | person |
| 6 | bus | 16 | pottedplant |
| 7 | car | 17 | sheep |
| 8 | cat | 18 | sofa |
| 9 | chair | 19 | train |
| 10 | cow | 20 | tv |
每個(gè)類別的分布如下:
類別與顏色的對(duì)應(yīng)關(guān)系如下(RGB數(shù)值)
具體文件
下載后得到如下壓縮包:(圖是在linux系統(tǒng)下的圖標(biāo))
解壓后如圖所示:
?1、JPEG IMAGES
該文件夾包含了PASCAL VOC所提供的所有的信息圖片,包括訓(xùn)練圖片和測(cè)試圖片。
這些圖片的命名格式都是“年份_編號(hào).jpg”,圖片大小尺寸不一,橫向圖尺寸大概在500*375,縱向圖尺寸大約在375*500, 偏差在100之內(nèi)。
2、Annotations
此文件夾存放的是xml格式的標(biāo)簽文件,每個(gè)xml文件都與JPEGImages中的圖片一一對(duì)應(yīng)。
以2007_000392為例,xml文件的具體格式如下所示:
<annotation><folder>VOC2012</folder> <filename>2007_000392.jpg</filename> //文件名<source> //圖像來(lái)源(不重要)<database>The VOC2007 Database</database><annotation>PASCAL VOC2007</annotation><image>flickr</image></source><size> //圖像尺寸(長(zhǎng)寬以及通道數(shù)) <width>500</width><height>332</height><depth>3</depth></size><segmented>1</segmented> //是否用于分割(在圖像物體識(shí)別中01無(wú)所謂)<object> //檢測(cè)到的物體<name>horse</name> //物體類別<pose>Right</pose> //拍攝角度<truncated>0</truncated> //是否被截?cái)?#xff08;0表示完整)<difficult>0</difficult> //目標(biāo)是否難以識(shí)別(0表示容易識(shí)別)<bndbox> //bounding-box(包含左下角和右上角xy坐標(biāo))<xmin>100</xmin><ymin>96</ymin><xmax>355</xmax><ymax>324</ymax></bndbox></object><object> //檢測(cè)到多個(gè)物體<name>person</name><pose>Unspecified</pose><truncated>0</truncated><difficult>0</difficult><bndbox><xmin>198</xmin><ymin>58</ymin><xmax>286</xmax><ymax>197</ymax></bndbox></object> </annotation>其對(duì)應(yīng)的圖片如下:
這里僅對(duì)比較重要的做出解釋:
-
size
size下包括了與圖片尺寸相關(guān)的信息,其中 :
- width為寬度
- height為高度
- depth為圖片的通道數(shù)(彩色圖像為3通道,灰度圖為1通道)。
-
segmented
表示圖像是否進(jìn)行分割,1表示是,0表示否。
-
object
object下包括的是目標(biāo)檢測(cè)的相關(guān)信息,object可以出現(xiàn)多個(gè)。其中:
- name表示物體的名字
- pose表示拍攝的角度
- truncated表示目標(biāo)檢測(cè)的框是否被截?cái)?#xff0c;1表示是,0表示否
- difficult 表示目標(biāo)是否難以識(shí)別,1表示是,0表示否
- bndbox 下包括的是目標(biāo)檢測(cè)框的位置信息
- xmin,ymin 表示檢測(cè)框的左上角
- xmax,ymax 表示檢測(cè)框的右下角
3、ImageSets
該文件夾下存放的是每一種類型的challenge對(duì)應(yīng)的圖像數(shù)據(jù),包含4個(gè)子文件夾:
- Action下存放的是人的動(dòng)作
- Layout下存放的是人的部位的數(shù)據(jù)
- Main下存放的是?物體識(shí)別 的數(shù)據(jù),總共分為20類
- Segmentation下存放的是用于 分割 的數(shù)據(jù)
Main文件
包含了20個(gè)分類的不同的 ***_train.txt, ***_val.txt, ***_trainval.txt。截圖如下:
從圖片中右邊打開的txt文件可見:
最左一列為圖片的name,后面的 1 表示這個(gè)樣本為正樣本, -1表示這個(gè)樣本為負(fù)樣本。
train里面放的是訓(xùn)練使用的數(shù)據(jù),每一個(gè)CLASS有5717個(gè);
val里面放的是驗(yàn)證結(jié)果使用的數(shù)據(jù),每一個(gè)CLASS有5823個(gè);
trainval是將上面兩個(gè)進(jìn)行合并;
Action文件
一共花分類11個(gè)動(dòng)作類別,如下圖所示:?
下圖為具體的TXT文件內(nèi)容:第一列為圖片名,第二列為上表中的序號(hào),第三列為樣本屬性:1為正樣本;-1為負(fù)樣本;?
LAYOUT
Layout文件夾存儲(chǔ)的是人體部位識(shí)別競(jìng)賽中相關(guān)的數(shù)據(jù)集圖片列表。
具體內(nèi)容如下圖所示:
第一列為圖片名,第二列為圖片中所包含的人數(shù)。?
4、SegmentationClass &?SegmentationObject
這個(gè)文件夾里面存放的是與 物體分割任務(wù)相關(guān)的圖片。如下圖展示:
上面的文件夾為SegmentationClass;存放語(yǔ)義分割圖;標(biāo)注每一個(gè)像素屬于哪一個(gè)類別;
下面的文件夾為SegmentationObject;?存放實(shí)例分割圖;標(biāo)注每一個(gè)像素屬于哪一個(gè)物體;
放一個(gè)圖可以進(jìn)行直觀的對(duì)比:
?可以看到同樣是火車,語(yǔ)義分割時(shí)兩個(gè)時(shí)同一個(gè)顏色,在實(shí)例分割時(shí)則為不同顏色。
在voc數(shù)據(jù)集里面,分割的顏色與類別對(duì)應(yīng)關(guān)系如下圖所示:
這里強(qiáng)調(diào)一點(diǎn),這兩個(gè)文件夾下面的圖片位深度是8。
這里對(duì)比一下RGB圖像的位深度位24,每個(gè)通道都有8位。而8位深的圖像一般都是灰度圖像,這是VOC2012 mask的特殊性。
PS:我也不太懂“ 由于colormap”的存在,使其看起來(lái)是彩色的,在deeplabv3+,準(zhǔn)備數(shù)據(jù)時(shí)要去掉label的colormap” 。
下載
另附,voc2007,voc2012鏡像下載的鏈接:
https://pjreddie.com/projects/pascal-voc-dataset-mirror/
總結(jié)
以上是生活随笔為你收集整理的数据集Pascal VOC2012的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 大数据之路、阿里巴巴大数据实践读书笔记目
- 下一篇: 【Ansys Workbench】—响应