當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

数据集Pascal VOC2012

發(fā)布時(shí)間：2023/12/14 编程问答 81 豆豆

生活随笔收集整理的這篇文章主要介紹了数据集Pascal VOC2012 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

寫在前面

PASCAL VOC為圖像識(shí)別提供了一套標(biāo)準(zhǔn)化的優(yōu)秀的數(shù)據(jù)集。其三個(gè)主要的物體識(shí)別競(jìng)賽分別是分類classification，檢測(cè)detection, 分割segmentation。

PASCAL---- Pattern Analysis, Statistical Modelling and Computational Learning，分別是模式分析、統(tǒng)計(jì)建模、計(jì)算學(xué)習(xí)；

VOC----Visual Object Class, 視覺(jué)對(duì)象類；

對(duì)于分割任務(wù)， VOC2012的trainval包含2007-2011年所有對(duì)應(yīng)圖片，test只包含2008-2011，trainval有2913張圖片，共6929個(gè)物體。

分類

總共分成20+1類，有20類物體，第21類為背景：
Person : person

Animal : bird , cat , cow , dog , horse , sheep

Vehicle : aeroplane , bicycle , boat , bus , car , motorbike , train

Indoor: bottle, chaire, dining-table, potted plant, sofa, tv/monitor

編號(hào)分別如下：（序號(hào)為（0代表背景，1~20代表20個(gè)類別））

0 ? ? ? ?	background
1 ? ??	aeroplane	11	dining-table
2	bicycle	12	dog
3	bird	13	horse
4	boat	14	motorbike
5	bottle	15	person
6	bus	16	pottedplant
7	car	17	sheep
8	cat	18	sofa
9	chair	19	train
10	cow	20	tv

每個(gè)類別的分布如下：

類別與顏色的對(duì)應(yīng)關(guān)系如下（RGB數(shù)值）

具體文件

下載后得到如下壓縮包：（圖是在linux系統(tǒng)下的圖標(biāo)）

解壓后如圖所示：

?1、JPEG IMAGES

該文件夾包含了PASCAL VOC所提供的所有的信息圖片，包括訓(xùn)練圖片和測(cè)試圖片。

這些圖片的命名格式都是“年份_編號(hào).jpg”，圖片大小尺寸不一，橫向圖尺寸大概在500*375，縱向圖尺寸大約在375*500, 偏差在100之內(nèi)。

2、Annotations

此文件夾存放的是xml格式的標(biāo)簽文件，每個(gè)xml文件都與JPEGImages中的圖片一一對(duì)應(yīng)。

以2007_000392為例，xml文件的具體格式如下所示：

<annotation><folder>VOC2012</folder> <filename>2007_000392.jpg</filename> //文件名<source> //圖像來(lái)源（不重要）<database>The VOC2007 Database</database><annotation>PASCAL VOC2007</annotation><image>flickr</image></source><size> //圖像尺寸（長(zhǎng)寬以及通道數(shù)） <width>500</width><height>332</height><depth>3</depth></size><segmented>1</segmented> //是否用于分割（在圖像物體識(shí)別中01無(wú)所謂）<object> //檢測(cè)到的物體<name>horse</name> //物體類別<pose>Right</pose> //拍攝角度<truncated>0</truncated> //是否被截?cái)?#xff08;0表示完整）<difficult>0</difficult> //目標(biāo)是否難以識(shí)別（0表示容易識(shí)別）<bndbox> //bounding-box（包含左下角和右上角xy坐標(biāo)）<xmin>100</xmin><ymin>96</ymin><xmax>355</xmax><ymax>324</ymax></bndbox></object><object> //檢測(cè)到多個(gè)物體<name>person</name><pose>Unspecified</pose><truncated>0</truncated><difficult>0</difficult><bndbox><xmin>198</xmin><ymin>58</ymin><xmax>286</xmax><ymax>197</ymax></bndbox></object> </annotation>

其對(duì)應(yīng)的圖片如下：

這里僅對(duì)比較重要的做出解釋：

size

size下包括了與圖片尺寸相關(guān)的信息，其中：
- width為寬度
- height為高度
- depth為圖片的通道數(shù)（彩色圖像為3通道，灰度圖為1通道）。
segmented

表示圖像是否進(jìn)行分割，1表示是，0表示否。
object

object下包括的是目標(biāo)檢測(cè)的相關(guān)信息，object可以出現(xiàn)多個(gè)。其中：
- name表示物體的名字
- pose表示拍攝的角度
- truncated表示目標(biāo)檢測(cè)的框是否被截?cái)?#xff0c;1表示是，0表示否
- difficult 表示目標(biāo)是否難以識(shí)別，1表示是，0表示否
- bndbox 下包括的是目標(biāo)檢測(cè)框的位置信息
  - xmin,ymin 表示檢測(cè)框的左上角
  - xmax,ymax 表示檢測(cè)框的右下角

3、ImageSets

該文件夾下存放的是每一種類型的challenge對(duì)應(yīng)的圖像數(shù)據(jù)，包含4個(gè)子文件夾：

Action下存放的是人的動(dòng)作
Layout下存放的是人的部位的數(shù)據(jù)
Main下存放的是?物體識(shí)別的數(shù)據(jù)，總共分為20類
Segmentation下存放的是用于分割的數(shù)據(jù)

Main文件

包含了20個(gè)分類的不同的 ***_train.txt, ***_val.txt, ***_trainval.txt。截圖如下：

從圖片中右邊打開的txt文件可見：

最左一列為圖片的name，后面的 1 表示這個(gè)樣本為正樣本， -1表示這個(gè)樣本為負(fù)樣本。

train里面放的是訓(xùn)練使用的數(shù)據(jù),每一個(gè)CLASS有5717個(gè)；

val里面放的是驗(yàn)證結(jié)果使用的數(shù)據(jù)，每一個(gè)CLASS有5823個(gè)；

trainval是將上面兩個(gè)進(jìn)行合并；

Action文件

一共花分類11個(gè)動(dòng)作類別，如下圖所示：?

下圖為具體的TXT文件內(nèi)容：第一列為圖片名，第二列為上表中的序號(hào)，第三列為樣本屬性：1為正樣本；-1為負(fù)樣本；?

LAYOUT

Layout文件夾存儲(chǔ)的是人體部位識(shí)別競(jìng)賽中相關(guān)的數(shù)據(jù)集圖片列表。

具體內(nèi)容如下圖所示：

第一列為圖片名，第二列為圖片中所包含的人數(shù)。?

4、SegmentationClass &?SegmentationObject

這個(gè)文件夾里面存放的是與物體分割任務(wù)相關(guān)的圖片。如下圖展示：

上面的文件夾為SegmentationClass；存放語(yǔ)義分割圖；標(biāo)注每一個(gè)像素屬于哪一個(gè)類別；

下面的文件夾為SegmentationObject；?存放實(shí)例分割圖；標(biāo)注每一個(gè)像素屬于哪一個(gè)物體；

放一個(gè)圖可以進(jìn)行直觀的對(duì)比：

?可以看到同樣是火車，語(yǔ)義分割時(shí)兩個(gè)時(shí)同一個(gè)顏色，在實(shí)例分割時(shí)則為不同顏色。

在voc數(shù)據(jù)集里面，分割的顏色與類別對(duì)應(yīng)關(guān)系如下圖所示：

這里強(qiáng)調(diào)一點(diǎn)，這兩個(gè)文件夾下面的圖片位深度是8。

這里對(duì)比一下RGB圖像的位深度位24，每個(gè)通道都有8位。而8位深的圖像一般都是灰度圖像，這是VOC2012 mask的特殊性。

PS:我也不太懂“ 由于colormap”的存在，使其看起來(lái)是彩色的，在deeplabv3+,準(zhǔn)備數(shù)據(jù)時(shí)要去掉label的colormap” 。

下載

另附，voc2007,voc2012鏡像下載的鏈接：

https://pjreddie.com/projects/pascal-voc-dataset-mirror/

總結(jié)

以上是生活随笔為你收集整理的数据集Pascal VOC2012的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：大数据之路、阿里巴巴大数据实践读书笔记目
下一篇：【Ansys Workbench】—响应