日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数据集Pascal VOC2012

發布時間:2023/12/14 编程问答 71 豆豆
生活随笔 收集整理的這篇文章主要介紹了 数据集Pascal VOC2012 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

寫在前面

PASCAL VOC為圖像識別提供了一套標準化的優秀的數據集。其三個主要的物體識別競賽分別是分類classification, 檢測detection, 分割segmentation。

PASCAL---- Pattern Analysis, Statistical Modelling and Computational Learning,分別是 模式分析、 統計建模、 計算學習;

VOC----Visual Object Class, 視覺對象類;

對于分割任務, VOC2012的trainval包含2007-2011年所有對應圖片,test只包含2008-2011,trainval有2913張圖片,共6929個物體。

分類

總共分成20+1類,有20類物體,第21類為背景:
Person : person

Animal : bird , cat , cow , dog , horse , sheep

Vehicle : aeroplane , bicycle , boat , bus , car , motorbike , train

Indoor: bottle, chaire, dining-table, potted plant, sofa, tv/monitor

編號分別如下:(序號為(0代表背景,1~20代表20個類別)

0 ? ? ? ?background
1 ? ??aeroplane11dining-table
2bicycle12dog
3bird13horse
4boat14motorbike
5bottle15person
6bus16pottedplant
7car17sheep
8cat18sofa
9chair19train
10cow20tv

每個類別的分布如下:

類別與顏色的對應關系如下(RGB數值)

具體文件

下載后得到如下壓縮包:(圖是在linux系統下的圖標)

解壓后如圖所示:

?1、JPEG IMAGES

該文件夾包含了PASCAL VOC所提供的所有的信息圖片,包括訓練圖片和測試圖片。

這些圖片的命名格式都是“年份_編號.jpg”,圖片大小尺寸不一,橫向圖尺寸大概在500*375,縱向圖尺寸大約在375*500, 偏差在100之內。

2、Annotations

此文件夾存放的是xml格式的標簽文件,每個xml文件都與JPEGImages中的圖片一一對應。

以2007_000392為例,xml文件的具體格式如下所示:

<annotation><folder>VOC2012</folder> <filename>2007_000392.jpg</filename> //文件名<source> //圖像來源(不重要)<database>The VOC2007 Database</database><annotation>PASCAL VOC2007</annotation><image>flickr</image></source><size> //圖像尺寸(長寬以及通道數) <width>500</width><height>332</height><depth>3</depth></size><segmented>1</segmented> //是否用于分割(在圖像物體識別中01無所謂)<object> //檢測到的物體<name>horse</name> //物體類別<pose>Right</pose> //拍攝角度<truncated>0</truncated> //是否被截斷(0表示完整)<difficult>0</difficult> //目標是否難以識別(0表示容易識別)<bndbox> //bounding-box(包含左下角和右上角xy坐標)<xmin>100</xmin><ymin>96</ymin><xmax>355</xmax><ymax>324</ymax></bndbox></object><object> //檢測到多個物體<name>person</name><pose>Unspecified</pose><truncated>0</truncated><difficult>0</difficult><bndbox><xmin>198</xmin><ymin>58</ymin><xmax>286</xmax><ymax>197</ymax></bndbox></object> </annotation>

其對應的圖片如下:

這里僅對比較重要的做出解釋:

  • size

    size下包括了與圖片尺寸相關的信息,其中 :

    • width為寬度
    • height為高度
    • depth為圖片的通道數(彩色圖像為3通道,灰度圖為1通道)。
  • segmented

    表示圖像是否進行分割,1表示是,0表示否。

  • object

    object下包括的是目標檢測的相關信息,object可以出現多個。其中:

    • name表示物體的名字
    • pose表示拍攝的角度
    • truncated表示目標檢測的框是否被截斷,1表示是,0表示否
    • difficult 表示目標是否難以識別,1表示是,0表示否
    • bndbox 下包括的是目標檢測框的位置信息
      • xmin,ymin 表示檢測框的左上角
      • xmax,ymax 表示檢測框的右下角

3、ImageSets

該文件夾下存放的是每一種類型的challenge對應的圖像數據,包含4個子文件夾:

  • Action下存放的是人的動作
  • Layout下存放的是人的部位的數據
  • Main下存放的是?物體識別 的數據,總共分為20類
  • Segmentation下存放的是用于 分割 的數據

Main文件

包含了20個分類的不同的 ***_train.txt, ***_val.txt, ***_trainval.txt。截圖如下:

從圖片中右邊打開的txt文件可見:

最左一列為圖片的name,后面的 1 表示這個樣本為正樣本, -1表示這個樣本為負樣本。

train里面放的是訓練使用的數據,每一個CLASS有5717個;

val里面放的是驗證結果使用的數據,每一個CLASS有5823個;

trainval是將上面兩個進行合并;

Action文件

一共花分類11個動作類別,如下圖所示:?

下圖為具體的TXT文件內容:第一列為圖片名,第二列為上表中的序號,第三列為樣本屬性:1為正樣本;-1為負樣本;?

LAYOUT

Layout文件夾存儲的是人體部位識別競賽中相關的數據集圖片列表。

具體內容如下圖所示:

第一列為圖片名,第二列為圖片中所包含的人數。?

4、SegmentationClass &?SegmentationObject

這個文件夾里面存放的是與 物體分割任務相關的圖片。如下圖展示:

上面的文件夾為SegmentationClass;存放語義分割圖;標注每一個像素屬于哪一個類別;

下面的文件夾為SegmentationObject;?存放實例分割圖;標注每一個像素屬于哪一個物體;

放一個圖可以進行直觀的對比:

?可以看到同樣是火車,語義分割時兩個時同一個顏色,在實例分割時則為不同顏色。

在voc數據集里面,分割的顏色與類別對應關系如下圖所示:

這里強調一點,這兩個文件夾下面的圖片位深度是8。

這里對比一下RGB圖像的位深度位24,每個通道都有8位。而8位深的圖像一般都是灰度圖像,這是VOC2012 mask的特殊性。

PS:我也不太懂“ 由于colormap”的存在,使其看起來是彩色的,在deeplabv3+,準備數據時要去掉label的colormap” 。

下載

另附,voc2007,voc2012鏡像下載的鏈接:

https://pjreddie.com/projects/pascal-voc-dataset-mirror/

總結

以上是生活随笔為你收集整理的数据集Pascal VOC2012的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。