當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

PASCAL VOC数据集分析及下载、解压

發(fā)布時間：2023/12/14 编程问答 43 豆豆

生活随笔收集整理的這篇文章主要介紹了 PASCAL VOC数据集分析及下载、解压小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

由于跑代碼過程中用到的是VOC2007數(shù)據(jù)集，就直接說明VOC2007數(shù)據(jù)集的下載與解壓

一、數(shù)據(jù)集的下載與解壓

Pascal VOC2007
1.輸入以下命令下載訓(xùn)練、驗證、測試數(shù)據(jù)和工具包

wget http://host.robots.ox.ac.uk/pascal/VOC/voc2007/VOCtrainval_06-Nov-2007.tar wget http://host.robots.ox.ac.uk/pascal/VOC/voc2007/VOCtest_06-Nov-2007.tar wget http://host.robots.ox.ac.uk/pascal/VOC/voc2007/VOCdevkit_08-Jun-2007.tar

2.再把這些壓縮文件解壓到一個叫做VOCdevkit的文件夾下

tar xvf VOCtrainval_06-Nov-2007.tar tar xvf VOCtest_06-Nov-2007.tar tar xvf VOCdevkit_08-Jun-2007.tar

注意要同時輸入這三句命令解壓
3.然后可以看到應(yīng)該有下面這樣的結(jié)構(gòu)：

$VOCdevkit/ # development kit
$VOCdevkit/VOCcode/ # VOC utility code
$VOCdevkit/VOC2007 # image sets, annotations, etc.
#… and several other directories …

（我的解壓完如下）

二、PASCAL VOC數(shù)據(jù)集的分析

（此處為參考多篇博客及其他資料學(xué)習(xí)后的總結(jié)，若有不對請多多指教）
首先提供官方下載地址：
https://pjreddie.com/projects/pascal-voc-dataset-mirror/
1.簡介
PASCAL VOC從2005年開始舉辦挑戰(zhàn)賽，內(nèi)容從最開始的分類，到后面逐漸增加檢測，分割，人體布局，動作識別（Object Classification 、Object Detection、Object Segmentation、Human Layout、Action Classification）等，數(shù)據(jù)集的容量以及種類也在不斷的增加和改善。
本文主要分析PASCAL VOC數(shù)據(jù)集中和圖像中物體識別相關(guān)的內(nèi)容。
以PASCAL VOC2007為例，在一、數(shù)據(jù)集的下載與解壓后在VOCdevkit目錄下的VOC2007中看到如下的文件：
其中Annotations、ImageSets和JPEGImages主要用于識別，SegmentationClass和SegmentationObject用于分割。

Annotations：存放的是標(biāo)記文件，采用xml格式，對JPEGImages文件夾中的每一張圖片進(jìn)行信息的標(biāo)注。
例如000001.jpg和對應(yīng)的xml文件具體如下：

<annotation><folder>VOC2007</folder><filename>000001.jpg</filename> # 文件名 <source> # 圖像的來源<database>The VOC2007 Database</database><annotation>PASCAL VOC2007</annotation><image>flickr</image><flickrid>341012865</flickrid></source><owner> #擁有者<flickrid>Fried Camels</flickrid><name>Jinky the Fruit Bat</name></owner><size> # 圖像尺寸, 長、寬及通道數(shù)<width>353</width><height>500</height><depth>3</depth></size><segmented>0</segmented> # 是否用于分割，在識別任務(wù)中0和1無所謂<object> # 檢測到的物體，表明這個是一個目標(biāo)，下面的是與該目標(biāo)相關(guān)的信息<name>dog</name> # 物體類別<pose>Left</pose> # 拍攝角度（包括：front, rear, left, right, unspecified ）<truncated>1</truncated> # 目標(biāo)是否被截斷（比如一部分在圖片之外），或者被遮擋（超過15%），0代表完整<difficult>0</difficult> # 檢測難易程度，這個主要是根據(jù)目標(biāo)的大小，光照變化，圖片質(zhì)量來判斷，0代表容易識別<bndbox> # bounding box 的左上角點和右下角點的4個坐標(biāo)值<xmin>48</xmin><ymin>240</ymin><xmax>195</xmax><ymax>371</ymax></bndbox></object><object> # 除了上邊的又檢測到的物體，表明檢測到多個物體<name>person</name><pose>Left</pose><truncated>1</truncated><difficult>0</difficult><bndbox><xmin>8</xmin><ymin>12</ymin><xmax>352</xmax><ymax>498</ymax></bndbox></object> </annotation>

ImageSets ：存放的是圖像數(shù)據(jù)，包含三個子文件夾 Layout、Main、Segmentation。其中 Main 存放的是用于分類和檢測的數(shù)據(jù)集的分割文件，一共20個種類， Layout和Segmentation分別是人的身體部位和用于分割的數(shù)據(jù)。
其中Main文件夾中：包括
_train.txt：用于訓(xùn)練的圖片名稱
_val.txt ：用于驗證的圖片名稱
_trainval.txt： train與val的合集（訓(xùn)練數(shù)據(jù)和驗證數(shù)據(jù)無交集，即一張圖片不可能同時屬于訓(xùn)練集又屬于驗證集）
_test.txt ：用于測試的圖片名稱

每一個.txt文件打開后，如下：
前面的是圖像名稱，后邊的+1和-1分別代表正負(fù)樣本。上圖即代表在訓(xùn)練集中這張圖片（000012）是aeroplane的話為1，不是則為-1。其他所有的 (class)_(imgset).txt 文件都是類似的。

JPEGImages：存放的是 .jpg 格式的圖片，包括了所有訓(xùn)練圖片和測試圖片。
SegmentationClass：存放的是按照類別分割后的圖片
SegmentationObject：存放的是按照物體分割后的圖片
參考：https://arleyzhang.github.io/articles/1dc20586/
https://blog.csdn.net/zhangjunbob/article/details/52769381

總結(jié)

以上是生活随笔為你收集整理的PASCAL VOC数据集分析及下载、解压的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： python 均匀分布_python 实
下一篇： ARP是什么？+ARP欺骗 MAC为ff