语义分割数据集——VOC2012
生活随笔
收集整理的這篇文章主要介紹了
语义分割数据集——VOC2012
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
該數據集的主要目的是建立針對實際場景中的視覺目標進行識別的挑戰任務。基于標注的圖像數據,它是基本的有監督學習問題。數據集中總共有20類目標需要識別:
- Person: person
- Animal: bird, cat, cow, dog, horse, sheep
- Vehicle: aeroplane, bicycle, boat, bus, car, motorbike, train
- Indoor: bottle, chair, dining table, potted plant, sofa, tv/monitor
基于上述數據集,有三項視覺目標識別任務:分類(classification),檢測(detection),分割(segmentation)。 ImageNet提供了另外一個大規模目標識別數據集,主要用于分類任務。此外,還有一個 Person Layout Taster 數據集,主要識別人體的頭、手、腳的位置
voc2012各個文件夾介紹
- Annotations文件夾中是圖片的XML信息,xml信息包含了該圖片的基本信息,xml語言很易讀,我們從中可以輕易得出這幅圖片的一些基本信息,其中segmented一欄為1,這里的意思是這幅圖用于分割(因為VOC2012中一共有10000+圖,但并不都用于分割任務,有的用以物體標識或者動作識別等),若這一欄為0說明這幅圖不是用于圖像分割的。
因為VOC2012中的圖片并不是都用于分割,所以需要txt文件信息來標記處哪些圖片可以用于分割,寫程序的時候就可以利用信息 train.txt 對圖片進行挑選。train和val中的圖片加一起一共2913張圖。
SegmentationClass中的png圖用于圖像分割分類,下圖中有兩類物體,人和飛機,其中飛機和人都對應著特定的顏色,注意該文件夾中的圖片為三通道彩色圖,與之前單通道的灰度圖不同。png圖中對物體的分類像素不是0-20,而是對應著不同的RGB分量:
總結
以上是生活随笔為你收集整理的语义分割数据集——VOC2012的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 常用视频像素格式NV12、NV21、I4
- 下一篇: 【统计学】【2008.11】中国铜铝未来