coco数据集大小分类_Microsoft COCO 数据集
本篇博客主要以介紹MS COCO數(shù)據(jù)集為目標(biāo),分為3個(gè)部分:COCO介紹,數(shù)據(jù)集分類和COCO展示。
本人主要下載了其2014年版本的數(shù)據(jù),一共有20G左右的圖片和500M左右的標(biāo)簽文件。標(biāo)簽文件標(biāo)記了每個(gè)segmentation的像素精確位置+bounding box的精確坐標(biāo),其精度均為小數(shù)點(diǎn)后兩位。一個(gè)目標(biāo)的標(biāo)簽示意如下:
{"segmentation":[[392.87, 275.77, 402.24, 284.2, 382.54, 342.36, 375.99, 356.43, 372.23, 357.37, 372.23, 397.7, 383.48, 419.27,407.87, 439.91, 427.57, 389.25, 447.26, 346.11, 447.26, 328.29, 468.84, 290.77,472.59, 266.38], [429.44,465.23, 453.83, 473.67, 636.73, 474.61, 636.73, 392.07, 571.07, 364.88, 546.69,363.0]], "area": 28458.996150000003, "iscrowd": 0,"image_id": 503837, "bbox": [372.23, 266.38, 264.5,208.23], "category_id": 4, "id": 151109},
下面來介紹一下這個(gè)數(shù)據(jù)集。
COCO簡(jiǎn)介:
COCO數(shù)據(jù)集是微軟團(tuán)隊(duì)獲取的一個(gè)可以用來圖像recognition+segmentation+captioning 數(shù)據(jù)集,其官方說明網(wǎng)址:http://mscoco.org/。
該數(shù)據(jù)集主要有的特點(diǎn)如下:(1)Object segmentation(2)Recognition in Context(3)Multiple objects per image(4)More than 300,000 images(5)More than 2 Million instances(6)80 object categories(7)5 captions per image(8)Keypoints on 100,000 people
為了更好的介紹這個(gè)數(shù)據(jù)集,微軟在ECCV Workshops里發(fā)表這篇文章:Microsoft COCO: Common Objects in Context。從這篇文章中,我們了解了這個(gè)數(shù)據(jù)集以scene understanding為目標(biāo),主要從復(fù)雜的日常場(chǎng)景中截取,圖像中的目標(biāo)通過精確的segmentation進(jìn)行位置的標(biāo)定。圖像包括91類目標(biāo),328,000影像和2,500,000個(gè)label。
該數(shù)據(jù)集主要解決3個(gè)問題:目標(biāo)檢測(cè),目標(biāo)之間的上下文關(guān)系,目標(biāo)的2維上的精確定位。數(shù)據(jù)集的對(duì)比示意圖:
數(shù)據(jù)集分類:
Image Classification:
分類需要二進(jìn)制的標(biāo)簽來確定目標(biāo)是否在圖像中。早期數(shù)據(jù)集主要是位于空白背景下的單一目標(biāo),如MNIST手寫數(shù)據(jù)庫(kù),COIL household objects。在機(jī)器學(xué)習(xí)領(lǐng)域的著名數(shù)據(jù)集有CIFAR-10 and CIFAR-100,在32*32影像上分別提供10和100類。最近最著名的分類數(shù)據(jù)集即ImageNet,22,000類,每類500-1000影像。
Object Detection:
經(jīng)典的情況下通過bounding box確定目標(biāo)位置,期初主要用于人臉檢測(cè)與行人檢測(cè),數(shù)據(jù)集如Caltech Pedestrian Dataset包含350,000個(gè)bounding box標(biāo)簽。PASCAL VOC數(shù)據(jù)包括20個(gè)目標(biāo)超過11,000圖像,超過27,000目標(biāo)bounding box。最近還有ImageNet數(shù)據(jù)下獲取的detection數(shù)據(jù)集,200類,400,000張圖像,350,000個(gè)bounding box。由于一些目標(biāo)之間有著強(qiáng)烈的關(guān)系而非獨(dú)立存在,在特定場(chǎng)景下檢測(cè)某種目標(biāo)是是否有意義的,因此精確的位置信息比bounding box更加重要。
Semantic scene labeling:
這類問題需要pixel級(jí)別的標(biāo)簽,其中個(gè)別目標(biāo)很難定義,如街道和草地。數(shù)據(jù)集主要包括室內(nèi)場(chǎng)景和室外場(chǎng)景的,一些數(shù)據(jù)集包括深度信息。其中,SUN dataset包括908個(gè)場(chǎng)景類,3,819個(gè)常規(guī)目標(biāo)類(person, chair, car)和語(yǔ)義場(chǎng)景類(wall, sky, floor),每類的數(shù)目具有較大的差別(這點(diǎn)COCO數(shù)據(jù)進(jìn)行改進(jìn),保證每一類數(shù)據(jù)足夠)。
Other vision datasets:
一些數(shù)據(jù)集如Middlebury datasets,包含立體相對(duì),多視角立體像對(duì)和光流;同時(shí)還有Berkeley Segmentation Data Set (BSDS500),可以評(píng)價(jià)segmentation和edge detection算法。
COCO展示:
該數(shù)據(jù)集標(biāo)記流程如下:
COCO數(shù)據(jù)集有91類,雖然比ImageNet和SUN類別少,但是每一類的圖像多,這有利于獲得更多的每類中位于某種特定場(chǎng)景的能力,對(duì)比PASCAL VOC,其有更多類和圖像。
COCO數(shù)據(jù)集分兩部分發(fā)布,前部分于2014年發(fā)布,后部分于2015年,2014年版本:82,783 training, 40,504 validation, and 40,775?testing images,有270k的segmented people和886k的segmented object;2015年版本:165,482 train, 81,208 val, and 81,434 test images。
其性能對(duì)比和一些例子:
總結(jié)
以上是生活随笔為你收集整理的coco数据集大小分类_Microsoft COCO 数据集的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 基于JavaSwing+Mysql点餐系
- 下一篇: 1流明等于多少lux_光通量(流明)和照