當前位置：首頁 >

coco数据集大小分类_Microsoft COCO 数据集

發布時間：2025/3/12 35 豆豆

生活随笔收集整理的這篇文章主要介紹了 coco数据集大小分类_Microsoft COCO 数据集小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

本篇博客主要以介紹MS COCO數據集為目標，分為3個部分：COCO介紹，數據集分類和COCO展示。

本人主要下載了其2014年版本的數據，一共有20G左右的圖片和500M左右的標簽文件。標簽文件標記了每個segmentation的像素精確位置+bounding box的精確坐標，其精度均為小數點后兩位。一個目標的標簽示意如下：

{"segmentation":[[392.87, 275.77, 402.24, 284.2, 382.54, 342.36, 375.99, 356.43, 372.23, 357.37, 372.23, 397.7, 383.48, 419.27,407.87, 439.91, 427.57, 389.25, 447.26, 346.11, 447.26, 328.29, 468.84, 290.77,472.59, 266.38], [429.44,465.23, 453.83, 473.67, 636.73, 474.61, 636.73, 392.07, 571.07, 364.88, 546.69,363.0]], "area": 28458.996150000003, "iscrowd": 0,"image_id": 503837, "bbox": [372.23, 266.38, 264.5,208.23], "category_id": 4, "id": 151109},

下面來介紹一下這個數據集。

COCO簡介：

COCO數據集是微軟團隊獲取的一個可以用來圖像recognition+segmentation+captioning 數據集，其官方說明網址：http://mscoco.org/。

該數據集主要有的特點如下：(1)Object segmentation(2)Recognition in Context(3)Multiple objects per image(4)More than 300,000 images(5)More than 2 Million instances(6)80 object categories(7)5 captions per image(8)Keypoints on 100,000 people

為了更好的介紹這個數據集，微軟在ECCV Workshops里發表這篇文章：Microsoft COCO: Common Objects in Context。從這篇文章中，我們了解了這個數據集以scene understanding為目標，主要從復雜的日常場景中截取，圖像中的目標通過精確的segmentation進行位置的標定。圖像包括91類目標，328,000影像和2,500,000個label。

該數據集主要解決3個問題：目標檢測，目標之間的上下文關系，目標的2維上的精確定位。數據集的對比示意圖：

數據集分類：

Image Classification：

分類需要二進制的標簽來確定目標是否在圖像中。早期數據集主要是位于空白背景下的單一目標，如MNIST手寫數據庫，COIL household objects。在機器學習領域的著名數據集有CIFAR-10 and CIFAR-100，在32*32影像上分別提供10和100類。最近最著名的分類數據集即ImageNet，22,000類，每類500-1000影像。

Object Detection：

經典的情況下通過bounding box確定目標位置，期初主要用于人臉檢測與行人檢測，數據集如Caltech Pedestrian Dataset包含350,000個bounding box標簽。PASCAL VOC數據包括20個目標超過11,000圖像，超過27,000目標bounding box。最近還有ImageNet數據下獲取的detection數據集，200類，400,000張圖像，350,000個bounding box。由于一些目標之間有著強烈的關系而非獨立存在，在特定場景下檢測某種目標是是否有意義的，因此精確的位置信息比bounding box更加重要。

Semantic scene labeling：

這類問題需要pixel級別的標簽，其中個別目標很難定義，如街道和草地。數據集主要包括室內場景和室外場景的，一些數據集包括深度信息。其中，SUN dataset包括908個場景類，3,819個常規目標類(person, chair, car)和語義場景類(wall, sky, floor)，每類的數目具有較大的差別(這點COCO數據進行改進，保證每一類數據足夠)。

Other vision datasets：

一些數據集如Middlebury datasets，包含立體相對，多視角立體像對和光流；同時還有Berkeley Segmentation Data Set (BSDS500)，可以評價segmentation和edge detection算法。

COCO展示：

該數據集標記流程如下：

COCO數據集有91類，雖然比ImageNet和SUN類別少，但是每一類的圖像多，這有利于獲得更多的每類中位于某種特定場景的能力，對比PASCAL VOC，其有更多類和圖像。

COCO數據集分兩部分發布，前部分于2014年發布，后部分于2015年，2014年版本：82,783 training, 40,504 validation, and 40,775?testing images，有270k的segmented people和886k的segmented object；2015年版本：165,482 train, 81,208 val, and 81,434 test images。

其性能對比和一些例子：

總結

以上是生活随笔為你收集整理的coco数据集大小分类_Microsoft COCO 数据集的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：基于JavaSwing+Mysql点餐系
下一篇： 1流明等于多少lux_光通量(流明)和照

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

coco数据集大小分类_Microsoft COCO 数据集

總結