深度学习常用数据集介绍
數(shù)據(jù)集大全
- 數(shù)據(jù)集大全
- 介紹
- 目前接觸到的數(shù)據(jù)集
- 1. [MNIST](http://yann.lecun.com/exdb/mnist/)
- 2. [CIFAR-10 / CIFAR-100](http://www.cs.toronto.edu/~kriz/cifar.html)
- 3. [ImageNet](http://www.image-net.org/)
- 4. [COCO](https://cocodataset.org/#home)
- 5. [PASCAL VOC](https://pjreddie.com/projects/pascal-voc-dataset-mirror/)
- 6. [Caltech101](http://www.vision.caltech.edu/Image_Datasets/Caltech101/)
- 7. [LFW](http://vis-www.cs.umass.edu/lfw/)
- 8. [fashion-mnist](https://www.kaggle.com/zalando-research/fashionmnist)
- 9. [DIV2K](https://data.vision.ee.ethz.ch/cvl/DIV2K/)
- 10. [Set5]()
- 收藏其他類數(shù)據(jù)集:
數(shù)據(jù)集大全
介紹
深度學(xué)習(xí)的關(guān)鍵是訓(xùn)練。無(wú)論是從圖像處理到語(yǔ)音識(shí)別,每個(gè)問(wèn)題都有其獨(dú)特的細(xì)微差別和方法。
但是,你可以從哪里獲得這些數(shù)據(jù)?現(xiàn)在你看到的很多研究論文都使用專有數(shù)據(jù)集,而這些數(shù)據(jù)集通常不會(huì)向公眾發(fā)布。如果你想學(xué)習(xí)并應(yīng)用你新掌握的技能,數(shù)據(jù)就成為一個(gè)問(wèn)題。
在本文中,我們列出了一些高質(zhì)量的數(shù)據(jù)集,每個(gè)深度學(xué)習(xí)愛(ài)好者都可以使用并改善改進(jìn)他們模型的性能。擁有這些數(shù)據(jù)集將使你成為一名更好的數(shù)據(jù)科學(xué)家,并且你將從中獲得無(wú)可估量的價(jià)值。我們還收錄了具有最新技術(shù)(SOTA)結(jié)果的論文,供你瀏覽并改進(jìn)你的模型。
如何使用這些數(shù)據(jù)集?
首先要做的事——下載這些數(shù)據(jù)集,這些數(shù)據(jù)集的規(guī)模很大!所以請(qǐng)確保你有一個(gè)快速的互聯(lián)網(wǎng)連接。
數(shù)據(jù)集分為三類——圖像處理、自然語(yǔ)言處理和音頻/語(yǔ)音處理。
讓我們開(kāi)始我們的數(shù)據(jù)集之旅吧!
目前接觸到的數(shù)據(jù)集
1. MNIST
MNIST數(shù)據(jù)集(Mixed National Institute of Standards and Technology database)是美國(guó)國(guó)家標(biāo)準(zhǔn)與技術(shù)研究院收集整理的大型手寫數(shù)字?jǐn)?shù)據(jù)庫(kù),包含60,000個(gè)示例的訓(xùn)練集以及10,000個(gè)示例的測(cè)試集.
你可以在 Yann LeCun的官網(wǎng)下載這套數(shù)據(jù)集,共四個(gè)文件包:
- train-images-idx3-ubyte.gz: 訓(xùn)練圖片集 (9912422 bytes)
- train-labels-idx1-ubyte.gz: 訓(xùn)練圖片集的正確標(biāo)簽 (28881 bytes)
- t10k-images-idx3-ubyte.gz: 測(cè)試圖片 (1648877 bytes)
- t10k-labels-idx1-ubyte.gz: 測(cè)試圖片的正確標(biāo)簽 (4542 bytes)
每張圖片包含一個(gè)手寫數(shù)字。
數(shù)據(jù)集包含6萬(wàn)張圖片用于訓(xùn)練,1萬(wàn)張用于測(cè)試驗(yàn)證。
圖像數(shù)據(jù)格式和圖向量
每張圖片表達(dá)了[0,9]這是10個(gè)數(shù)字中的一個(gè),有28X28=784個(gè)像素,每個(gè)像素根據(jù)灰度取整數(shù)值[0,255];把每張圖片看作具有784個(gè)特征的圖向量,問(wèn)題就變成:根據(jù)D個(gè)特征維度,對(duì)圖像做K分類的問(wèn)題,這里D=784,K=10。
各個(gè)數(shù)字的數(shù)據(jù)量如下:
MNIST文件格式
圖片images文件,前16個(gè)字節(jié),是文件格式和圖片數(shù)量、規(guī)格的描述;圖片的像素信息從第17個(gè)字節(jié)開(kāi)始。
[offset] [type] [value] [description]
0000 32 bit integer 0x00000803(2051) magic number 0004 32 bit integer 60000 number of images 0008 32 bit integer 28 number of rows 0012 32 bit integer 28 number of columns 0016 unsigned byte 0 pixel 0017 unsigned byte 0 pixel … xxxx unsigned byte ?? pixel
同樣,標(biāo)簽labels文件里,前8個(gè)字節(jié),是文件格式和標(biāo)簽數(shù)量的描述;而表述正確分類的標(biāo)簽信息,從第9個(gè)字節(jié)開(kāi)始。
[offset] [type] [value] [description]
0000 32 bit integer 0x00000801(2049) magic number 0004 32 bit integer 60000 number of items 0008 unsigned byte 7 label 0009 unsigned byte 2 label … xxxx unsigned byte ?? label
理解了文件格式,就可以很容易地讀取MNIST數(shù)據(jù)。
Ref:
2. CIFAR-10 / CIFAR-100
CIFAR-10 數(shù)據(jù)集由 10 個(gè)類的 60000 個(gè) 32x32 彩色圖像組成,每個(gè)類有 6000 個(gè)圖像。有 50000 個(gè)訓(xùn)練圖像和 10000 個(gè)測(cè)試圖像。
數(shù)據(jù)集分為 5 個(gè)訓(xùn)練批次和 1 個(gè)測(cè)試批次,每個(gè)批次有 10000 個(gè)圖像。測(cè)試批次包含來(lái)自每個(gè)類別的恰好 1000 個(gè)隨機(jī)選擇的圖像。訓(xùn)練批次以隨機(jī)順序包含剩余圖像,但由于一些批次可能包含來(lái)自一個(gè)類別的圖像比另一個(gè)更多,因此總體來(lái)說(shuō),5 個(gè)訓(xùn)練集之和包含來(lái)自每個(gè)類的正好 5000 張圖像。
這 10 類都是彼此獨(dú)立的,不會(huì)相互重疊,因此是多分類單標(biāo)簽問(wèn)題。
3. ImageNet
miniImageNet和omniglot數(shù)據(jù)集在元學(xué)習(xí)和小樣本學(xué)習(xí)領(lǐng)域應(yīng)用廣泛,但是網(wǎng)絡(luò)上鮮有對(duì)miniImageNet數(shù)據(jù)集的介紹,因此在這里我對(duì)這個(gè)數(shù)據(jù)集做了一個(gè)簡(jiǎn)要的介紹。
ImageNet簡(jiǎn)介
miniImageNet數(shù)據(jù)集節(jié)選自ImageNet數(shù)據(jù)集。ImageNet是一個(gè)非常有名的大型視覺(jué)數(shù)據(jù)集,它的建立旨在促進(jìn)視覺(jué)識(shí)別研究。訓(xùn)練ImageNet數(shù)據(jù)集需要消耗大量的計(jì)算資源。ImageNet為超過(guò)1400萬(wàn)張圖像進(jìn)行了注釋,而且給至少100萬(wàn)張圖像提供了邊框。
ImageNet包含2萬(wàn)多個(gè)類別,比如:“氣球”、“輪胎”和“狗”等類別,ImageNet的每個(gè)類別均有不少于500張圖像。
訓(xùn)練這么多圖像需要消耗大量的資源,因此在2016年google DeepMind團(tuán)隊(duì)Oriol Vinyals等人在ImageNet的基礎(chǔ)上提取出了miniImageNet數(shù)據(jù)集。
來(lái)源
DeepMind團(tuán)隊(duì)首次將miniImageNet數(shù)據(jù)集用于小樣本學(xué)習(xí)研究,從此miniImageNet成為了元學(xué)習(xí)和小樣本領(lǐng)域的基準(zhǔn)數(shù)據(jù)集。
DeepMind的那篇小樣本學(xué)習(xí)的論文就是大名鼎鼎的Matching Network的來(lái)源: Matching Networks for One Shot Learning 。
miniImageNet包含100類共60000張彩色圖片,其中每類有600個(gè)樣本,每張圖片的規(guī)格為84×84。通常而言,這個(gè)數(shù)據(jù)集的訓(xùn)練集和測(cè)試集的類別劃分為:80:20。相比于CIFAR10數(shù)據(jù)集,miniImageNet數(shù)據(jù)集更加復(fù)雜,但更適合進(jìn)行原型設(shè)計(jì)和實(shí)驗(yàn)研究。
數(shù)據(jù)集架構(gòu)
mini-imagenet一共有2.86GB,文件架構(gòu)如下:
數(shù)據(jù)集中圖片示例:
Ref
4. COCO
5. PASCAL VOC
VOC:visual object classes
此數(shù)據(jù)集可以用于圖像分類、目標(biāo)檢測(cè)、圖像分割。
該挑戰(zhàn)的主要目的是識(shí)別真實(shí)場(chǎng)景中一些類別的物體。在該挑戰(zhàn)中,這是一個(gè)監(jiān)督學(xué)習(xí)的問(wèn)題,訓(xùn)練集以帶標(biāo)簽的圖片的形式給出。這些物體包括20類:
- Person: person;
- Animal: bird, cat, cow, dog, horse, sheep;
- Vehicle: aeroplane, bicycle, boat, bus,car, motorbike, train;
- Indoor: bottle, chair, dining table, pottedplant, sofa, tv/monitor;
- 訓(xùn)練集由一套圖像組成:每個(gè)圖像擁有一個(gè)對(duì)應(yīng)的標(biāo)注文件,給出了圖像中出現(xiàn)的物體的bounding box和class label,該物體屬于上述20類中的某一類。
- 同一張圖像中,可能出現(xiàn)屬于多個(gè)類別的多個(gè)物體。
- 所有的標(biāo)注圖片都有Detection需要的label,但只有部分?jǐn)?shù)據(jù)有Segmentation Label。
- VOC2007中包含9963張標(biāo)注過(guò)的圖片, 由train/val/test三部分組成, 共標(biāo)注出24,640個(gè)物體。
- VOC2007的test數(shù)據(jù)label已經(jīng)公布, 之后的沒(méi)有公布(只有圖片,沒(méi)有l(wèi)abel)。
- 對(duì)于檢測(cè)任務(wù),VOC2012的trainval/test包含08-11年的所有對(duì)應(yīng)圖片。 train/val有11540張圖片共27450個(gè)物體。
- 對(duì)于分割任務(wù), VOC2012的trainval包含07-11年的所有對(duì)應(yīng)圖片, test只包含08-11。train/val有 2913張圖片共6929個(gè)物體。
- 這些圖像中的一部分圖像還擁有像素級(jí)的標(biāo)注,用于segmentation competition。
- 用于action classification的圖片集與用于classification/detection/segmentation的圖片集不相交。它們被部分地標(biāo)注上了圖像中人的bounding box,參考點(diǎn)和動(dòng)作。
- 用于person layout taster的圖像,被額外的標(biāo)注上了人的身體部位(頭、手、腳),其測(cè)試集與主任務(wù)(classification/detection)的測(cè)試集不相交。
- 數(shù)據(jù)集按1:1的比例被分為訓(xùn)練(驗(yàn)證)集和測(cè)試集。這兩部分的圖像中類別的分布也大致相等。
Ref
6. Caltech101
7. LFW
8. fashion-mnist
該數(shù)據(jù)集是 MNIST 數(shù)據(jù)集的一個(gè)替代品,因?yàn)?MNIST 手寫數(shù)據(jù)過(guò)于簡(jiǎn)單,很多時(shí)候體現(xiàn)不出深度神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)機(jī)器學(xué)習(xí)算法之間的差距,所以才出現(xiàn) fashion-mnist 數(shù)據(jù)集。
fashion-mnist 數(shù)據(jù)集也稱潮流數(shù)據(jù)集,涵蓋了來(lái)自 10 種類別的共 7 萬(wàn)個(gè)不同商品的正面圖片,其中有T恤、衛(wèi)衣、長(zhǎng)裙、褲子、鞋子等各種物品,該數(shù)據(jù)集中的圖像都是 28x28 的灰度圖像,這些圖像分別對(duì)應(yīng)著 10 個(gè)類別標(biāo)簽,整個(gè)數(shù)據(jù)集被分為 6 萬(wàn)個(gè)訓(xùn)練數(shù)據(jù)與 1 萬(wàn)個(gè)測(cè)試數(shù)據(jù)??梢钥闯?#xff0c;除了數(shù)據(jù)內(nèi)容不同,其他都與 MNIST 數(shù)據(jù)集相同,簡(jiǎn)單來(lái)講,可以用于處理 MNIST 數(shù)據(jù)集的代碼,通常也可以直接用在 fashion-mnist 數(shù)據(jù)集上。
下載地址:https://github.com/zalandoresearch/fashion-mnist
9. DIV2K
10. Set5
一個(gè)公開(kāi)整理的 Set5 數(shù)據(jù)集的模型性能:Image Super-Resolution on Set5 - 4x upscaling
另一篇文章:Low-Complexity Single-Image Super-Resolution based on Nonnegative Neighbor Embedding
收藏其他類數(shù)據(jù)集:
數(shù)據(jù)集大全:25個(gè)深度學(xué)習(xí)的開(kāi)放數(shù)據(jù)
總結(jié)
以上是生活随笔為你收集整理的深度学习常用数据集介绍的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 顶级会议介绍
- 下一篇: 【Arduino】按键按下执行不同模式程