uci数据集_干货收藏!三大领域常用十大开源数据集
全文共1144字,預(yù)計學(xué)習(xí)時長2分鐘
機(jī)器學(xué)習(xí)的研究與實現(xiàn)離不開大數(shù)據(jù)。知曉通用的開源數(shù)據(jù)集,一方面可以驗證自己算法,另一方面也可以與其他算法進(jìn)行比較。本文介紹了計算機(jī)視覺、自然語言處理和語音識別三大領(lǐng)域的十個開源數(shù)據(jù)集以供你參考,絕對值得收藏!
計算機(jī)視覺
MNIST
MNIST 數(shù)據(jù)集來自美國國家標(biāo)準(zhǔn)與技術(shù)研究所,National Institute of Standards and Technology (NIST)。訓(xùn)練集 (training set) 由來自250個不同人手寫的數(shù)字構(gòu)成,其中 50% 是高中學(xué)生,50% 來自人口普查局 (the Census Bureau) 的工作人員。測試集(test set) 也是同樣比例的手寫數(shù)字?jǐn)?shù)據(jù)。
鏈接:http://pjreddie.com/projects/mnist-in-csv/
CIFAR 10
CIFAR-10數(shù)據(jù)集由10個類的60000個32x32彩色圖像組成,每個類有6000個圖像。有50000個訓(xùn)練圖像和10000個測試圖像。數(shù)據(jù)集分為五個訓(xùn)練批次和一個測試批次,每個批次有10000個圖像。測試批次包含來自每個類別的恰好1000個隨機(jī)選擇的圖像。訓(xùn)練批次以隨機(jī)順序包含剩余圖像,但一些訓(xùn)練批次可能包含來自一個類別的圖像比另一個更多??傮w來說,五個訓(xùn)練集之和包含來自每個類的5000張圖像。
鏈接:https://www.cs.toronto.edu/~kriz/cifar.html
ImageNet
圖像處理界最有名的圖像數(shù)據(jù)集之一,一般情況下只用子數(shù)據(jù)集就可以。ImageNet數(shù)據(jù)集是為了促進(jìn)計算機(jī)圖像識別技術(shù)的發(fā)展而設(shè)立的一個大型圖像數(shù)據(jù)集。其圖片數(shù)量最多,分辨率最高,含有的類別更多,有上千個圖像類別。每年ImageNet的項目組織都會舉辦一場ImageNet大規(guī)模視覺識別競賽,從而會誕生許多圖像識別模型。
鏈接:http://image-net.org/
Visual Genome
非常詳細(xì)的視覺知識庫,并帶有100K圖像的深字幕。相較于ImageNet數(shù)據(jù)集,這個數(shù)據(jù)集每張圖片所包含的信息更加豐富,將對象、屬性之間的關(guān)系做注解,是這套數(shù)據(jù)集的核心。Visual Genome數(shù)據(jù)集采用了微軟COCO的圖片庫,用極豐富的細(xì)節(jié)對這十萬張圖片做了注解。
鏈接:http://visualgenome.org/
NLP
WikiText
WikiText 英語詞庫數(shù)據(jù)(The WikiText Long Term Dependency Language Modeling Dataset)是一個包含1億個詞匯的英文詞庫數(shù)據(jù),這些詞匯是從Wikipedia的優(yōu)質(zhì)文章和標(biāo)桿文章中提取得到,包括WikiText-2和WikiText-103兩個版本,相比于著名的 Penn Treebank (PTB) 詞庫中的詞匯數(shù)量,前者是其2倍,后者是其110倍。每個詞匯還同時保留產(chǎn)生該詞匯的原始文章,這尤其適合當(dāng)需要長時依賴(longterm dependency)自然語言建模的場景。
鏈接:http://metamind.io/research/the-wikitext-long-term-dependency-language-modeling-dataset/
SQuAD
SQuAD 是斯坦福大學(xué)于2016年推出的數(shù)據(jù)集,一個閱讀理解數(shù)據(jù)集,給定一篇文章,準(zhǔn)備相應(yīng)問題,需要算法給出問題的答案。此數(shù)據(jù)集所有文章選自維基百科,數(shù)據(jù)集的量為當(dāng)今其他數(shù)據(jù)集(例如,WikiQA)的幾十倍之多。一共有107,785問題,以及配套的 536 篇文章。
鏈接:https://rajpurkar.github.io/SQuAD-explorer/
UCI’s Spambase
來自UCI的經(jīng)典垃圾電子郵件數(shù)據(jù)集。這是一個大型垃圾郵件數(shù)據(jù)集,用于垃圾郵件過濾。
鏈接:https://archive.ics.uci.edu/ml/datasets/Spambase
語音
LibriSpeech
該數(shù)據(jù)集是包含大約1000小時的英語語音的大型語料庫。這些數(shù)據(jù)來自LibriVox項目的有聲讀物。它已被分割并正確對齊,如果你正在尋找一個起點,請查看已準(zhǔn)備好的聲學(xué)模型,這些模型在http://kaldi-asr.org和語言模型上進(jìn)行了訓(xùn)練,適合評估。
鏈接:http://www.openslr.org/12/
2000 HUB5 English
只包含英語的語音數(shù)據(jù)。最近一次被使用是百度的深度語音論文。
鏈接:https://catalog.ldc.upenn.edu/LDC2002T43
VoxForge
帶口音英語的清晰語音數(shù)據(jù)集。如果你需要有強(qiáng)大的不同口音、語調(diào)識別能力,會比較有用,可以提高系統(tǒng)的魯棒性。
鏈接:http://www.voxforge.org/
總結(jié)
以上是生活随笔為你收集整理的uci数据集_干货收藏!三大领域常用十大开源数据集的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: CubeMx 生成的FreeRTOS 代
- 下一篇: java编程求原码,补码_java语言基