當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

uci数据集_干货收藏！三大领域常用十大开源数据集

發(fā)布時間：2023/12/10 编程问答 84 豆豆

生活随笔收集整理的這篇文章主要介紹了 uci数据集_干货收藏！三大领域常用十大开源数据集小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

全文共1144字，預(yù)計學(xué)習(xí)時長2分鐘

機(jī)器學(xué)習(xí)的研究與實現(xiàn)離不開大數(shù)據(jù)。知曉通用的開源數(shù)據(jù)集，一方面可以驗證自己算法，另一方面也可以與其他算法進(jìn)行比較。本文介紹了計算機(jī)視覺、自然語言處理和語音識別三大領(lǐng)域的十個開源數(shù)據(jù)集以供你參考，絕對值得收藏！

計算機(jī)視覺

MNIST

MNIST 數(shù)據(jù)集來自美國國家標(biāo)準(zhǔn)與技術(shù)研究所，National Institute of Standards and Technology (NIST)。訓(xùn)練集 (training set) 由來自250個不同人手寫的數(shù)字構(gòu)成，其中 50% 是高中學(xué)生，50% 來自人口普查局 (the Census Bureau) 的工作人員。測試集(test set) 也是同樣比例的手寫數(shù)字?jǐn)?shù)據(jù)。

鏈接：http://pjreddie.com/projects/mnist-in-csv/

CIFAR 10

CIFAR-10數(shù)據(jù)集由10個類的60000個32x32彩色圖像組成，每個類有6000個圖像。有50000個訓(xùn)練圖像和10000個測試圖像。數(shù)據(jù)集分為五個訓(xùn)練批次和一個測試批次，每個批次有10000個圖像。測試批次包含來自每個類別的恰好1000個隨機(jī)選擇的圖像。訓(xùn)練批次以隨機(jī)順序包含剩余圖像，但一些訓(xùn)練批次可能包含來自一個類別的圖像比另一個更多?？傮w來說，五個訓(xùn)練集之和包含來自每個類的5000張圖像。

鏈接：https://www.cs.toronto.edu/~kriz/cifar.html

ImageNet

圖像處理界最有名的圖像數(shù)據(jù)集之一，一般情況下只用子數(shù)據(jù)集就可以。ImageNet數(shù)據(jù)集是為了促進(jìn)計算機(jī)圖像識別技術(shù)的發(fā)展而設(shè)立的一個大型圖像數(shù)據(jù)集。其圖片數(shù)量最多，分辨率最高，含有的類別更多，有上千個圖像類別。每年ImageNet的項目組織都會舉辦一場ImageNet大規(guī)模視覺識別競賽，從而會誕生許多圖像識別模型。

鏈接：http://image-net.org/

Visual Genome

非常詳細(xì)的視覺知識庫，并帶有100K圖像的深字幕。相較于ImageNet數(shù)據(jù)集，這個數(shù)據(jù)集每張圖片所包含的信息更加豐富，將對象、屬性之間的關(guān)系做注解，是這套數(shù)據(jù)集的核心。Visual Genome數(shù)據(jù)集采用了微軟COCO的圖片庫，用極豐富的細(xì)節(jié)對這十萬張圖片做了注解。

鏈接：http://visualgenome.org/

NLP

WikiText

WikiText 英語詞庫數(shù)據(jù)（The WikiText Long Term Dependency Language Modeling Dataset）是一個包含1億個詞匯的英文詞庫數(shù)據(jù)，這些詞匯是從Wikipedia的優(yōu)質(zhì)文章和標(biāo)桿文章中提取得到，包括WikiText-2和WikiText-103兩個版本，相比于著名的 Penn Treebank (PTB) 詞庫中的詞匯數(shù)量，前者是其2倍，后者是其110倍。每個詞匯還同時保留產(chǎn)生該詞匯的原始文章，這尤其適合當(dāng)需要長時依賴(longterm dependency)自然語言建模的場景。

鏈接：http://metamind.io/research/the-wikitext-long-term-dependency-language-modeling-dataset/

SQuAD

SQuAD 是斯坦福大學(xué)于2016年推出的數(shù)據(jù)集，一個閱讀理解數(shù)據(jù)集，給定一篇文章，準(zhǔn)備相應(yīng)問題，需要算法給出問題的答案。此數(shù)據(jù)集所有文章選自維基百科，數(shù)據(jù)集的量為當(dāng)今其他數(shù)據(jù)集(例如，WikiQA)的幾十倍之多。一共有107,785問題，以及配套的 536 篇文章。

鏈接：https://rajpurkar.github.io/SQuAD-explorer/

UCI’s Spambase

來自UCI的經(jīng)典垃圾電子郵件數(shù)據(jù)集。這是一個大型垃圾郵件數(shù)據(jù)集，用于垃圾郵件過濾。

鏈接：https://archive.ics.uci.edu/ml/datasets/Spambase

語音

LibriSpeech

該數(shù)據(jù)集是包含大約1000小時的英語語音的大型語料庫。這些數(shù)據(jù)來自LibriVox項目的有聲讀物。它已被分割并正確對齊，如果你正在尋找一個起點，請查看已準(zhǔn)備好的聲學(xué)模型，這些模型在http://kaldi-asr.org和語言模型上進(jìn)行了訓(xùn)練，適合評估。

鏈接：http://www.openslr.org/12/

2000 HUB5 English

只包含英語的語音數(shù)據(jù)。最近一次被使用是百度的深度語音論文。

鏈接：https://catalog.ldc.upenn.edu/LDC2002T43

VoxForge

帶口音英語的清晰語音數(shù)據(jù)集。如果你需要有強(qiáng)大的不同口音、語調(diào)識別能力，會比較有用，可以提高系統(tǒng)的魯棒性。

鏈接：http://www.voxforge.org/

總結(jié)

以上是生活随笔為你收集整理的uci数据集_干货收藏！三大领域常用十大开源数据集的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： CubeMx 生成的FreeRTOS 代
下一篇： java编程求原码，补码_java语言基

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

uci数据集_干货收藏！三大领域常用十大开源数据集

總結(jié)