公开数据集
Open Images dataset
為了促進(jìn)計(jì)算機(jī)視覺(jué)技術(shù)的進(jìn)步,谷歌發(fā)布了Open Images,大約900萬(wàn)URL的已經(jīng)標(biāo)注圖像數(shù)據(jù)集,橫跨6000個(gè)分類。
2016年8月20日
UCI Machine Learning Repository
機(jī)器學(xué)習(xí)的一個(gè)數(shù)據(jù)庫(kù)
2016年8月2日
社交數(shù)據(jù)及匯總
清華大學(xué)唐杰老師課題組將他們近年論文中用到的相關(guān)數(shù)據(jù)匯總,共24個(gè)數(shù)據(jù)集,包括twitter,專利,mobile,linkedin,維基百科,電影,微博等。很多數(shù)據(jù)還包括人工標(biāo)注的結(jié)果
如果你是一個(gè)初學(xué)者,你每完成一個(gè)新項(xiàng)目后自身能力都會(huì)有極大的提高,如果你是一個(gè)有經(jīng)驗(yàn)的數(shù)據(jù)科學(xué)專家,你已經(jīng)知道這里所蘊(yùn)含的價(jià)值。
本文將為您提供一個(gè)網(wǎng)站/資源列表,從中你可以使用數(shù)據(jù)來(lái)完成你自己的數(shù)據(jù)項(xiàng)目,甚至創(chuàng)造你自己的產(chǎn)品。
一.如何使用這些資源?
如何使用這些數(shù)據(jù)源是沒(méi)有限制的,應(yīng)用和使用只受到您的創(chuàng)造力和實(shí)際應(yīng)用。使用它們最簡(jiǎn)單的方法是進(jìn)行數(shù)據(jù)項(xiàng)目并在網(wǎng)站上發(fā)布它們。這不僅能提高你的數(shù)據(jù)和可視化技能,還能改善你的結(jié)構(gòu)化思維。另一方面,如果你正在考慮/處理基于數(shù)據(jù)的產(chǎn)品,這些數(shù)據(jù)集可以通過(guò)提供額外的/新的輸入數(shù)據(jù)來(lái)增加您的產(chǎn)品的功能。所以,繼續(xù)在這些項(xiàng)目上工作吧,與更大的世界分享它們,以展示你的數(shù)據(jù)能力!我們已經(jīng)在不同的部分中劃分了這些數(shù)據(jù)源,以幫助你根據(jù)應(yīng)用程序?qū)?shù)據(jù)源進(jìn)行分類。我們從簡(jiǎn)單、通用和易于處理數(shù)據(jù)集開(kāi)始,然后轉(zhuǎn)向大型/行業(yè)相關(guān)數(shù)據(jù)集。然后,我們?yōu)樘囟ǖ哪康摹谋就诰颉D像分類、推薦引擎等提供數(shù)據(jù)集的鏈接。這將為您提供一個(gè)完整的數(shù)據(jù)資源列表。如果你能想到這些數(shù)據(jù)集的任何應(yīng)用,或者知道我們漏掉了什么流行的資源,請(qǐng)?jiān)谙旅娴脑u(píng)論中與我們分享。(部分可能需要翻墻)
二.由簡(jiǎn)單和通用的數(shù)據(jù)集開(kāi)始
1.data.gov( https://www.data.gov/ )
這是美國(guó)政府公開(kāi)數(shù)據(jù)的所在地,該站點(diǎn)包含了超過(guò)19萬(wàn)的數(shù)據(jù)點(diǎn)。這些數(shù)據(jù)集不同于氣候、教育、能源、金融和更多領(lǐng)域的數(shù)據(jù)。
2.data.gov.in( https://data.gov.in/ )
這是印度政府公開(kāi)數(shù)據(jù)的所在地,通過(guò)各種行業(yè)、氣候、醫(yī)療保健等來(lái)尋找數(shù)據(jù),你可以在這里找到一些靈感。根據(jù)你居住的國(guó)家的不同,你也可以從其他一些網(wǎng)站上瀏覽類似的網(wǎng)站。
3.WorldBank( http://data.worldbank.org/ )
世界銀行的開(kāi)放數(shù)據(jù)。該平臺(tái)提供 Open Data Catalog,世界發(fā)展指數(shù),教育指數(shù)等幾個(gè)工具。
4.RBI( https://rbi.org.in/Scripts/Statistics.aspx )
印度儲(chǔ)備銀行提供的數(shù)據(jù)。這包括了貨幣市場(chǎng)操作、收支平衡、銀行使用和一些產(chǎn)品的幾個(gè)指標(biāo)。
5.Five ThirtyEight Datasets ( https://github.com/fivethirtyeight/data )
Five Thirty Eight,亦稱作 538,專注與民意調(diào)查分析,政治,經(jīng)濟(jì)與體育的博客。該數(shù)據(jù)集為 Five ThirtyEight Datasets 使用的數(shù)據(jù)集。每個(gè)數(shù)據(jù)集包括數(shù)據(jù),解釋數(shù)據(jù)的字典和Five ThirtyEight 文章的鏈接。如果你想學(xué)習(xí)如何創(chuàng)建數(shù)據(jù)故事,沒(méi)有比這個(gè)更好。
三.大型數(shù)據(jù)集
1.Amazon WebServices(AWS)datasets
( https://aws.amazon.com/cn/datasets/ )
Amazon提供了一些大數(shù)據(jù)集,可以在他們的平臺(tái)上使用,也可以在本地計(jì)算機(jī)上使用。您還可以通過(guò)EMR使用EC2和Hadoop來(lái)分析云中的數(shù)據(jù)。在亞馬遜上流行的數(shù)據(jù)集包括完整的安然電子郵件數(shù)據(jù)集,Google Booksn-gram,NASA NEX 數(shù)據(jù)集,百萬(wàn)歌曲數(shù)據(jù)集等。
2.Googledatasets
( https://cloud.google.com/bigquery/public-data/ )
Google 提供了一些數(shù)據(jù)集作為其 Big Query 工具的一部分。包括 GitHub 公共資料庫(kù)的數(shù)據(jù),Hacker News 的所有故事和評(píng)論。
3.Youtubelabeled Video Dataset
( https://research.google.com/youtube8m/ )
幾個(gè)月前,谷歌研究小組發(fā)布了YouTube上的“數(shù)據(jù)集”,它由800萬(wàn)個(gè)YouTube視頻id和4800個(gè)視覺(jué)實(shí)體的相關(guān)標(biāo)簽組成。它來(lái)自數(shù)十億幀的預(yù)先計(jì)算的,最先進(jìn)的視覺(jué)特征。
四.預(yù)測(cè)建模與機(jī)器學(xué)習(xí)數(shù)據(jù)集
1.UCI MachineLearning Repository
( https://archive.ics.uci.edu/ml/datasets.html )
UCI機(jī)器學(xué)習(xí)庫(kù)顯然是最著名的數(shù)據(jù)存儲(chǔ)庫(kù)。如果您正在尋找與機(jī)器學(xué)習(xí)存儲(chǔ)庫(kù)相關(guān)的數(shù)據(jù)集,通常是首選的地方。這些數(shù)據(jù)集包括了各種各樣的數(shù)據(jù)集,從像Iris和泰坦尼克這樣的流行數(shù)據(jù)集到最近的貢獻(xiàn),比如空氣質(zhì)量和GPS軌跡。存儲(chǔ)庫(kù)包含超過(guò)350個(gè)與域名類似的數(shù)據(jù)集(分類/回歸)。您可以使用這些過(guò)濾器來(lái)確定您需要的數(shù)據(jù)集。
2.Kaggle
( https://www.kaggle.com/datasets )
Kaggle提出了一個(gè)平臺(tái),人們可以貢獻(xiàn)數(shù)據(jù)集,其他社區(qū)成員可以投票并運(yùn)行內(nèi)核/腳本。他們總共有超過(guò)350個(gè)數(shù)據(jù)集——有超過(guò)200個(gè)特征數(shù)據(jù)集。雖然一些最初的數(shù)據(jù)集通常出現(xiàn)在其他地方,但我在平臺(tái)上看到了一些有趣的數(shù)據(jù)集,而不是在其他地方出現(xiàn)。與新的數(shù)據(jù)集一起,界面的另一個(gè)好處是,您可以在相同的界面上看到來(lái)自社區(qū)成員的腳本和問(wèn)題。
3.AnalyticsVidhya
(https://datahack.analyticsvidhya.com/contest/all/ )
您可以從我們的實(shí)踐問(wèn)題和黑客馬拉松問(wèn)題中參與和下載數(shù)據(jù)集。問(wèn)題數(shù)據(jù)集基于真實(shí)的行業(yè)問(wèn)題,并且相對(duì)較小,因?yàn)樗鼈円馕吨? - 7天的黑客馬拉松。
4.Quandl
( https://www.quandl.com/ )
Quandl 通過(guò)起網(wǎng)站、API 或一些工具的直接集成提供了不同來(lái)源的財(cái)務(wù)、經(jīng)濟(jì)和替代數(shù)據(jù)。他們的數(shù)據(jù)集分為開(kāi)放和付費(fèi)。所有開(kāi)放數(shù)據(jù)集為免費(fèi),但高級(jí)數(shù)據(jù)集需要付費(fèi)。通過(guò)搜索仍然可以在平臺(tái)上找到優(yōu)質(zhì)數(shù)據(jù)集。例如,來(lái)自印度的證券交易所數(shù)據(jù)是免費(fèi)的。
5.Past KDDCups
( http://www.kdd.org/kdd-cup )
KDD Cup 是 ACM Special Interest Group 組織的年度數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)競(jìng)賽。
6.DrivenData
( https://www.drivendata.org/ )
Driven Data 發(fā)現(xiàn)運(yùn)用數(shù)據(jù)科學(xué)帶來(lái)積極社會(huì)影響的現(xiàn)實(shí)問(wèn)題。然后,他們?yōu)閿?shù)據(jù)科學(xué)家組織在線模擬競(jìng)賽,從而開(kāi)發(fā)出最好的模型來(lái)解決這些問(wèn)題。
五.圖像分類數(shù)據(jù)集
1.The MNISTDatabase
( http://yann.lecun.com/exdb/mnist/ )
最流行的圖像識(shí)別數(shù)據(jù)集,使用手寫數(shù)字。它包括6萬(wàn)個(gè)示例和1萬(wàn)個(gè)示例的測(cè)試集。這通常是第一個(gè)進(jìn)行圖像識(shí)別的數(shù)據(jù)集。
2.Chars74K
(http://www.ee.surrey.ac.uk/CVSSP/demos/chars74k/ )
這里是下一階段的進(jìn)化,如果你已經(jīng)通過(guò)了手寫的數(shù)字。該數(shù)據(jù)集包括自然圖像中的字符識(shí)別。數(shù)據(jù)集包含74,000個(gè)圖像,因此數(shù)據(jù)集的名稱。
3.Frontal FaceImages
(http://vasc.ri.cmu.edu//idb/html/face/frontal_images/index.html )
如果你已經(jīng)完成了前兩個(gè)項(xiàng)目,并且能夠識(shí)別數(shù)字和字符,這是圖像識(shí)別中的下一個(gè)挑戰(zhàn)級(jí)別——正面人臉圖像。這些圖像是由CMU & MIT收集的,排列在四個(gè)文件夾中。
4.ImageNet
( http://image-net.org/ )
現(xiàn)在是時(shí)候構(gòu)建一些通用的東西了。根據(jù)WordNet層次結(jié)構(gòu)組織的圖像數(shù)據(jù)庫(kù)(目前僅為名詞)。層次結(jié)構(gòu)的每個(gè)節(jié)點(diǎn)都由數(shù)百個(gè)圖像描述。目前,該集合平均每個(gè)節(jié)點(diǎn)有超過(guò)500個(gè)圖像(而且還在增加)。
六.文本分類數(shù)據(jù)集
1.Spam – NonSpam
(http://www.esp.uem.es/jmgomez/smsspamcorpus/)
區(qū)分短信是否為垃圾郵件是一個(gè)有趣的問(wèn)題。你需要構(gòu)建一個(gè)分類器將短信進(jìn)行分類。
2.TwitterSentiment Analysis
(http://thinknook.com/twitter-sentiment-analysis-training-corpus-dataset-2012-09-22/)
該數(shù)據(jù)集包含 1578627 個(gè)分類推文,每行被標(biāo)記為1的積極情緒,0位負(fù)面情緒。數(shù)據(jù)依次基于 Kaggle 比賽和 Nick Sanders 的分析。
3.Movie ReviewData
(http://www.cs.cornell.edu/People/pabo/movie-review-data/)
這個(gè)網(wǎng)站提供了一系列的電影評(píng)論文件,這些文件標(biāo)注了他們的總體情緒極性(正面或負(fù)面)或主觀評(píng)價(jià)(例如,“兩個(gè)半明星”)和對(duì)其主觀性地位(主觀或客觀)或極性的標(biāo)簽。
七.推薦引擎數(shù)據(jù)集
1.MovieLens
( https://grouplens.org/ )
MovieLens 是一個(gè)幫助人們查找電影的網(wǎng)站。它有成千上萬(wàn)的注冊(cè)用戶。他們進(jìn)行自動(dòng)內(nèi)容推薦,推薦界面,基于標(biāo)簽的推薦頁(yè)面等在線實(shí)驗(yàn)。這些數(shù)據(jù)集可供下載,可用于創(chuàng)建自己的推薦系統(tǒng)。
2.Jester
(http://www.ieor.berkeley.edu/~goldberg/jester-data/)
在線笑話推薦系統(tǒng)。
八.各種來(lái)源的數(shù)據(jù)集網(wǎng)站
1.KDNuggets
(http://www.kdnuggets.com/datasets/index.html)
KDNuggets 的數(shù)據(jù)集頁(yè)面一直是人們搜索數(shù)據(jù)集的參考。列表全面,但是某些來(lái)源不再提供數(shù)據(jù)集。因此,需要謹(jǐn)慎選擇數(shù)據(jù)集和來(lái)源。
2.Awesome PublicDatasets
(https://github.com/caesar0301/awesome-public-datasets)
一個(gè)GitHub存儲(chǔ)庫(kù),它包含一個(gè)由域分類的完整的數(shù)據(jù)集列表。數(shù)據(jù)集被整齊地分類在不同的領(lǐng)域,這是非常有用的。但是,對(duì)于存儲(chǔ)庫(kù)本身的數(shù)據(jù)集沒(méi)有描述,這可能使它非常有用。
整理了一些網(wǎng)上的免費(fèi)數(shù)據(jù)集,分類下載地址如下,希望能節(jié)約大家找數(shù)據(jù)的時(shí)間。歡迎數(shù)據(jù)達(dá)人加入QQ群 674283733 交流。
金融
美國(guó)勞工部統(tǒng)計(jì)局官方發(fā)布數(shù)據(jù)
房地產(chǎn)公司 Zillow 公開(kāi)美國(guó)房地產(chǎn)歷史數(shù)據(jù)
滬深股票除權(quán)除息、配股增發(fā)全量數(shù)據(jù),截止 2016.12.31
上證主板日線數(shù)據(jù),截止 2017.05.05,原始價(jià)、前復(fù)權(quán)價(jià)、后復(fù)權(quán)價(jià),1260支股票
深證主板日線數(shù)據(jù),截止 2017.05.05,原始價(jià)、前復(fù)權(quán)價(jià)、后復(fù)權(quán)價(jià),466支股票
深證中小板日線數(shù)據(jù),截止 2017.05.05,原始價(jià)、前復(fù)權(quán)價(jià)、后復(fù)權(quán)價(jià),852支股票
深證創(chuàng)業(yè)板日線數(shù)據(jù),截止 2017.05.05,原始價(jià)、前復(fù)權(quán)價(jià)、后復(fù)權(quán)價(jià),636支股票
上證A股日線數(shù)據(jù),1999.12.09至 2016.06.08,前復(fù)權(quán),1095支股票
深證A股日線數(shù)據(jù),1999.12.09至 2016.06.08,前復(fù)權(quán),1766支股票
深證創(chuàng)業(yè)板日線數(shù)據(jù),1999.12.09 至2016.06.08,前復(fù)權(quán),510支股票
MT4平臺(tái)外匯交易歷史數(shù)據(jù)
Forex平臺(tái)外匯交易歷史數(shù)據(jù)
幾組外匯交易逐筆(Ticks)數(shù)據(jù)
美國(guó)股票新聞數(shù)據(jù)【Kaggle數(shù)據(jù)】
美國(guó)醫(yī)療保險(xiǎn)市場(chǎng)數(shù)據(jù)【Kaggle數(shù)據(jù)】
美國(guó)金融客戶投訴數(shù)據(jù)【Kaggle數(shù)據(jù)】
Lending Club 網(wǎng)貸違約數(shù)據(jù)【Kaggle數(shù)據(jù)】
信用卡欺詐數(shù)據(jù)【Kaggle數(shù)據(jù)】
美國(guó)股票數(shù)據(jù)XBRL【Kaggle數(shù)據(jù)】
紐約股票交易所數(shù)據(jù)【Kaggle數(shù)據(jù)】
貸款違約預(yù)測(cè)競(jìng)賽數(shù)據(jù)【Kaggle競(jìng)賽】
Zillow 網(wǎng)站房地產(chǎn)價(jià)值預(yù)測(cè)競(jìng)賽數(shù)據(jù)【Kaggle競(jìng)賽】
Sberbank 俄羅斯房地產(chǎn)價(jià)值預(yù)測(cè)競(jìng)賽數(shù)據(jù)【Kaggle競(jìng)賽】
Homesite 保險(xiǎn)定價(jià)競(jìng)賽數(shù)據(jù)【Kaggle競(jìng)賽】
Winton 股票回報(bào)率預(yù)測(cè)競(jìng)賽數(shù)據(jù)【Kaggle競(jìng)賽】
房屋租賃信息查詢次數(shù)預(yù)測(cè)競(jìng)賽【Kaggle競(jìng)賽】
交通
2013年紐約出租車行駛數(shù)據(jù)
2013年芝加哥出租車行駛數(shù)據(jù)
Udacity自動(dòng)駕駛數(shù)據(jù)
紐約Uber 接客數(shù)據(jù) 【Kaggle數(shù)據(jù)】
英國(guó)車禍數(shù)據(jù)(2005-2015)【Kaagle數(shù)據(jù)】
芝加哥汽車超速數(shù)據(jù)【Kaggle數(shù)據(jù)】
KITTI 自動(dòng)駕駛?cè)蝿?wù)數(shù)據(jù)【數(shù)據(jù)太大僅有部分】
Cityscapes 場(chǎng)景標(biāo)注數(shù)據(jù)【數(shù)據(jù)太大僅有部分】
德國(guó)交通標(biāo)志識(shí)別數(shù)據(jù)
交通信號(hào)識(shí)別數(shù)據(jù)
芝加哥Divvy共享自行車騎行數(shù)據(jù)(2013年至今)
美國(guó)查塔努加市共享單車騎行數(shù)據(jù)
Capital 共享單車騎行數(shù)據(jù)
Bay Area 共享單車騎行數(shù)據(jù)
Nice Ride 共享單車騎行數(shù)據(jù)
花旗銀行共享單車騎行數(shù)據(jù)
運(yùn)用衛(wèi)星數(shù)據(jù)跟蹤亞馬遜熱帶雨林中的人類軌跡競(jìng)賽【Kaggle競(jìng)賽】
紐約出租車管理委員會(huì)官方的乘車數(shù)據(jù)(2009年-2016年)
商業(yè)
Airbnb 開(kāi)放的民宿信息和住客評(píng)論數(shù)據(jù)
Amazon 食品評(píng)論數(shù)據(jù)【Kaggle數(shù)據(jù)】
Amazon 無(wú)鎖手機(jī)評(píng)論數(shù)據(jù)【Kaggle數(shù)據(jù)】
美國(guó)視頻游戲銷售和評(píng)價(jià)數(shù)據(jù)【Kaggle數(shù)據(jù)】
Kaggle 各項(xiàng)競(jìng)賽情況數(shù)據(jù)【Kaggle數(shù)據(jù)】
Bosch 生產(chǎn)流水線降低次品率競(jìng)賽數(shù)據(jù)【Kaggle競(jìng)賽】
預(yù)測(cè)公寓租金競(jìng)賽數(shù)據(jù)
廣告點(diǎn)擊預(yù)測(cè)競(jìng)賽數(shù)據(jù)
餐廳營(yíng)業(yè)收入預(yù)測(cè)建模競(jìng)賽
銀行產(chǎn)品推薦競(jìng)賽數(shù)據(jù)
網(wǎng)站用戶推薦點(diǎn)擊預(yù)測(cè)競(jìng)賽數(shù)據(jù)
在線廣告實(shí)時(shí)競(jìng)價(jià)數(shù)據(jù)【Kaggle數(shù)據(jù)】
購(gòu)物車商品關(guān)聯(lián)競(jìng)賽數(shù)據(jù)【Kaggle競(jìng)賽】
Airbnb 新用戶的民宿預(yù)定預(yù)測(cè)競(jìng)賽數(shù)據(jù)【Kaggle競(jìng)賽】
Yelp 點(diǎn)評(píng)網(wǎng)站公開(kāi)數(shù)據(jù)
KKBOX 音樂(lè)用戶續(xù)訂預(yù)測(cè)競(jìng)賽【Kaggle競(jìng)賽】
Grupo Bimbo 面包店庫(kù)存和銷量預(yù)測(cè)競(jìng)賽【Kaggle競(jìng)賽】
推薦系統(tǒng)
Netflix 電影評(píng)價(jià)數(shù)據(jù)
MovieLens 20m 電影推薦數(shù)據(jù)集
WikiLens
Jester HetRec2011
Book Crossing Large MovieReview
Retailrocket 商品評(píng)論和推薦數(shù)據(jù)
1萬(wàn)本暢銷書的6百萬(wàn)讀者評(píng)分?jǐn)?shù)據(jù)
醫(yī)療健康
人識(shí)別物體時(shí)大腦核磁共振影像數(shù)據(jù)
人理解單詞時(shí)大腦核磁共振影像數(shù)據(jù)
心臟病心房圖像及標(biāo)注數(shù)據(jù)
細(xì)胞病理識(shí)別
FIRE 視網(wǎng)膜眼底病變圖像數(shù)據(jù)
食物營(yíng)養(yǎng)成分?jǐn)?shù)據(jù) 【Kaggle數(shù)據(jù)】
EGG 大腦電波形狀數(shù)據(jù)【Kaggle數(shù)據(jù)】
某人基因序列數(shù)據(jù)【Kaggle數(shù)據(jù)】
癌癥CT影像數(shù)據(jù)【Kaggle數(shù)據(jù)】
軟組織肉瘤CT圖像數(shù)據(jù)【Kaggle數(shù)據(jù)】
美國(guó)國(guó)家健康與服務(wù)部-國(guó)家癌癥研究所發(fā)起的癌癥數(shù)據(jù)倉(cāng)庫(kù)介紹【僅有介紹】
Data ScienceBowl 2017 肺癌識(shí)別競(jìng)賽數(shù)據(jù)【數(shù)據(jù)太大僅有介紹】
TCGA-LUAD 肺癌CT圖像數(shù)據(jù)
RIDER Lung CT 肺癌CT影像
TCGA-COAD癌癥CT影像數(shù)據(jù)
TCIA-TCGA-OV 癌癥CT影像數(shù)據(jù)
TCIA RIDER NEURO癌癥MRI影像數(shù)據(jù)
QIN Beast 乳腺癌MRI影像數(shù)據(jù)
SPIE-AAPM-NCIPROSTATEx競(jìng)賽第1部分?jǐn)?shù)據(jù)(MRI核磁共振影像識(shí)別前列腺癌程度數(shù)據(jù)) SPIE-AAPM-NCIPROSTATEx競(jìng)賽第2部分?jǐn)?shù)據(jù)(MRI核磁共振影像識(shí)別前列腺癌程度數(shù)據(jù))RIDER Breast 乳腺癌 MRI 影像數(shù)據(jù)
Lung Phantom 癌癥 CT 影像數(shù)據(jù)集
TCIA-QIN-LUNG 肺癌 CT 影像數(shù)據(jù)集
醫(yī)療CT影像、年齡和對(duì)比標(biāo)注數(shù)據(jù)【Kaggle競(jìng)賽】
TCGA-ESCA癌癥 CT 影像數(shù)據(jù)集
TCGA-CESC癌癥 CT 影像數(shù)據(jù)集
TCGA-KICH癌癥 CT 影像數(shù)據(jù)集
從 CT 影像中對(duì)肺部影像進(jìn)行分割并識(shí)別肺部容積【Kaggle競(jìng)賽】
通過(guò)Egg腦電圖像預(yù)測(cè)患者癲癇病發(fā)作競(jìng)賽【Kaggle競(jìng)賽】
遺傳突變分類競(jìng)賽【Kaggle競(jìng)賽】
MIMIC-III 臨床監(jiān)護(hù)數(shù)據(jù)
圖像數(shù)據(jù)
綜合圖像
Visual Genome 圖像數(shù)據(jù)
Visual7w 圖像數(shù)據(jù)
COCO 圖像數(shù)據(jù)
SUFR 圖像數(shù)據(jù)
ILSVRC 2014 訓(xùn)練數(shù)據(jù)(ImageNet的一部分)
PASCAL Visual Object Classes 2012 圖像數(shù)據(jù)
PASCAL Visual Object Classes 2011 圖像數(shù)據(jù)
PASCAL Visual Object Classes 2010 圖像數(shù)據(jù)
80 Million Tiny Image 圖像數(shù)據(jù)【數(shù)據(jù)太大僅有介紹】
ImageNet【數(shù)據(jù)太大僅有介紹】
Google Open Images【數(shù)據(jù)太大僅有介紹】
Imagenet 小尺寸圖像數(shù)據(jù)集
Yahoo Flickr 照片和視頻數(shù)據(jù)集
場(chǎng)景圖像
Street Scences 圖像數(shù)據(jù)
Places2 場(chǎng)景圖像數(shù)據(jù)
UCF GoogleStreet View 圖像數(shù)據(jù)
SUN 場(chǎng)景圖像數(shù)據(jù)
The Celebrity inPlaces 圖像數(shù)據(jù)
Web標(biāo)簽圖像
HARRISON 社交標(biāo)簽圖像
NUS-WIDE 標(biāo)簽圖像
Visual Synset 標(biāo)簽圖像
Animals WithAttributes 標(biāo)簽圖像
人形輪廓圖像
MPII Human Shape人體輪廓數(shù)據(jù)
Biwi Kinect Head Pose 頭部姿勢(shì)數(shù)據(jù)
上半身人像數(shù)據(jù) INRIA Person 數(shù)據(jù)集
視覺(jué)文字識(shí)別圖像
Street View House Number 門牌號(hào)圖像數(shù)據(jù)
MNIST 手寫數(shù)字識(shí)別圖像數(shù)據(jù)
3D MNIST 數(shù)字識(shí)別圖像數(shù)據(jù)【Kaggle數(shù)據(jù)】
MediaTeam Document 文檔影印和內(nèi)容數(shù)據(jù)
Text Recognition 文字圖像數(shù)據(jù)
NIST Handprinted Forms and Characters 手寫英文字符數(shù)據(jù)
NIST Structured Forms Reference Set of Binary Images (SFRS) 圖像數(shù)據(jù)
NIST Structured Forms Reference Set of Binary Images (SFRS) II 圖像數(shù)據(jù)
特定一類事物圖像
著名的貓圖像標(biāo)注數(shù)據(jù)
Caltech-UCSDBirds200 鳥類圖像數(shù)據(jù)
Stanford Car 汽車圖像數(shù)據(jù)
Cars 汽車圖像數(shù)據(jù)
MIT Cars 汽車圖像數(shù)據(jù)
Stanford Cars 汽車圖像數(shù)據(jù)
Food-101 美食圖像數(shù)據(jù)
17_Category_Flower 圖像數(shù)據(jù)
102_Category_Flower 圖像數(shù)據(jù)
UCI Folio Leaf 圖像數(shù)據(jù)
Labeled Fishes in the Wild 魚類圖像
美國(guó) Yelp 點(diǎn)評(píng)網(wǎng)站酒店照片
CMU-Oxford Sculpture 塑像雕像圖像
Oxford-IIIT Pet 寵物圖像數(shù)據(jù)
Nature Conservancy Fisheries Monitoring 過(guò)度捕撈監(jiān)控圖像數(shù)據(jù)【Kaggle數(shù)據(jù)】
Stanford Dogs Dataset 數(shù)據(jù)集
辛普森一家卡通形象圖像【Kaggle競(jìng)賽】
Fashion-MNIST 時(shí)尚服飾圖像數(shù)據(jù)
材質(zhì)紋理圖像
CURET 紋理材質(zhì)圖像數(shù)據(jù)
ETHZ Synthesizability 紋理圖像數(shù)據(jù)
KTH-TIPS 紋理材質(zhì)圖像數(shù)據(jù)
Describable Textures 紋理圖像數(shù)據(jù)
物體分類圖像
COIL-20 圖像數(shù)據(jù)
COIL-100 圖像數(shù)據(jù)
Caltech-101 圖像數(shù)據(jù)
Caltech-256 圖像數(shù)據(jù)
CIFAR-10 圖像數(shù)據(jù)
CIFAR-100 圖像數(shù)據(jù)
STL-10 圖像數(shù)據(jù)
LabelMe_12_50k圖像數(shù)據(jù)
NORB v1.0 圖像數(shù)據(jù)
NEC Toy Animal 圖像數(shù)據(jù)
iCubWorld 圖像分類數(shù)據(jù)
Multi-class 圖像分類數(shù)據(jù)
GRAZ 圖像分類數(shù)據(jù)
人臉圖像
IMDB-WIKI 500k+ 人臉圖像、年齡性別數(shù)據(jù)
Labeled Faces in the Wild 人臉數(shù)據(jù)
Extended Yale Face Database B 人臉數(shù)據(jù)
Bao Face 人臉數(shù)據(jù)
DC-IGN 論文人臉數(shù)據(jù)
300 Face in Wild 圖像數(shù)據(jù)
BioID Face 人臉數(shù)據(jù)
CMU Frontal Face Images
FDDB_Face Detection Data Set and Benchmark
NIST Mugshot Identification Database Faces in the Wild 人臉數(shù)據(jù)
CelebA 名人人臉圖像數(shù)據(jù)
VGG Face 人臉圖像數(shù)據(jù)
Caltech 10k WebFaces 人臉圖像數(shù)據(jù)
姿勢(shì)動(dòng)作圖像
HMDB_a large human motion database
Human Actionsand Scenes Dataset
Buffy Stickmen V3 人體輪廓識(shí)別圖像數(shù)據(jù)
Human Pose Evaluator 人體輪廓識(shí)別圖像數(shù)據(jù)
Buffy pose 人類姿勢(shì)圖像數(shù)據(jù)
VGG Human Pose Estimation 姿勢(shì)圖像標(biāo)注數(shù)據(jù)
指紋識(shí)別
NIST FIGS 指紋識(shí)別數(shù)據(jù)
NIST Supplemental Fingerprint Card Data (SFCD) 指紋識(shí)別數(shù)據(jù)
NIST Plain and Rolled Images from Paired Fingerprint Cards in 500 pixels per inch 指紋識(shí)別數(shù)據(jù)
NIST Plain and Rolled Images from Paired Fingerprint Cards 1000 pixels per inch 指紋識(shí)別數(shù)據(jù)
其它圖像數(shù)據(jù)
Visual Question Answering V1.0 圖像數(shù)據(jù)
Visual Question Answering V2.0 圖像數(shù)據(jù)
視頻數(shù)據(jù)
綜合視頻
DAVIS_Densely Annotated Video Segmentation 數(shù)據(jù)
YouTube-8M 視頻數(shù)據(jù)集【數(shù)據(jù)太大僅有介紹】
YouTube 網(wǎng)站視頻備份【數(shù)據(jù)太大僅有介紹】
人類動(dòng)作視頻
Microsoft Research Action 人類動(dòng)作視頻數(shù)據(jù)
UCF50 Action Recognition 動(dòng)作識(shí)別數(shù)據(jù)
UCF101 Action Recognition 動(dòng)作識(shí)別數(shù)據(jù)
UT-Interaction 人類動(dòng)作視頻數(shù)據(jù)
UCF iPhone 運(yùn)動(dòng)中傳感器數(shù)據(jù)
UCF YouTube 人類動(dòng)作視頻數(shù)據(jù)
UCF Sport 人類動(dòng)作視頻數(shù)據(jù)
UCF-ARG 人類動(dòng)作視頻數(shù)據(jù)
HMDB 人類動(dòng)作視頻
HOLLYWOOD2 人類行為動(dòng)作視頻數(shù)據(jù)
Recognition of human actions 動(dòng)作視頻數(shù)據(jù)
Motion Capture 動(dòng)作捕捉視頻數(shù)據(jù)
SBU Kinect Interaction 肢體動(dòng)作視頻數(shù)據(jù)
目標(biāo)檢測(cè)視頻
UCSD Pedestrian 行人視頻數(shù)據(jù)
Caltech Pedestrian 行人視頻數(shù)據(jù)
ETH 行人視頻數(shù)據(jù)
INRIA 行人視頻數(shù)據(jù)
TudBrussels 行人視頻數(shù)據(jù)
Daimler 行人視頻數(shù)據(jù)
ALOV++ 物體追蹤視頻數(shù)據(jù)
密集人群視頻
Crowd Counting 高密度人群圖像
Crowd Segmentation 高密度人群視頻數(shù)據(jù)
Tracking in High Density Crowds 高密度人群視頻
其它視頻
Fire Detection 視頻數(shù)據(jù)
音頻數(shù)據(jù)
綜合音頻
Google Audioset 音頻數(shù)據(jù)【數(shù)據(jù)太大僅有介紹】
語(yǔ)音識(shí)別
Sinhala TTS 英語(yǔ)語(yǔ)音識(shí)別
TIMIT 美式英語(yǔ)語(yǔ)音識(shí)別數(shù)據(jù)
LibriSpeech ASR corpus 語(yǔ)音數(shù)據(jù)
Room Impulse Response and Noise 語(yǔ)音數(shù)據(jù)
ALFFA 非洲語(yǔ)音數(shù)據(jù)
THUYG-20 維吾爾語(yǔ)語(yǔ)音數(shù)據(jù)
AMI Corpus 語(yǔ)音識(shí)別
自然語(yǔ)言處理
RCV1英語(yǔ)新聞數(shù)據(jù)
20news 英語(yǔ)新聞數(shù)據(jù)
First Quora Release Question Pairs 問(wèn)答數(shù)據(jù)
JRC Names各國(guó)語(yǔ)言專有實(shí)體名稱
Multi-Domain Sentiment V2.0
LETOR 信息檢索數(shù)據(jù)
Yale Youtube Vedio Text斯坦福問(wèn)答數(shù)據(jù)【Kaggle數(shù)據(jù)】
美國(guó)假新聞數(shù)據(jù)【Kaggle數(shù)據(jù)】
NIPS會(huì)議文章信息數(shù)據(jù)(1987-2016)【Kaggle數(shù)據(jù)】
2016年美國(guó)總統(tǒng)選舉辯論數(shù)據(jù)【Kaggle數(shù)據(jù)】
WikiLinks 跨文檔指代語(yǔ)料
European Parliament Proceedings Parallel Corpus 機(jī)器翻譯數(shù)據(jù)
WikiText 英語(yǔ)語(yǔ)義詞庫(kù)數(shù)據(jù)
WMT 2011 News Crawl 機(jī)器翻譯數(shù)據(jù)
Stanford Sentiment Treebank 詞匯數(shù)據(jù)
英語(yǔ)語(yǔ)言模型單詞預(yù)測(cè)競(jìng)賽數(shù)據(jù)
WikiAnswers 問(wèn)題復(fù)述數(shù)據(jù)集
中文經(jīng)典典籍語(yǔ)料
幾個(gè)網(wǎng)上采集的自然語(yǔ)言語(yǔ)料中文姓名語(yǔ)料
81萬(wàn)互聯(lián)網(wǎng)詞匯詞庫(kù)
Question-Answer 問(wèn)答數(shù)據(jù)集
Wikilinks 跨文檔語(yǔ)料擴(kuò)展版
幾個(gè)聊天機(jī)器人語(yǔ)料
TED 平行語(yǔ)料庫(kù)
社會(huì)數(shù)據(jù)
希拉里郵件門泄露郵件
波士頓Airbnb 公開(kāi)數(shù)據(jù)【Kaggle數(shù)據(jù)】
世界各國(guó)經(jīng)濟(jì)發(fā)展數(shù)據(jù)【Kaagle數(shù)據(jù)】
世界大學(xué)排名芝加哥犯罪數(shù)據(jù)(2001-2017)【Kaagle數(shù)據(jù)】
世界范圍顯著地震數(shù)據(jù)(1965-2016)【Kaagle數(shù)據(jù)】
美國(guó)嬰兒姓名數(shù)據(jù)【Kaagle數(shù)據(jù)】
全世界鯊魚襲擊人類數(shù)據(jù)【Kaagle數(shù)據(jù)】
1908年以來(lái)空難數(shù)據(jù)【Kaagle數(shù)據(jù)】
2016年美國(guó)總統(tǒng)大選數(shù)據(jù)【Kaagle數(shù)據(jù)】
2013年美國(guó)社區(qū)統(tǒng)計(jì)數(shù)據(jù)【Kaagle數(shù)據(jù)】
2014年美國(guó)社區(qū)統(tǒng)計(jì)數(shù)據(jù)【Kaagle數(shù)據(jù)】
2015年美國(guó)社區(qū)統(tǒng)計(jì)數(shù)據(jù)【Kaagle數(shù)據(jù)】
歐洲足球運(yùn)動(dòng)員賽事表現(xiàn)數(shù)據(jù)【Kaagle數(shù)據(jù)】
美國(guó)環(huán)境污染數(shù)據(jù)【Kaagle數(shù)據(jù)】
美國(guó)H1-B簽證申請(qǐng)數(shù)據(jù)【Kaggle數(shù)據(jù)】
IMDB五千部電影數(shù)據(jù)【Kaggle數(shù)據(jù)】
2015年航班延誤和取消數(shù)據(jù)【Kaggle數(shù)據(jù)】
兇殺案報(bào)告數(shù)據(jù)【Kaggle數(shù)據(jù)】
人力資源分析數(shù)據(jù)【Kaggle數(shù)據(jù)】
美國(guó)費(fèi)城犯罪數(shù)據(jù)【Kaggle數(shù)據(jù)】
安然公司郵件數(shù)據(jù)【Kaggle數(shù)據(jù)】
歷史棒球數(shù)據(jù)【Kaggle數(shù)據(jù)】
美聯(lián)航 Twitter 用戶評(píng)論數(shù)據(jù)【Kaggle數(shù)據(jù)】
波士頓 Airbnb 公開(kāi)數(shù)據(jù)【Kaggle數(shù)據(jù)】
芝加哥市2001年以來(lái)犯罪記錄數(shù)據(jù)
美國(guó)查塔努加市犯罪記錄數(shù)據(jù)(2003年至今)
芝加哥街邊咖啡廳季節(jié)中的人行道咖啡廳許可數(shù)據(jù)
芝加哥餐館衛(wèi)生檢查結(jié)果數(shù)據(jù)
幾個(gè)人類運(yùn)動(dòng)位置路線GPS數(shù)據(jù)集(騎行、跑步等)
希拉里 vs 特朗普競(jìng)選期間 Twitter 數(shù)據(jù)【Kaggle競(jìng)賽】
美國(guó)連環(huán)兇案數(shù)據(jù)(1980-2014)【Kaggle競(jìng)賽】
廣告實(shí)時(shí)競(jìng)價(jià)數(shù)據(jù)【Kaggle競(jìng)賽】
美國(guó)費(fèi)城犯罪記錄數(shù)據(jù)【Kaggle競(jìng)賽】
Reddit 用戶交互記錄【Kaggle競(jìng)賽】
泰坦尼克災(zāi)難數(shù)據(jù)【Kaggle競(jìng)賽】
Wikipedia 頁(yè)面點(diǎn)擊流量數(shù)據(jù)【Kaggle競(jìng)賽】
紐約市出租車乘車時(shí)間預(yù)測(cè)競(jìng)賽數(shù)據(jù)【Kaggle競(jìng)賽】
新聞和網(wǎng)頁(yè)內(nèi)容推薦及點(diǎn)擊競(jìng)賽【Kaggle競(jìng)賽】
科比布萊恩特投籃命中率數(shù)據(jù)【Kaggle競(jìng)賽】
幾個(gè)城市氣象交換站日間天氣數(shù)據(jù)
Reddit 2.5 百萬(wàn)社交新聞數(shù)據(jù)
Google的機(jī)群訪問(wèn)數(shù)據(jù)
MIT Saliency 眼睛瀏覽軌跡數(shù)據(jù)集
根據(jù)安檢人體掃描成像預(yù)測(cè)威脅競(jìng)賽【Kaggle競(jìng)賽】
處理后的科研和競(jìng)賽數(shù)據(jù)
NIPS 2003 屬性選擇競(jìng)賽數(shù)據(jù)
臺(tái)灣大學(xué)林智仁教授處理為 LibSVM 格式的分類建模數(shù)據(jù)
Large-scale 分類建模數(shù)據(jù)
幾個(gè)UCI 中 large-scale 分類建模數(shù)據(jù)
Social Computing Data Repository 社交網(wǎng)絡(luò)數(shù)據(jù)
貓和狗分類識(shí)別競(jìng)賽數(shù)據(jù)【Kaggle競(jìng)賽】
DSTL 衛(wèi)星圖像識(shí)別競(jìng)賽數(shù)據(jù)【Kaggle競(jìng)賽】
根據(jù)手機(jī)應(yīng)用軟件使用行為預(yù)測(cè)用戶性別年齡競(jìng)賽數(shù)據(jù)【Kaggle競(jìng)賽】
人臉關(guān)鍵點(diǎn)標(biāo)定競(jìng)賽數(shù)據(jù)【Kaggle競(jìng)賽】
Kaggle競(jìng)賽數(shù)據(jù)合輯(部分競(jìng)賽數(shù)據(jù))
UCI多分類組合出的二分類數(shù)據(jù)集
UCI經(jīng)典二分類數(shù)據(jù)集
場(chǎng)景圖像分類競(jìng)賽數(shù)據(jù)【ChallengerAI 競(jìng)賽】
人體骨骼關(guān)鍵點(diǎn)檢測(cè)競(jìng)賽數(shù)據(jù)【ChallengerAI 競(jìng)賽】
圖像中文表述競(jìng)賽數(shù)據(jù)【ChallengerAI 競(jìng)賽】
英文同聲傳譯競(jìng)賽數(shù)據(jù)【ChallengerAI 競(jìng)賽】
中英文本翻譯競(jìng)賽數(shù)據(jù)【ChallengerAI 競(jìng)賽】
虛擬股票趨勢(shì)預(yù)測(cè)【ChallengerAI 競(jìng)賽數(shù)據(jù)】
機(jī)器視覺(jué)推理實(shí)驗(yàn)數(shù)據(jù)
BigMM 2015 競(jìng)賽驗(yàn)證數(shù)據(jù)集
KONECT 網(wǎng)絡(luò)圖結(jié)構(gòu)和網(wǎng)絡(luò)科學(xué)數(shù)據(jù)合輯
總結(jié)
- 上一篇: 网上书店系统活动设计
- 下一篇: 微软开启imap服务器,连接到 IMAP