精心挑选的100多种机器学习数据集
毫無(wú)疑問(wèn),每個(gè)人都知道,學(xué)習(xí)數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)的唯一最佳方法是通過(guò)執(zhí)行各種項(xiàng)目來(lái)學(xué)習(xí)它們。老實(shí)說(shuō),您周?chē)泻芏喱F(xiàn)實(shí)世界的機(jī)器學(xué)習(xí)數(shù)據(jù)集,即使您不必完成全面的數(shù)據(jù)科學(xué)或機(jī)器學(xué)習(xí)課程,也可以選擇練習(xí)基礎(chǔ)數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)技能。但是是的,數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)項(xiàng)目絕對(duì)沒(méi)有其他選擇。大多數(shù)數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)初學(xué)者做錯(cuò)的事情是,他們只是專(zhuān)注于學(xué)習(xí)許多理論概念,而等待太長(zhǎng)時(shí)間才能啟動(dòng)專(zhuān)注于該概念的實(shí)際實(shí)現(xiàn)的機(jī)器學(xué)習(xí)/數(shù)據(jù)科學(xué)項(xiàng)目。毫無(wú)疑問(wèn),從理論上講清楚您的機(jī)器學(xué)習(xí)概念總會(huì)很好,但是如果沒(méi)有獲得相關(guān)的實(shí)際經(jīng)驗(yàn),您就無(wú)法期望成為企業(yè)數(shù)據(jù)科學(xué)家或機(jī)器學(xué)習(xí)工程師。在此博客的此處,我們將為您提供100多個(gè)有價(jià)值的數(shù)據(jù)集,以供機(jī)器學(xué)習(xí)(特別是對(duì)于初學(xué)者)使用,這無(wú)疑將有助于驗(yàn)證您的基本數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)技能。
機(jī)器學(xué)習(xí)中的數(shù)據(jù)集是什么?
機(jī)器學(xué)習(xí)中的數(shù)據(jù)集是實(shí)例的集合(實(shí)例是指一行數(shù)據(jù)),這些實(shí)例都共享一些共同的特征和屬性。為了使機(jī)器學(xué)習(xí)模型執(zhí)行不同的動(dòng)作,需要兩種數(shù)據(jù)集–
訓(xùn)練數(shù)據(jù)集-送入機(jī)器學(xué)習(xí)算法進(jìn)行訓(xùn)練的數(shù)據(jù)。
?
測(cè)試數(shù)據(jù)集或驗(yàn)證數(shù)據(jù)集–用于評(píng)估和測(cè)試機(jī)器學(xué)習(xí)模型正在正確解釋的數(shù)據(jù)。
為什么需要機(jī)器學(xué)習(xí)數(shù)據(jù)集?
機(jī)器學(xué)習(xí)算法從數(shù)據(jù)中學(xué)習(xí)。機(jī)器學(xué)習(xí)算法可識(shí)別趨勢(shì),關(guān)系并根據(jù)為訓(xùn)練模型而提供的大量數(shù)據(jù)進(jìn)行預(yù)測(cè)。因此,數(shù)據(jù)是機(jī)器學(xué)習(xí)中的金鵝。從機(jī)器學(xué)習(xí)模型中收集的見(jiàn)解與數(shù)據(jù)集一樣好。對(duì)于機(jī)器學(xué)習(xí)項(xiàng)目而言,擁有大量且更好的訓(xùn)練數(shù)據(jù)可帶來(lái)更好而準(zhǔn)確的模型性能。可靠的機(jī)器學(xué)習(xí)數(shù)據(jù)集非常重要,并且在精確的機(jī)器學(xué)習(xí)模型的開(kāi)發(fā)中起著至關(guān)重要的作用。
可在此處免費(fèi)訪(fǎng)問(wèn)已解決的機(jī)器學(xué)習(xí)Python和R代碼示例(這些已為您的項(xiàng)目準(zhǔn)備使用)
在哪里可以找到用于機(jī)器學(xué)習(xí)的數(shù)據(jù)集?
有大量的免費(fèi)和付費(fèi)資源可用于機(jī)器學(xué)習(xí)數(shù)據(jù)集。公共機(jī)器學(xué)習(xí)數(shù)據(jù)集可幫助您入門(mén)的最受歡迎資源包括–
UCI或UC Irvine機(jī)器學(xué)習(xí)數(shù)據(jù)集存儲(chǔ)庫(kù)
AWS數(shù)據(jù)集
Google數(shù)據(jù)集搜索
數(shù)據(jù)政府
微軟研究開(kāi)放數(shù)據(jù)
卡格勒
世界銀行
但是,對(duì)于數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)的初學(xué)者來(lái)說(shuō),從這些網(wǎng)站上提供的眾多選項(xiàng)中進(jìn)行選擇可能會(huì)變得勢(shì)不可擋。如果您想學(xué)習(xí)機(jī)器學(xué)習(xí),則需要一個(gè)堅(jiān)實(shí)的基礎(chǔ),這意味著用于機(jī)器學(xué)習(xí)項(xiàng)目的有趣數(shù)據(jù)集,以及一些可以使用這些免費(fèi)數(shù)據(jù)集的很棒的項(xiàng)目構(gòu)想。想知道在哪里可以找到免費(fèi)和公共的機(jī)器學(xué)習(xí)數(shù)據(jù)集?別無(wú)所求……無(wú)論是零售,醫(yī)療保健,銀行與金融,犯罪,還是其他任何類(lèi)型的機(jī)器學(xué)習(xí)數(shù)據(jù)集,我們都精選了一系列頂級(jí)機(jī)器學(xué)習(xí)數(shù)據(jù)集,以幫助您使模型成功。
面向數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)從業(yè)人員的100多種機(jī)器學(xué)習(xí)數(shù)據(jù)集
機(jī)器學(xué)習(xí)數(shù)據(jù)集
我們匯總了一個(gè)以領(lǐng)域?yàn)橹行牡捻敿?jí)機(jī)器學(xué)習(xí)數(shù)據(jù)集列表,其中包含對(duì)數(shù)據(jù)和可以使用特定數(shù)據(jù)集進(jìn)行的項(xiàng)目的簡(jiǎn)短描述。
零售機(jī)器學(xué)習(xí)數(shù)據(jù)集
醫(yī)療保健機(jī)器學(xué)習(xí)數(shù)據(jù)集
銀行和金融機(jī)器學(xué)習(xí)數(shù)據(jù)集
社交媒體機(jī)器學(xué)習(xí)數(shù)據(jù)集
犯罪機(jī)器學(xué)習(xí)數(shù)據(jù)集
機(jī)器學(xué)習(xí)的最佳零售數(shù)據(jù)集
機(jī)器學(xué)習(xí)的零售數(shù)據(jù)集
零售交易機(jī)器學(xué)習(xí)數(shù)據(jù)集
1)在線(xiàn)零售數(shù)據(jù)集(英國(guó)在線(xiàn)商店)
如果您熱衷于預(yù)處理大型零售數(shù)據(jù)集,則可能希望查找這家英國(guó)的在線(xiàn)公司的交易數(shù)據(jù),該數(shù)據(jù)可以出售獨(dú)特的全場(chǎng)合贈(zèng)品。 分類(lèi)和聚類(lèi)具有超過(guò)500,000行和8個(gè)屬性,是可以使用此數(shù)據(jù)集執(zhí)行的最常見(jiàn)的關(guān)聯(lián)機(jī)器學(xué)習(xí)任務(wù)。
?
?Download Online Retail Dataset for Machine Learning
?
?Interesting Machine Learning Project Idea using UK Online Retail Dataset–?Perform Market Basket Analysis to identify the association rules between the products.
2)零售火箭推薦系統(tǒng)數(shù)據(jù)集
該數(shù)據(jù)集由真實(shí)世界電子商務(wù)網(wǎng)站的點(diǎn)擊流數(shù)據(jù)組成,該網(wǎng)站具有有關(guān)客戶(hù)行為的信息,例如添加到購(gòu)物車(chē)信息,交易和點(diǎn)擊以及有關(guān)417053個(gè)唯一商品的不同商品屬性的信息。 數(shù)據(jù)集具有事件數(shù)據(jù)文件,其中包含有關(guān)用戶(hù)在特定時(shí)間戳下對(duì)產(chǎn)品執(zhí)行的事件(添加到購(gòu)物車(chē),交易或視圖)的信息。 僅當(dāng)用戶(hù)進(jìn)行交易時(shí),事件數(shù)據(jù)文件中的“ transaction-id”列才具有值,否則為N / A。
Download Retail Rocket Recommender System Dataset for Machine Learning
Machine Learning Project Idea using Retail Rocket Machine Learning Dataset –?Build a Recommender System?to predict the transaction and event pattern of a visitor.
3)用于機(jī)器學(xué)習(xí)的Instacart訂單數(shù)據(jù)集
這是另一個(gè)有趣的機(jī)器學(xué)習(xí)數(shù)據(jù)集,可處理200,000多個(gè)Instacart匿名客戶(hù)的雜貨訂單,該數(shù)據(jù)集可用于處理大型零售數(shù)據(jù)。對(duì)于每個(gè)客戶(hù),數(shù)據(jù)集均包含購(gòu)買(mǎi)產(chǎn)品的順序中4到100個(gè)訂單的數(shù)據(jù)以及一天中的星期幾和小時(shí)數(shù)。 XGBoost,Word2Vec和Annoy是機(jī)器學(xué)習(xí)算法,徹底改變了Instacart客戶(hù)如今購(gòu)買(mǎi)雜貨的方式。
Download Instacart Orders Kaggle Dataset
使用Instacart數(shù)據(jù)集的初學(xué)者的機(jī)器學(xué)習(xí)/數(shù)據(jù)科學(xué)項(xiàng)目創(chuàng)意
客戶(hù)細(xì)分–建立基于關(guān)聯(lián)的機(jī)器學(xué)習(xí)模型,以了解Instacart客戶(hù)的多樣化組合,并針對(duì)合適的客戶(hù)群體以最大程度地提高盈利能力。
市場(chǎng)籃子分析–開(kāi)發(fā)預(yù)測(cè)性市場(chǎng)籃子分析機(jī)器學(xué)習(xí)模型,以確定Instacart客戶(hù)將再次購(gòu)買(mǎi)哪些產(chǎn)品?
4)Olist的巴西電子商務(wù)數(shù)據(jù)集
該機(jī)器學(xué)習(xí)數(shù)據(jù)集由Olist商店的10萬(wàn)個(gè)客戶(hù)訂單數(shù)據(jù)組成,其中包括賣(mài)方信息,產(chǎn)品元數(shù)據(jù),客戶(hù)信息和客戶(hù)評(píng)論的詳細(xì)信息。
?
Download Brazilian E-commerce Public Kaggle Dataset by Olist
使用巴西電子商務(wù)數(shù)據(jù)集的數(shù)據(jù)科學(xué)/機(jī)器學(xué)習(xí)項(xiàng)目構(gòu)想
電子商務(wù)產(chǎn)品評(píng)論分析–通過(guò)分析客戶(hù)給出的產(chǎn)品評(píng)論中的文字對(duì)Olist商店出售的產(chǎn)品進(jìn)行評(píng)分。
分析Olist客戶(hù)的購(gòu)買(mǎi)趨勢(shì),以根據(jù)客戶(hù)當(dāng)前購(gòu)買(mǎi)的商品確定客戶(hù)是否打算購(gòu)買(mǎi)相關(guān)產(chǎn)品。
5)機(jī)器學(xué)習(xí)的超級(jí)市場(chǎng)數(shù)據(jù)集
該零售數(shù)據(jù)集具有超過(guò)1000行和17列,具有一家超市公司3個(gè)月的歷史銷(xiāo)售數(shù)據(jù),并記錄了該公司三個(gè)不同分支機(jī)構(gòu)的數(shù)據(jù)。該零售數(shù)據(jù)集是任何類(lèi)型的預(yù)測(cè)分析項(xiàng)目的理想選擇。
Download Supermarket Kaggle Dataset for Machine Learning
機(jī)器學(xué)習(xí)的零售圖像數(shù)據(jù)集
6)MVTec密集細(xì)分的超市圖像數(shù)據(jù)集
由于培訓(xùn)數(shù)據(jù)數(shù)量有限,并且驗(yàn)證和測(cè)試集中的多樣性很高,因此對(duì)于機(jī)器學(xué)習(xí)而言,這是一個(gè)具有挑戰(zhàn)性的圖像數(shù)據(jù)集。它具有在700個(gè)不同場(chǎng)景中采集的日常產(chǎn)品和雜貨的21K高分辨率圖像,并在與行業(yè)相關(guān)的設(shè)置中以高質(zhì)量注釋為所有對(duì)象實(shí)例提供了像素化標(biāo)簽。
Download MVTec D2S Retail Dataset for Machine Learning
使用MVTec D2S數(shù)據(jù)集的計(jì)算機(jī)視覺(jué)項(xiàng)目構(gòu)想
該零售數(shù)據(jù)集可用于語(yǔ)義圖像分割,以覆蓋自動(dòng)結(jié)帳,倉(cāng)庫(kù)或庫(kù)存系統(tǒng)的實(shí)際應(yīng)用。經(jīng)典的深度學(xué)習(xí)CNN機(jī)器學(xué)習(xí)算法最適合在像素級(jí)別對(duì)圖像中的產(chǎn)品進(jìn)行分類(lèi),以簡(jiǎn)化結(jié)帳流程。
?
7)上下文中的通用對(duì)象(COCO)數(shù)據(jù)集
COCO數(shù)據(jù)集共有330,000張圖像,超過(guò)200,000個(gè)標(biāo)簽,其中包含91個(gè)東西類(lèi)別,80個(gè)對(duì)象類(lèi)別,150萬(wàn)個(gè)對(duì)象實(shí)例以及25萬(wàn)具有關(guān)鍵點(diǎn)的人員-COCO數(shù)據(jù)集是最流行且最具挑戰(zhàn)性的高質(zhì)量計(jì)算機(jī)視覺(jué)數(shù)據(jù)集之一。該數(shù)據(jù)集代表了我們?cè)谌粘I钪杏龅降母鞣N物體的圖像,被認(rèn)為是轉(zhuǎn)移學(xué)習(xí)的理想檢查點(diǎn)。它是訓(xùn)練計(jì)算機(jī)視覺(jué)模型的基礎(chǔ)數(shù)據(jù)集。使用COCO計(jì)算機(jī)視覺(jué)數(shù)據(jù)集訓(xùn)練了任何計(jì)算機(jī)視覺(jué)模型后,您就可以使用任何自定義數(shù)據(jù)集進(jìn)一步調(diào)整模型以學(xué)習(xí)其他任務(wù)。
Download COCO Dataset for Machine Learning
您可以使用COCO數(shù)據(jù)集進(jìn)行哪種計(jì)算機(jī)視覺(jué)項(xiàng)目?
對(duì)象檢測(cè)-使用COCO數(shù)據(jù)集執(zhí)行最具挑戰(zhàn)性的計(jì)算機(jī)視覺(jué)任務(wù)之一,即預(yù)測(cè)圖像中不同對(duì)象的位置以及存在的對(duì)象的類(lèi)型。
8)弗萊堡雜貨數(shù)據(jù)集
弗賴(lài)堡食品雜貨零售數(shù)據(jù)集包含5000張圖像,其中包含25種不同的食品雜貨,每個(gè)類(lèi)別至少具有97張圖像,這些圖像已在不同雜貨店的各個(gè)部門(mén)的實(shí)際環(huán)境中捕獲。
Download Freiburg Groceries Dataset
使用弗萊堡食品雜貨集的計(jì)算機(jī)視覺(jué)項(xiàng)目構(gòu)想
您可以基于雜貨產(chǎn)品的多類(lèi)對(duì)象分類(lèi)構(gòu)建計(jì)算機(jī)視覺(jué)模型。可以進(jìn)一步微調(diào)此模型,以建立無(wú)摩擦的商店體驗(yàn),類(lèi)似于流行的Amazon Go商店,而無(wú)需手動(dòng)結(jié)帳。
9)時(shí)尚MNIST數(shù)據(jù)集
憑借10K測(cè)試示例,60K,培訓(xùn)示例以及10類(lèi)零售產(chǎn)品,分辨率為28×28灰度通道圖像,這是用于深度學(xué)習(xí)和計(jì)算機(jī)視覺(jué)的MNIST數(shù)據(jù)集的最佳替代產(chǎn)品之一。但是,這比直接替換更具挑戰(zhàn)性。
Download Fashion MNIST Kaggle Dataset
使用Fashion MNIST數(shù)據(jù)集的計(jì)算機(jī)視覺(jué)項(xiàng)目構(gòu)想
通過(guò)使用Keras或TensorFlow訓(xùn)練簡(jiǎn)單的CNN從頭開(kāi)始構(gòu)建模型,使用此數(shù)據(jù)集來(lái)享受您對(duì)服裝分類(lèi)的初體驗(yàn)。如果您想練習(xí)一種使用CNN機(jī)器學(xué)習(xí)算法解決圖像分類(lèi)問(wèn)題的方法,則可以查找此數(shù)據(jù)集。
10)零售產(chǎn)品結(jié)帳數(shù)據(jù)集
在商店貨架上有來(lái)自2000種不同產(chǎn)品類(lèi)別的超過(guò)500,000張零售商品圖像-就產(chǎn)品類(lèi)別和產(chǎn)品圖像數(shù)量而言,這是最大的零售圖像數(shù)據(jù)集之一。
Download a Large-Scale Retail Product Checkout Kaggle Dataset
使用RPC數(shù)據(jù)集的計(jì)算機(jī)視覺(jué)項(xiàng)目構(gòu)想
該數(shù)據(jù)集被廣泛用于推進(jìn)零售產(chǎn)品圖像識(shí)別的研究,以進(jìn)行自動(dòng)貨架審核和結(jié)帳。該數(shù)據(jù)集的高質(zhì)量性質(zhì)使其非常適合用于細(xì)粒度的零售產(chǎn)品圖像分類(lèi)。
是否想發(fā)展您的數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)技能?查看我們最新的端到端數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)項(xiàng)目以及源代碼
客戶(hù)評(píng)論用于機(jī)器學(xué)習(xí)的零售數(shù)據(jù)集
11)亞馬遜客戶(hù)評(píng)論數(shù)據(jù)集
從1995年到2015年,該機(jī)器學(xué)習(xí)數(shù)據(jù)集在數(shù)百萬(wàn)種產(chǎn)品上擁有超過(guò)130億條客戶(hù)評(píng)論,是機(jī)器學(xué)習(xí),自然語(yǔ)言處理和信息檢索領(lǐng)域的數(shù)據(jù)科學(xué)家和研究人員的福音,以了解客戶(hù)體驗(yàn)。
Download Amazon Customer Reviews Dataset
12)婦女的電子商務(wù)服裝評(píng)論數(shù)據(jù)集
這是一個(gè)匿名的數(shù)據(jù)集,因?yàn)樗鎸?shí)客戶(hù)撰寫(xiě)的評(píng)論,并具有23486個(gè)帶有10個(gè)不同功能變量的客戶(hù)評(píng)論。該ML數(shù)據(jù)集提供了一個(gè)絕佳的環(huán)境,可用于解析多個(gè)維度的文本。
Download Women’s E-Commerce Clothing Reviews Dataset
13)宜家機(jī)器學(xué)習(xí)評(píng)論數(shù)據(jù)集
這是一個(gè)相當(dāng)小的機(jī)器學(xué)習(xí)數(shù)據(jù)集,其中包含從Google Maps刮取的1300條最佳和最差的IKEA客戶(hù)評(píng)論。這為情感分析提供了一個(gè)完美的初學(xué)者級(jí)數(shù)據(jù)集。
Download IKEA Reviews Kaggle Dataset
14)亞馬遜和百思買(mǎi)電子產(chǎn)品評(píng)論數(shù)據(jù)集
該數(shù)據(jù)集專(zhuān)門(mén)針對(duì)百思買(mǎi)和亞馬遜上提供的50種電子產(chǎn)品提供了7000多個(gè)在線(xiàn)評(píng)論。數(shù)據(jù)集包括審閱日期,標(biāo)題,等級(jí),來(lái)源,元數(shù)據(jù)和其他信息。
Download Amazon and Best Buy Electronic Product Reviews Dataset
15)多域情感數(shù)據(jù)集
這是一個(gè)多域數(shù)據(jù)集,包含來(lái)自許多產(chǎn)品類(lèi)型的產(chǎn)品評(píng)論。超過(guò)10萬(wàn)條Amazon.com對(duì)產(chǎn)品,樂(lè)器,書(shū)籍和DVD的評(píng)論,評(píng)分介于1到5之間。
Download Multi-Domain Sentiment Kaggle Dataset
使用客戶(hù)評(píng)論數(shù)據(jù)集的有趣的機(jī)器學(xué)習(xí)項(xiàng)目創(chuàng)意
使用NLP根據(jù)客戶(hù)評(píng)論的內(nèi)容預(yù)測(cè)收視率
研究客戶(hù)反饋對(duì)產(chǎn)品購(gòu)買(mǎi)過(guò)程的影響。您可以使用這些評(píng)論數(shù)據(jù)集來(lái)預(yù)測(cè)客戶(hù)向其朋友推薦產(chǎn)品的可能性。
研究各種品牌的在線(xiàn)聲譽(yù)。
對(duì)客戶(hù)評(píng)論進(jìn)行情緒分析,以識(shí)別用戶(hù)對(duì)產(chǎn)品的情感(正面,負(fù)面或中立)。 (評(píng)論情緒)
ProjectPro通過(guò)構(gòu)建端到端的現(xiàn)實(shí)世界數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)項(xiàng)目來(lái)幫助學(xué)生學(xué)習(xí)實(shí)踐技能。為有源代碼的學(xué)生檢查一些有趣的有趣的機(jī)器學(xué)習(xí)項(xiàng)目構(gòu)想。
其他用于機(jī)器學(xué)習(xí)的零售數(shù)據(jù)集
16)來(lái)自維多利亞的秘密和其他組織的內(nèi)衣數(shù)據(jù)
該數(shù)據(jù)集包含來(lái)自受歡迎的零售網(wǎng)站(如亞馬遜,維多利亞的秘密,漢基·潘基,梅西百貨,Btemptd,Nordstrom,American Eagle等)的600,000多種內(nèi)衣產(chǎn)品的數(shù)據(jù)。
Download Innerwear Data from Victoria’s Secret and Others Kaggle Dataset
使用Innerwear Kaggle數(shù)據(jù)集的機(jī)器學(xué)習(xí)項(xiàng)目構(gòu)想:
該數(shù)據(jù)集可用于分析泳裝和內(nèi)裝產(chǎn)品的流行趨勢(shì)。
17)電子商務(wù)項(xiàng)目數(shù)據(jù)
機(jī)器學(xué)習(xí)數(shù)據(jù)集包含500個(gè)SKU,以及服裝品牌產(chǎn)品目錄中的產(chǎn)品說(shuō)明。
Download eCommerce Item Kaggle Dataset
使用電子商務(wù)項(xiàng)目Kaggle數(shù)據(jù)集的機(jī)器學(xué)習(xí)項(xiàng)目構(gòu)想:
您可以使用Item數(shù)據(jù)進(jìn)行的有趣的機(jī)器學(xué)習(xí)項(xiàng)目是構(gòu)建產(chǎn)品推薦系統(tǒng)。
18)eBay在線(xiàn)拍賣(mài)數(shù)據(jù)集
該在線(xiàn)拍賣(mài)零售數(shù)據(jù)集包含拍賣(mài)信息,例如競(jìng)標(biāo)價(jià)格,競(jìng)標(biāo)時(shí)間,物品的拍賣(mài)價(jià)格,以及有關(guān)施華洛世奇珠子,卡地亞手表,Xbox游戲機(jī)和Palm Pilot M515 PDA的其他拍賣(mài)信息。
Download eBay Online Auctions Dataset
使用在線(xiàn)拍賣(mài)Kaggle數(shù)據(jù)集的機(jī)器學(xué)習(xí)項(xiàng)目構(gòu)想:
建立機(jī)器學(xué)習(xí)模型以預(yù)測(cè)拍賣(mài)品的最終價(jià)格。從利潤(rùn)最大化的角度來(lái)看,預(yù)測(cè)拍賣(mài)品的最終價(jià)格對(duì)買(mǎi)賣(mài)雙方都有利。
19)沃爾瑪數(shù)據(jù)集
這是最佳的初學(xué)者級(jí)機(jī)器學(xué)習(xí)數(shù)據(jù)集之一,因?yàn)樗哂凶疃嗟牧闶蹟?shù)據(jù)以及每個(gè)沃爾瑪商店區(qū)域中的外部數(shù)據(jù),例如失業(yè)率,燃料價(jià)格,CPI,是進(jìn)行詳細(xì)分析的理想選擇。該Kaggle數(shù)據(jù)集包含2010年至2012年記錄的45家沃爾瑪商店的匿名歷史銷(xiāo)售數(shù)據(jù)。
Download Walmart Store Sales Kaggle Dataset
使用沃爾瑪零售數(shù)據(jù)集的機(jī)器學(xué)習(xí)/數(shù)據(jù)科學(xué)項(xiàng)目構(gòu)想
考慮假日和降價(jià)事件,消費(fèi)者物價(jià)指數(shù),季節(jié)變化以及其他影響產(chǎn)品銷(xiāo)售的因素,建立一個(gè)機(jī)器學(xué)習(xí)模型來(lái)預(yù)測(cè)沃爾瑪在全部門(mén)的銷(xiāo)售。銷(xiāo)售預(yù)測(cè)模型可幫助公司草擬有關(guān)如何滿(mǎn)足未來(lái)需求和增加銷(xiāo)售的計(jì)劃。
20)男鞋價(jià)格數(shù)據(jù)集
該數(shù)據(jù)集包含10,000種男鞋的大集合,以及它們的銷(xiāo)售價(jià)格,品牌名稱(chēng),鞋名和其他信息。
Download Men’s Shoe Price Dataset
使用鞋價(jià)數(shù)據(jù)集的機(jī)器學(xué)習(xí)/數(shù)據(jù)科學(xué)項(xiàng)目構(gòu)想
使用此定價(jià)數(shù)據(jù)建立機(jī)器學(xué)習(xí)模型以-
確定奢侈品牌的品牌價(jià)值
確定定價(jià)策略
確定奢侈男鞋的趨勢(shì)
確定鞋子的特定功能與價(jià)格變化之間的相關(guān)性。
機(jī)器學(xué)習(xí)的最佳醫(yī)療保健數(shù)據(jù)集
用于機(jī)器學(xué)習(xí)的醫(yī)療保健數(shù)據(jù)集
1)OSIC肺纖維化進(jìn)展
開(kāi)源影像協(xié)會(huì)醫(yī)療保健數(shù)據(jù)集包括200例匿名的肺部基線(xiàn)CT掃描以及其他相關(guān)臨床信息,例如基線(xiàn)強(qiáng)迫生命系數(shù),患者性別,年齡,基線(xiàn)掃描后的相對(duì)周數(shù),吸煙狀況等。
Download OSIC Pulmonary Fibrosis Progression Dataset
使用OSIC Kaggle數(shù)據(jù)集的數(shù)據(jù)科學(xué)/機(jī)器學(xué)習(xí)項(xiàng)目構(gòu)想
您可以建立機(jī)器學(xué)習(xí)模型來(lái)預(yù)測(cè)患者肺功能下降的嚴(yán)重程度。
2)APTOS 2019失明檢測(cè)
這是在各種成像條件下捕獲的眼底攝影視網(wǎng)膜圖像的多樣化且廣泛的數(shù)據(jù)集。根據(jù)糖尿病性視網(wǎng)膜病變的嚴(yán)重程度,每張圖片的臨床評(píng)分為0到4。
Download APTOS 2019 Blindness Detection Kaggle Dataset
使用APTOS數(shù)據(jù)集的機(jī)器學(xué)習(xí)項(xiàng)目構(gòu)想
在285萬(wàn)人中,有1/3患有糖尿病性視網(wǎng)膜病變。您可以使用此數(shù)據(jù)集建立一個(gè)機(jī)器學(xué)習(xí)模型,該模型可以在DR引起影響眼睛的并發(fā)癥之前早發(fā)現(xiàn)DR,這將幫助數(shù)百萬(wàn)糖尿病患者失去視力。
3)超聲神經(jīng)分割數(shù)據(jù)集
這個(gè)Kaggle數(shù)據(jù)集包含5635張圖像,其中的神經(jīng)已由人工手動(dòng)注釋。它是具有挑戰(zhàn)性的機(jī)器學(xué)習(xí)數(shù)據(jù)集之一,因?yàn)樗哂袦p小的數(shù)據(jù)大小并且沒(méi)有明顯的結(jié)構(gòu)特征。
Download Ultrasound Nerve Segmentation Dataset
訪(fǎng)問(wèn)帶有源代碼的該機(jī)器學(xué)習(xí)項(xiàng)目,以建立一個(gè)機(jī)器學(xué)習(xí)模型,該模型可識(shí)別超聲圖像中的神經(jīng)結(jié)構(gòu),以分割稱(chēng)為臂叢(BP)的神經(jīng)集合。
4)帕金森數(shù)據(jù)集
這是一個(gè)非常小的醫(yī)療數(shù)據(jù)集,大約需要39 KB的數(shù)據(jù),并且可以對(duì)31位患者進(jìn)行一系列生物醫(yī)學(xué)語(yǔ)音測(cè)量,其中23位患有帕金森氏病。
Download Parkinson Dataset from UCI Machine Learning Repository
使用帕金森數(shù)據(jù)集的機(jī)器學(xué)習(xí)項(xiàng)目構(gòu)想
每年印度有超過(guò)100萬(wàn)人受到帕金森氏病的影響。這種疾病是慢性的,無(wú)法治愈,甚至很難為醫(yī)生早期診斷。您可以建立一個(gè)機(jī)器學(xué)習(xí)模型,以準(zhǔn)確檢測(cè)個(gè)體中帕金森氏病的早期發(fā)作,并基于多種因素來(lái)確定帕金森氏病患者是否健康。
5)英特爾和MobileODT宮頸癌數(shù)據(jù)集
該Kaggle數(shù)據(jù)集包含1481個(gè)訓(xùn)練圖像和512個(gè)測(cè)試圖像。考慮到此數(shù)據(jù)集的局限性,您可能必須應(yīng)用各種數(shù)據(jù)增強(qiáng)技術(shù)來(lái)增加訓(xùn)練樣本的數(shù)量。
Download Intel & MobileODT Cervical Cancer Dataset
使用英特爾和移動(dòng)ODT宮頸癌數(shù)據(jù)集的深度學(xué)習(xí)項(xiàng)目構(gòu)想
使用深度學(xué)習(xí)和圖像分類(lèi)的子宮頸類(lèi)型分類(lèi)-宮頸癌是致命的,但是如果在早期發(fā)現(xiàn)并進(jìn)行適當(dāng)治療,對(duì)許多婦女來(lái)說(shuō)可以挽救生命。您可以使用此Kaggle數(shù)據(jù)集構(gòu)建深度學(xué)習(xí)模型,以對(duì)子宮頸類(lèi)型(類(lèi)型1,類(lèi)型2和類(lèi)型3)進(jìn)行分類(lèi),以幫助醫(yī)療保健專(zhuān)業(yè)人員為全球女性提供更好的護(hù)理。對(duì)子宮頸類(lèi)型進(jìn)行分類(lèi)將有助于醫(yī)療保健提供者提高女性子宮頸癌篩查的效率和質(zhì)量。
6)乳房組織病理學(xué)圖像數(shù)據(jù)集
實(shí)際數(shù)據(jù)集包含162個(gè)乳腺癌標(biāo)本的幻燈片圖像。從該數(shù)據(jù)集中提取了277,524個(gè)補(bǔ)丁,其中78786個(gè)屬于陽(yáng)性類(lèi)別,而其余198、738個(gè)補(bǔ)丁屬于陰性類(lèi)別。
Download Breast Histopathology Images Dataset
使用乳房組織病理學(xué)圖像數(shù)據(jù)集的深度學(xué)習(xí)項(xiàng)目構(gòu)想
乳腺癌是最常見(jiàn)的癌癥類(lèi)型,在2018年經(jīng)診斷的210萬(wàn)例乳腺癌病例中有627,000例死亡報(bào)告。在所有確診的乳腺癌病例中,有80%屬于浸潤(rùn)性導(dǎo)管癌(IDC)類(lèi)型。早期準(zhǔn)確診斷癌癥有助于選擇正確的治療方案,并有助于提高癌癥患者的生存率。您可以使用此數(shù)據(jù)集構(gòu)建用于圖像分類(lèi)的深層CNN,以識(shí)別未標(biāo)記的組織病理學(xué)圖像中IDC的存在。這是一項(xiàng)重要的臨床任務(wù),為此,自動(dòng)化模型肯定會(huì)節(jié)省時(shí)間并減少錯(cuò)誤。
7)迷你DDSM數(shù)據(jù)集
最大的(45GB)公共乳腺攝影數(shù)據(jù)集之一,具有年齡屬性,密度屬性,患者的原始文件名,癌病灶輪廓二進(jìn)制蒙版圖像以及帶有所有所需元數(shù)據(jù)的excel表。
Download Mini DDSM Kaggle Dataset
使用Mini DDSM數(shù)據(jù)集的機(jī)器學(xué)習(xí)項(xiàng)目
年齡估計(jì)具有多種臨床應(yīng)用,并且已經(jīng)使用生物醫(yī)學(xué)圖像對(duì)人類(lèi)年齡進(jìn)行了一些研究。使用此數(shù)據(jù)集,您可以基于乳房X線(xiàn)照片圖像中的胸肌段建立基于AI的模型來(lái)估計(jì)年齡。最重要的步驟是從乳房X線(xiàn)照片中分割胸肌,然后提取深度學(xué)習(xí)特征以建立年齡估計(jì)模型。
8)克利夫蘭心臟病數(shù)據(jù)集
克利夫蘭心臟病UCI數(shù)據(jù)集包含303個(gè)個(gè)體的數(shù)據(jù),這些個(gè)體具有75個(gè)屬性,其中14個(gè)屬性,例如年齡,性別,靜息血壓,血清膽固醇,靜息心電圖,獲得的最大心率,運(yùn)動(dòng)誘發(fā)的心絞痛以及其他可能的重要參數(shù)發(fā)生心血管疾病的主要危險(xiǎn)因素。
Download Heart Disease Dataset
使用心臟病數(shù)據(jù)集的機(jī)器學(xué)習(xí)項(xiàng)目構(gòu)想
心臟病是世界范圍內(nèi)死亡率和發(fā)病率的主要原因,僅在美國(guó),每年就有61萬(wàn)例死亡。根據(jù)風(fēng)險(xiǎn)因素很難手動(dòng)確定罹患心血管疾病的幾率。在這里,機(jī)器學(xué)習(xí)可以極大地幫助您根據(jù)醫(yī)療保健行業(yè)產(chǎn)生的大量數(shù)據(jù)做出預(yù)測(cè)。您可以應(yīng)用各種機(jī)器學(xué)習(xí)算法,例如SVM,樸素貝葉斯,XGBoost,決策樹(shù),隨機(jī)森林,并使用克利夫蘭心臟病機(jī)器學(xué)習(xí)數(shù)據(jù)集對(duì)它們進(jìn)行比較,以預(yù)測(cè)某人是否患有心臟病。
9)行動(dòng)預(yù)測(cè)數(shù)據(jù)集的機(jī)制
這是一個(gè)獨(dú)特的機(jī)器學(xué)習(xí)數(shù)據(jù)集,由細(xì)胞活力數(shù)據(jù)和基因表達(dá)組成,可以訪(fǎng)問(wèn)超過(guò)5K藥物的MoA注釋。這個(gè)用于機(jī)器學(xué)習(xí)的數(shù)據(jù)集基于一種新穎的技術(shù),該技術(shù)可測(cè)量人類(lèi)細(xì)胞對(duì)數(shù)百種不同細(xì)胞類(lèi)型池中藥物的反應(yīng),從而消除了確定哪種細(xì)胞類(lèi)型更適合任何給定藥物的問(wèn)題。
Download Mechanisms of Action (MoA) Prediction Kaggle Dataset
使用MoA預(yù)測(cè)數(shù)據(jù)集的機(jī)器學(xué)習(xí)項(xiàng)目構(gòu)想
藥物發(fā)現(xiàn)在疾病治療的發(fā)展中起著至關(guān)重要的作用。機(jī)器學(xué)習(xí)被廣泛用于理解疾病的潛在機(jī)制,臨床標(biāo)記,藥物發(fā)現(xiàn)和驗(yàn)證。通過(guò)開(kāi)發(fā)機(jī)器學(xué)習(xí)算法來(lái)基于藥物的生物活性對(duì)藥物進(jìn)行分類(lèi),該數(shù)據(jù)集可用于促進(jìn)藥物開(kāi)發(fā)。
10)世界衛(wèi)生組織-醫(yī)療機(jī)器學(xué)習(xí)數(shù)據(jù)集的世界
不同國(guó)家/地區(qū)最值得信賴(lài)和最真實(shí)的醫(yī)療數(shù)據(jù)來(lái)源。通過(guò)針對(duì)霍亂,肺結(jié)核,流行性感冒和其他疾病等特定疾病的COVID -19數(shù)據(jù)和分析,世衛(wèi)組織獲得了全球衛(wèi)生重點(diǎn)數(shù)據(jù)以及大多數(shù)衛(wèi)生狀況的趨勢(shì)重點(diǎn)。
Download Healthcare Datasets for Machine Learning from WHO Repository
?
與醫(yī)療數(shù)據(jù)配合使用的其他有趣且有趣的機(jī)器學(xué)習(xí)項(xiàng)目創(chuàng)意
肺分割
糖尿病預(yù)測(cè)
接觸追蹤以阻止傳染病的傳播
癌癥分類(lèi)
個(gè)性化醫(yī)學(xué)
預(yù)測(cè)慢性病
預(yù)測(cè)疾病暴發(fā)
分類(lèi)圖像數(shù)據(jù)(X射線(xiàn),CT掃描等)以進(jìn)行診斷護(hù)理。
?
最佳銀行和金融機(jī)器學(xué)習(xí)數(shù)據(jù)集
機(jī)器學(xué)習(xí)的銀行和金融數(shù)據(jù)集
1)桑坦德數(shù)據(jù)集
由于這是銀行業(yè)務(wù)數(shù)據(jù)集,因此已被完全掩蓋,僅包含數(shù)值。西班牙在線(xiàn)銀行桑坦德銀行提供了四個(gè)不同的數(shù)據(jù)集,以幫助他們使用機(jī)器學(xué)習(xí)解決各種業(yè)務(wù)挑戰(zhàn)。
ownload Santander Customer Transaction Dataset
Download Santander Value Prediction Dataset
Download Santander Product Recommendation Dataset
Download Santander Customer Satisfaction
?
這些桑坦德銀行數(shù)據(jù)集可用于構(gòu)建端到端機(jī)器學(xué)習(xí)模型,以-
預(yù)測(cè)客戶(hù)將來(lái)是否會(huì)與銀行進(jìn)行交易,而不管交易的金額如何。
預(yù)測(cè)客戶(hù)是否會(huì)購(gòu)買(mǎi)產(chǎn)品
預(yù)測(cè)客戶(hù)是否有能力支付費(fèi)用
預(yù)測(cè)客戶(hù)是否對(duì)銀行的服務(wù)感到滿(mǎn)意。
2)房屋信貸違約風(fēng)險(xiǎn)數(shù)據(jù)集
該數(shù)據(jù)集包含7個(gè)不同的客戶(hù)數(shù)據(jù)源-貸款申請(qǐng)數(shù)據(jù),局?jǐn)?shù)據(jù),信用卡余額數(shù)據(jù),以前的貸款申請(qǐng)數(shù)據(jù),POS現(xiàn)金余額數(shù)據(jù),EMI付款數(shù)據(jù)和局余額數(shù)據(jù)。
Download Home Credit Default Risk Kaggle Dataset
使用房屋信用違約風(fēng)險(xiǎn)Kaggle數(shù)據(jù)集的機(jī)器學(xué)習(xí)項(xiàng)目構(gòu)想
建立機(jī)器學(xué)習(xí)模型以預(yù)測(cè)客戶(hù)是否有能力償還貸款。這些模型將幫助銀行決定是否只對(duì)有能力償還貸款的申請(qǐng)人批準(zhǔn)貸款。
3)銀行營(yíng)業(yè)額數(shù)據(jù)集
該數(shù)據(jù)集包含針對(duì)銀行的大約1萬(wàn)名客戶(hù)的14個(gè)功能,其中20%是流失客戶(hù)。
Download Bank Turnover Dataset
使用銀行營(yíng)業(yè)額數(shù)據(jù)集的機(jī)器學(xué)習(xí)項(xiàng)目
該數(shù)據(jù)集可用于預(yù)測(cè)客戶(hù)流失,這是機(jī)器學(xué)習(xí)的最常見(jiàn)應(yīng)用之一。您可以建立一個(gè)機(jī)器學(xué)習(xí)模型來(lái)預(yù)測(cè)客戶(hù)是否會(huì)在未來(lái)6個(gè)月內(nèi)退出銀行的服務(wù)。預(yù)測(cè)客戶(hù)流失將有助于銀行制定保留活動(dòng)和忠誠(chéng)度計(jì)劃以保留客戶(hù)。
4)信用卡交易數(shù)據(jù)集
該歐洲信用卡數(shù)據(jù)集包含2013年9月在兩天內(nèi)發(fā)生的284、807筆交易和492筆欺詐交易(占所有交易的0.172%)。這是一個(gè)極具挑戰(zhàn)性的數(shù)據(jù)集,因?yàn)樗臄?shù)據(jù)不平衡,因?yàn)榇蠖鄶?shù)這些交易不是欺詐性交易,因此很難檢測(cè)到欺詐性交易。
Download Credit Card Fraud Transaction Kaggle Dataset
使用信用卡交易數(shù)據(jù)集的機(jī)器學(xué)習(xí)項(xiàng)目
信用卡欺詐是許多銀行和信用卡公司的常見(jiàn)問(wèn)題,因?yàn)榇蠖鄶?shù)欺詐交易看起來(lái)與正常交易相似,并且每天在信用卡上完成大量交易,因此很難手動(dòng)檢測(cè)到欺詐行為。使用此金融機(jī)器學(xué)習(xí)數(shù)據(jù)集來(lái)識(shí)別欺詐性信用卡交易,以確保不會(huì)因客戶(hù)未進(jìn)行的交易向客戶(hù)收費(fèi)。
5)給我一些信用數(shù)據(jù)集
該數(shù)據(jù)集包含2008年為25萬(wàn)巴西借款人創(chuàng)建的歷史數(shù)據(jù),金融機(jī)構(gòu)可以利用這些歷史數(shù)據(jù)來(lái)預(yù)測(cè)信用評(píng)分并做出最佳的財(cái)務(wù)決策。
Download Give me Some Credit Kaggle Dataset
使用“給我一些信譽(yù)”數(shù)據(jù)集的機(jī)器學(xué)習(xí)項(xiàng)目構(gòu)想
建立一個(gè)機(jī)器學(xué)習(xí)模型,以預(yù)測(cè)一個(gè)人在未來(lái)兩年內(nèi)遭受財(cái)務(wù)困擾的可能性。
6)兩個(gè)西格瑪數(shù)據(jù)集
該數(shù)據(jù)集由兩個(gè)數(shù)據(jù)源組成,即Intrinio和Thomson Reuters。 Intrinio提供的培訓(xùn)市場(chǎng)數(shù)據(jù)大約有400萬(wàn)行,而路透社提供的培訓(xùn)新聞分析數(shù)據(jù)則有近900萬(wàn)行,使其成為可用于預(yù)測(cè)股價(jià)的最大數(shù)據(jù)集之一。
Download Two Sigma Dataset
使用兩個(gè)Sigma Kaggle數(shù)據(jù)集的有趣的機(jī)器學(xué)習(xí)項(xiàng)目創(chuàng)意
股票價(jià)格通常由投資者的行為決定,而投資者則根據(jù)公共信息確定股票價(jià)格以預(yù)測(cè)股票市場(chǎng)的反應(yīng)。在此,隨著投資者對(duì)這些信息做出反應(yīng),財(cái)經(jīng)新聞文章在影響股票價(jià)格方面起著至關(guān)重要的作用。該數(shù)據(jù)集可用于構(gòu)建機(jī)器學(xué)習(xí)模型,以對(duì)與公司列表相關(guān)的新聞文章進(jìn)行分類(lèi),并基于該模型預(yù)測(cè)那些公司的股價(jià)波動(dòng)。
7)比特幣歷史數(shù)據(jù)集
該數(shù)據(jù)集包括從2012年1月到2020年12月的精選比特幣交易數(shù)據(jù),包括開(kāi)盤(pán)價(jià),最高價(jià),最低價(jià)和收盤(pán)價(jià)的逐分鐘更新,以及加權(quán)比特幣價(jià)格,BTC量和指定貨幣。
Download Bitcoin Historical Dataset
使用比特幣歷史數(shù)據(jù)集的示例機(jī)器學(xué)習(xí)項(xiàng)目構(gòu)想
使用此Kaggle數(shù)據(jù)集構(gòu)建機(jī)器學(xué)習(xí)模型,以預(yù)測(cè)明天的比特幣價(jià)格。人們可以探索使用LSTM模型來(lái)預(yù)測(cè)比特幣價(jià)格。
8)簡(jiǎn)街市場(chǎng)數(shù)據(jù)集
如果您喜歡機(jī)器學(xué)習(xí)項(xiàng)目或想探索一些良好的股市數(shù)據(jù),則此數(shù)據(jù)集可能是一個(gè)絕佳的合作機(jī)會(huì)。它包含帶有匿名功能的真實(shí)股市數(shù)據(jù),其中數(shù)據(jù)集中的每一行代表一個(gè)交易機(jī)會(huì)。
Download Jane Street Market Prediction Dataset
使用Jane Street市場(chǎng)預(yù)測(cè)數(shù)據(jù)集的建議的機(jī)器學(xué)習(xí)項(xiàng)目
使用Jane Street股票市場(chǎng)數(shù)據(jù)來(lái)構(gòu)建定量交易機(jī)器學(xué)習(xí)模型,以使用來(lái)自全球證券交易所的真實(shí)股票市場(chǎng)數(shù)據(jù)來(lái)最大化回報(bào)。您還可以針對(duì)未來(lái)的實(shí)際股市數(shù)據(jù)測(cè)試機(jī)器學(xué)習(xí)模型的有效性。
9)Elo商家類(lèi)別推薦
Elo是巴西的大型支付品牌,向借記卡和信用卡用戶(hù)提供餐廳推薦,并根據(jù)他們的偏好提供折扣。該數(shù)據(jù)集包含有關(guān)每筆卡交易的信息,以及有關(guān)特定商人長(zhǎng)達(dá)3個(gè)月的每張卡交易價(jià)值的數(shù)據(jù),每張卡的新商人的交易詳細(xì)信息,以及基于交易中涉及的各種商人的其他商人數(shù)據(jù)。卡交易。
Download Elo Merchant Category Recommendation Dataset
建議的Elo商家類(lèi)別數(shù)據(jù)集機(jī)器學(xué)習(xí)項(xiàng)目
該數(shù)據(jù)集可用于查找這些促銷(xiāo)對(duì)客戶(hù)和商人有多有益。建立機(jī)器學(xué)習(xí)模型來(lái)預(yù)測(cè)客戶(hù)的忠誠(chéng)度分?jǐn)?shù),并幫助Elo了解客戶(hù)的忠誠(chéng)度,以便他們減少不必要的營(yíng)銷(xiāo)活動(dòng)并為其用戶(hù)創(chuàng)造正確的體驗(yàn)。
10)俄羅斯儲(chǔ)蓄銀行俄羅斯住房市場(chǎng)數(shù)據(jù)集
此數(shù)據(jù)集的訓(xùn)練數(shù)據(jù)包含有關(guān)俄羅斯最古老,最大的銀行Sberbank的21000個(gè)真實(shí)交易的信息,而測(cè)試數(shù)據(jù)包含7K個(gè)真實(shí)交易以及有關(guān)該物業(yè)的其他信息。
Download Sberbank Russian Housing Market Kaggle Dataset
使用Sberbank俄羅斯住房市場(chǎng)數(shù)據(jù)集的機(jī)器學(xué)習(xí)項(xiàng)目構(gòu)想
使用此豐富的銀行數(shù)據(jù)集來(lái)開(kāi)發(fā)機(jī)器學(xué)習(xí)模型,以預(yù)測(cè)實(shí)際房?jī)r(jià),以便開(kāi)發(fā)商,貸方和提供者在購(gòu)買(mǎi)物業(yè)或簽訂租約時(shí)充滿(mǎn)信心。這些數(shù)據(jù)還包括有關(guān)俄羅斯經(jīng)濟(jì)和金融部門(mén)的信息,這些信息可以幫助開(kāi)發(fā)準(zhǔn)確的模型而無(wú)需再次猜測(cè)。
探索其他100個(gè)主要的金融和經(jīng)濟(jì)數(shù)據(jù)集。
機(jī)器學(xué)習(xí)社交媒體數(shù)據(jù)集
用于機(jī)器學(xué)習(xí)的社交媒體公共數(shù)據(jù)集
1)Twitter美國(guó)航空情緒數(shù)據(jù)集
該社交媒體數(shù)據(jù)集具有14,640行和12個(gè)屬性,并包含從Twitter刮取的美國(guó)各主要航空公司的推文。
Download Twitter US Airline Sentiment Dataset
ML項(xiàng)目建議的想法:使用機(jī)器學(xué)習(xí)的情感分類(lèi)系統(tǒng)
您可以使用此數(shù)據(jù)集將航空公司的推文分類(lèi)為肯定,否定或中性,以分析旅行者對(duì)航空公司的反饋。
2)Google Cloud和YouTube 8M數(shù)據(jù)集
由Google AI / Research在2016年開(kāi)發(fā)的數(shù)據(jù)集,其中包含800萬(wàn)個(gè)YouTube視頻(總計(jì)50萬(wàn)小時(shí))和4.8K(每個(gè)視頻平均3.4個(gè)標(biāo)簽)視覺(jué)標(biāo)題。
Download YouTube 8M Dataset
使用YouTube 8M數(shù)據(jù)集的數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)項(xiàng)目構(gòu)想
建立模型大小小于1GB的緊湊型視頻分類(lèi),以學(xué)習(xí)視頻表示形式。這將有助于推進(jìn)視頻級(jí)注釋。
建立分類(lèi)機(jī)器學(xué)習(xí)模型以準(zhǔn)確分配視頻標(biāo)簽。
3)COVID-19 Tweets數(shù)據(jù)集
這是一個(gè)多語(yǔ)言的推文數(shù)據(jù)集,包含超過(guò)10億條推文,其中包含冠狀病毒,病毒,covid,ncov19,ncov2019等關(guān)鍵字,并帶有標(biāo)簽,提及,主題和其他信息。
Download COVID19 Tweets Dataset
使用COVID 19數(shù)據(jù)集的建議ML項(xiàng)目
使用數(shù)據(jù)挖掘,網(wǎng)絡(luò)分析和NLP分析來(lái)自該數(shù)據(jù)集的推文集,以識(shí)別人們對(duì)大流行的反應(yīng)以及反應(yīng)隨時(shí)間的變化。您還可以利用此ML數(shù)據(jù)集來(lái)收集有關(guān)大流行初期如何傳輸正確信息和錯(cuò)誤信息的見(jiàn)解。
4)Yelp數(shù)據(jù)集
該數(shù)據(jù)集包含5,200,000條評(píng)論,其中包含來(lái)自4個(gè)國(guó)家/地區(qū)11個(gè)地區(qū)的1,74,000家企業(yè)的信息。
Download Yelp Kaggle Dataset
您可以使用此數(shù)據(jù)集進(jìn)行哪些項(xiàng)目以進(jìn)行機(jī)器學(xué)習(xí)?
使用NLP和情感分析來(lái)找出評(píng)論中正面或負(fù)面的含義,并推斷出各種情感和業(yè)務(wù)屬性的含義。
5)Twitter上的客戶(hù)支持
Twitter上來(lái)自頂級(jí)品牌的300萬(wàn)條推文的數(shù)據(jù)集。
Download Customer Support on Twitter Dataset
我可以使用此ML數(shù)據(jù)集做什么項(xiàng)目?
?
?
機(jī)器學(xué)習(xí)犯罪數(shù)據(jù)集
1)舊金山犯罪分類(lèi)
這是一個(gè)歷史數(shù)據(jù)集,包含2003年至2015年舊金山地區(qū)的12年犯罪報(bào)告。數(shù)據(jù)包括犯罪發(fā)生的日期,犯罪時(shí)間,犯罪描述,地區(qū),地址,位置坐標(biāo)和解決方案。
Download San Francisco Crime Classification Dataset
使用犯罪分類(lèi)Kaggle數(shù)據(jù)集的ML項(xiàng)目構(gòu)想
建立端到端機(jī)器學(xué)習(xí)模型,根據(jù)事件發(fā)生的位置和時(shí)間來(lái)預(yù)測(cè)犯罪事件的類(lèi)別。
2)倫敦犯罪數(shù)據(jù)集
該數(shù)據(jù)集由LSOA區(qū),月份和次要/主要類(lèi)別在2008年1月至2016年12月之間的犯罪報(bào)告組成,犯罪記錄為1300萬(wàn)行。
Download London Crime Dataset
使用London Crime Kaggle數(shù)據(jù)集的建議項(xiàng)目
該數(shù)據(jù)可用于分析根據(jù)一周中的某天或某個(gè)季節(jié)的犯罪發(fā)生率是否發(fā)生任何變化,或確定特定犯罪在減少或增加的自治市鎮(zhèn)。
3)印度犯罪
該數(shù)據(jù)集包含有關(guān)2001年國(guó)家犯罪數(shù)據(jù)的完整信息,分為40多個(gè)因素。
Download Crime in India Dataset
使用此數(shù)據(jù)集的分析建議項(xiàng)目
該數(shù)據(jù)集可用于分析印度的犯罪模式,例如虐待兒童案件,針對(duì)SC和ST的犯罪以及其他犯罪,以根據(jù)犯罪模式發(fā)現(xiàn)潛在的罪犯。
4)芝加哥犯罪數(shù)據(jù)集
來(lái)自芝加哥警察局的芝加哥犯罪數(shù)據(jù)集有699萬(wàn)行,具有22個(gè)屬性。該數(shù)據(jù)集會(huì)隨著犯罪事件不斷更新。
Download Chicago Crime Dataset
使用Chicago Crime Dataset的機(jī)器學(xué)習(xí)項(xiàng)目構(gòu)想
可以利用該數(shù)據(jù)集來(lái)構(gòu)建模型,以分析溫度對(duì)暴力犯罪(如毆打或毆打)的影響,確定同比增長(zhǎng)最高的犯罪類(lèi)別等。
5)波士頓數(shù)據(jù)集中的犯罪
數(shù)據(jù)集由波士頓警察局提供,其中包含2015年6月以來(lái)的犯罪類(lèi)型,犯罪發(fā)生的時(shí)間和地點(diǎn),犯罪描述,位置坐標(biāo)以及其他信息。
Download Crime in Boston Dataset
該數(shù)據(jù)集可用于構(gòu)建一個(gè)模型,以識(shí)別犯罪熱點(diǎn)和犯罪的頻繁發(fā)生時(shí)間。
獲取多個(gè)大數(shù)據(jù)電子書(shū):下載地址
總結(jié)
以上是生活随笔為你收集整理的精心挑选的100多种机器学习数据集的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: Linux的打开文件表:打开文件表、文件
- 下一篇: 实验九 哈希表的查找操作