日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

机器学习数据集

發(fā)布時間:2023/12/14 编程问答 33 豆豆
生活随笔 收集整理的這篇文章主要介紹了 机器学习数据集 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

文章目錄

      • 1.瑞典汽車保險數(shù)據(jù)集
      • 3.比馬印第安人糖尿病數(shù)據(jù)集
      • 4.懷孕次數(shù)
      • 5.聲納數(shù)據(jù)集
      • 6.鈔票數(shù)據(jù)集
      • 7.鳶尾花卉數(shù)據(jù)集
      • 9. 電離層數(shù)據(jù)集
      • 10.小麥種子數(shù)據(jù)集
      • 11.波士頓房價數(shù)據(jù)集
      • 12
        • 12.1單變量時間序列數(shù)據(jù)集
          • 洗發(fā)水銷售數(shù)據(jù)集(Shampoo Sales Dataset)
          • 日較低溫度數(shù)據(jù)集(Minimum Daily Temperatures Dataset)
          • 每月太陽黑子數(shù)數(shù)據(jù)集(Monthly Sunspot Dataset)
          • 每日女嬰出生人數(shù)數(shù)據(jù)集
        • 12.2 多變量時間序列數(shù)據(jù)集
          • EEG 人眼狀態(tài)數(shù)據(jù)集
          • 使用檢測數(shù)據(jù)集(Occupancy Detection Dataset)
          • 臭氧水平檢測數(shù)據(jù)集
      • 13 UCI數(shù)據(jù)集
      • 14 狗熊會

學(xué)好 機器學(xué)習(xí)的關(guān)鍵是用許多不同的數(shù)據(jù)集來練習(xí)。因為對不同的問題,需要有不同的數(shù)據(jù)準(zhǔn)備和建模方法。本文介紹了10個更受歡迎的標(biāo)準(zhǔn)機器學(xué)習(xí)數(shù)據(jù)集,可以用作練習(xí)的資源。

1.瑞典汽車保險數(shù)據(jù)集

瑞典汽車保險數(shù)據(jù)集( Swedish Auto Insurance Dataset)包含了對所有索賠要求的總賠付預(yù)測,以千瑞典克朗計,給定的條件是索賠要求總數(shù)。這是一個回歸問題。它由 63 個觀察值組成,包括1個輸入變量和1個輸出變量。

變量名:索賠要求數(shù)量。

對所有索賠的總賠付,以千瑞典克朗計。預(yù)測平均值的基準(zhǔn)性能的均方根誤差(RMSE)約為 72.251 千克朗。

前5行的示例如下:

下面是整個數(shù)據(jù)集的散點圖:

下載地址:http://t.cn/RfHWAbI

###2.葡萄酒質(zhì)量數(shù)據(jù)集

? 葡萄酒質(zhì)量數(shù)據(jù)集(Wine Quality Dataset )涉及根據(jù)每種葡萄酒的化學(xué)度量值來預(yù)測白葡萄酒的質(zhì)量。

它是一個多類分類問題,但也可以定義為回歸問題。每個類的觀察值數(shù)量不均等。一共有 4898個觀察值,11個輸入變量和一個輸出變量。

? 變量名:非揮發(fā)性酸度、揮發(fā)性酸度、檸檬酸、殘留糖、氯化物、游離二氧化硫、總二氧化硫、濃度、pH值、硫酸鹽、酒精度、質(zhì)量(得分在 0 和 10 之間)。

預(yù)測平均值的基準(zhǔn)性能的均方根誤差(RMSE)為 0.148 的質(zhì)量分數(shù)。

數(shù)據(jù)集前5行的示例如下:

3.比馬印第安人糖尿病數(shù)據(jù)集

? 比馬印第安人糖尿病數(shù)據(jù)集(Pima Indians Diabetes Dataset)涉及根據(jù)醫(yī)療記錄預(yù)測比馬印第安人5年內(nèi)糖尿病的發(fā)病情況。它是一個二元分類問題。每個類的觀察值數(shù)量不均等。一共有 768 個觀察值,8個輸入變量和1個輸出變量。缺失值通常用零值編碼。

4.懷孕次數(shù)

? 口服葡萄糖耐受試驗中,2小時的血漿葡萄糖濃度。

? 變量名:舒張壓(mm Hg)、三頭肌皮膚褶層厚度(mm)、2小時血清胰島素含量(μU/ ml)

體重指數(shù)(體重,kg /(身高,m)^ 2)、糖尿病家族史、年齡(歲)、類變量(0 或 1)。

? 預(yù)測最普遍類的基準(zhǔn)性能是約 65% 的分類準(zhǔn)確率,較佳結(jié)果達到約 77% 的分類準(zhǔn)確率。

數(shù)據(jù)集前5行的示例如下:

下載地址:http://t.cn/RfaFfq8

5.聲納數(shù)據(jù)集

? 聲納數(shù)據(jù)集(Sonar Dataset )涉及預(yù)測根據(jù)給定聲納從不同角度返回的強度預(yù)測目標(biāo)物體是巖石還是礦井。它是一個二元分類問題。每個類的觀察值數(shù)量不均等。一共有208個觀察值,60個輸入變量和1個輸出變量。

? 變量名:從不同角度返回的聲納… …類(M為礦井,R為巖石)

? 預(yù)測最普遍類的基準(zhǔn)性能是約 53% 的分類準(zhǔn)確率,較佳結(jié)果達到約 88% 的分類準(zhǔn)確率。

? 該數(shù)據(jù)集前5行的示例如下:

下載地址:http://t.cn/Rf8GrP7

6.鈔票數(shù)據(jù)集

? 鈔票數(shù)據(jù)集(Banknote Dataset)涉及根據(jù)給定鈔票的數(shù)個度量的照片預(yù)測是真鈔還是假鈔。

它是一個二元分類問題。每個類的觀測值數(shù)量不均等。一共有 1372 個觀察值,4個輸入變量和1個輸出變量。 變量名:小波變換圖像(連續(xù))、小波偏斜變換圖像(連續(xù))、小波峰度變換圖像(連續(xù))、圖像熵(連續(xù))。

? 類(0 為真鈔,1 為假鈔)

? 預(yù)測最普遍類的基準(zhǔn)性能是約 50% 的分類準(zhǔn)確率。

? 該數(shù)據(jù)集前5行的示例如下:

下載地址:http://t.cn/Rf8GdQo

7.鳶尾花卉數(shù)據(jù)集

? 鳶尾花卉數(shù)據(jù)集(Iris Flowers Dataset )涉及根據(jù)鳶尾花的測量數(shù)據(jù)預(yù)測花卉品種。它是一個多類分類問題。每個類的觀察值數(shù)量是均等的。一共有 150 個觀察值,4個輸入變量和1個輸出變量。

? 變量名:萼片長度(cm)、萼片寬度(cm)、花瓣長度(cm)、花瓣寬度(cm)、類(Iris Setosa,Iris Versicolour,Iris Virginica)

? 預(yù)測最普遍類的基準(zhǔn)性能是約 26% 的分類準(zhǔn)確率。

? 該數(shù)據(jù)集前5行的示例如下:

下載地址:http://t.cn/Rf8GeUq

###8. 鮑魚數(shù)據(jù)集

? 鮑魚數(shù)據(jù)集(Abalone Dataset)涉及根據(jù)鮑魚個體的測量數(shù)據(jù)來預(yù)測鮑魚的年齡(環(huán)的數(shù)量)。

它是一個多類分類(multi-class classification)問題,但也可以作為回歸問題。每個類的觀察值數(shù)量不均等。該數(shù)據(jù)集有 4177 個觀察值,8個輸入變量和1個輸出變量。

? 變量名:性別(M,F,I)、長度、直徑、高度、總重量、剝殼重量、內(nèi)臟重量、殼重、環(huán)的數(shù)量

? 預(yù)測最普遍類的基準(zhǔn)性能是約 16% 的分類準(zhǔn)確率,預(yù)測平均值的基準(zhǔn)性能的均方根誤差(RMSE)是約 3.2 個環(huán)。

? 該數(shù)據(jù)集前5行的示例如下:

下載地址:http://t.cn/Rf8GDdu

9. 電離層數(shù)據(jù)集

? 電離層數(shù)據(jù)集(Ionosphere Dataset)需要根據(jù)給定的電離層中的自由電子的雷達回波預(yù)測大氣結(jié)構(gòu)。

它是一個二元分類問題。每個類的觀察值數(shù)量不均等,一共有 351 個觀察值,34 個輸入變量和1個輸出變量。 變量名: 17對雷達回波數(shù)據(jù), … …

類(g 表示好,b 表示壞)。

預(yù)測最普遍類的基準(zhǔn)性能是約 64% 的分類準(zhǔn)確率,較佳結(jié)果達到約 94% 的分類準(zhǔn)確率。

該數(shù)據(jù)集前5行的示例如下:

下載地址:http://t.cn/Rf8GFY4

10.小麥種子數(shù)據(jù)集

? 小麥種子數(shù)據(jù)集(Wheat Seeds Dataset)涉及對不同品種的小麥種子進行預(yù)測,給定的是種子的計量數(shù)據(jù)。它是一個二元分類問題。每個類的觀察值是均等的,一共 210 個觀察值,7個輸入變量和1個輸出變量。 變量名:區(qū)域、周長、壓實度、籽粒長度、籽粒寬度、不對稱系數(shù)、籽粒腹溝長度

類(1,2,3)

預(yù)測最普遍類的基準(zhǔn)性能是約 28% 的分類準(zhǔn)確率。

數(shù)據(jù)集前5行的示例如下:

下載地址:http://t.cn/RfHHbzw

11.波士頓房價數(shù)據(jù)集

? 波士頓房價數(shù)據(jù)集(Boston House Price Dataset)包含對房價的預(yù)測,以千美元計,給定的條件是房屋及其相鄰房屋的詳細信息。該數(shù)據(jù)集是一個回歸問題。每個類的觀察值數(shù)量是均等的,共有 506 個觀察,13 個輸入變量和1個輸出變量。

變量名:CRIM:城鎮(zhèn)人均犯罪率、ZN:住宅用地超過 25000 sq.ft. 的比例、INDUS:城鎮(zhèn)非零售商用土地的比例、CHAS:查理斯河空變量(如果邊界是河流,則為1;否則為0)、NOX:一氧化氮濃度、RM:住宅平均房間數(shù)、AGE:1940 年之前建成的自用房屋比例、DIS:到波士頓五個中心區(qū)域的加權(quán)距離、RAD:輻射性公路的接近指數(shù)、TAX:每 10000 美元的全值財產(chǎn)稅率、PTRATIO:城鎮(zhèn)師生比例、B:1000(Bk-0.63)^ 2,其中 Bk 指代城鎮(zhèn)中黑人的比例、LSTAT:人口中地位低下者的比例、MEDV:自住房的平均房價,以千美元計。

預(yù)測平均值的基準(zhǔn)性能的均方根誤差(RMSE)是約 9.21 千美元。

數(shù)據(jù)集前5行的示例如下:

下載地址:http://t.cn/RfHTAgY

###12. 時間序列數(shù)據(jù)集

? 機器學(xué)習(xí)可以在時間序列數(shù)據(jù)集上應(yīng)用。這些屬于需要預(yù)測數(shù)值或分類的問題,但數(shù)據(jù)是按時間排序的。下面介紹7個標(biāo)準(zhǔn)時間序列數(shù)據(jù)集,可用于使用機器學(xué)習(xí)進行時間序列預(yù)測的實踐。

12

12.1單變量時間序列數(shù)據(jù)集

只有一個變量的時間序列數(shù)據(jù)集稱為單變量數(shù)據(jù)集(univariate datasets),

其優(yōu)點是:

  • 簡單且容易理解;支持Excel或其他繪圖工具;
  • 易于預(yù)測結(jié)果和期望結(jié)果的比較;
  • 易于嘗試你并評估新的方法。

以下是4個單變量時間序列數(shù)據(jù)集,均可從datamarket上下載。

洗發(fā)水銷售數(shù)據(jù)集(Shampoo Sales Dataset)

該數(shù)據(jù)集描述了3年期間的洗發(fā)水月銷售量,單位是銷售量,有36個觀察值。下面是該數(shù)據(jù)集前5行的示例,包括標(biāo)題行:

日較低溫度數(shù)據(jù)集(Minimum Daily Temperatures Dataset)

該數(shù)據(jù)集描述了澳大利亞墨爾本市10年間(1981-1990)的日較低溫度。單位是攝氏度,有3650個觀察值,數(shù)據(jù)來源為澳大利亞氣象局。

下面是該數(shù)據(jù)集前5行數(shù)據(jù)的示例:

每月太陽黑子數(shù)數(shù)據(jù)集(Monthly Sunspot Dataset)

該數(shù)據(jù)集描述了230年間(1749-1983)觀測到的每月太陽黑子數(shù)量。單位是太陽黑子數(shù)量,有2820個觀察值。數(shù)據(jù)集的來源為 Andrews&Herzberg(1985)。

下面是前5行數(shù)據(jù)的示例:

每日女嬰出生人數(shù)數(shù)據(jù)集

該數(shù)據(jù)集描述了1959年加利福尼亞州每日出生的女嬰人數(shù)。單位是人數(shù),有365個觀察值。數(shù)據(jù)集來源自 Newton(1988)。

下面是前5行的示例:

12.2 多變量時間序列數(shù)據(jù)集

多變量數(shù)據(jù)集(Multivariate datasets)通常更具挑戰(zhàn)性,多變量時間序列數(shù)據(jù)的主要來源是 UCI 機器學(xué)習(xí)庫(http://archive.ics.uci.edu/ml/),下文推薦的3個數(shù)據(jù)集均可下載。

EEG 人眼狀態(tài)數(shù)據(jù)集

該數(shù)據(jù)集描述個體的 EEG 數(shù)據(jù),以及他們的眼睛是睜著還是閉著。這個問題是為了根據(jù)跟定的 EEG 數(shù)據(jù)預(yù)測眼睛的狀態(tài)。

這是一個分類預(yù)測模型問題,共有14980個觀察值和15個輸入變量。 分類值“1”表示眼睛閉著,“0”表示眼睛睜開著。 數(shù)據(jù)按時間排序,記錄觀察結(jié)果的時間是117秒。

下面是數(shù)據(jù)集前5行的示例:

使用檢測數(shù)據(jù)集(Occupancy Detection Dataset)

這個數(shù)據(jù)集描述有關(guān)房間特征的數(shù)據(jù),目的是預(yù)測房間是否在使用中。數(shù)據(jù)集包含幾個星期期間,共10560個一分鐘的觀察,屬于分類預(yù)測問題。數(shù)據(jù)集包括7個特征值,例如房間的光線、氣溫、濕度等。

下面是前5行數(shù)據(jù)的示例,包括標(biāo)題行:

臭氧水平檢測數(shù)據(jù)集

這個數(shù)據(jù)集描述了6年期間的地面臭氧濃度數(shù)據(jù),目的是預(yù)測是否“臭氧日”。數(shù)據(jù)集包含2,536個觀察值,73個特征。 這是分類預(yù)測問題,類別值為“1”表示這天是臭氧日,為“0”表示正常日。

下面是前5行的示例:

總結(jié)

本文介紹了 10 個更受歡迎的標(biāo)準(zhǔn)數(shù)據(jù)集,你可以用它們來進行機器學(xué)習(xí)的應(yīng)用練習(xí)。

可以采取以下步驟:

選擇一個數(shù)據(jù)集。

選擇你最喜歡的工具(例如 Weka,scikit-learn 或 R)

看看你的結(jié)果比基準(zhǔn)分數(shù)高多少。

13 UCI數(shù)據(jù)集

http://archive.ics.uci.edu/ml/datasets.php

14 狗熊會

微信公眾號狗熊會可以下載很多數(shù)據(jù)集,之前搞活動開了年度VIP,有需要的可以找我

轉(zhuǎn)自:https://blog.csdn.net/zhaoyuxia517/article/details/77994390

總結(jié)

以上是生活随笔為你收集整理的机器学习数据集的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。