日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

机器学习练习数据哪里找?两行代码搞定!

發布時間:2025/3/8 编程问答 29 豆豆
生活随笔 收集整理的這篇文章主要介紹了 机器学习练习数据哪里找?两行代码搞定! 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

初學者學習機器學習的時候,經常會找不到練習的數據,實際上scikit-learn內置了很多可以用于機器學習的數據,可以用兩行代碼就可以使用這些數據。

一、自帶數據集

自帶的小的數據集為:sklearn.datasets.load_<name>

load_bostonBoston房屋價格回歸506*13
fetch_california_housing加州住房回歸20640*9
load_diabetes糖尿病回歸442*10
load_digits手寫字分類1797*64
load_breast_cancer乳腺癌分類、聚類(357+212)*30
load_iris鳶尾花分類、聚類(50*3)*4
load_wine葡萄酒分類(59+71+48)*13
load_linnerud體能訓練多分類20

怎么用:

數據集的信息關鍵字:

  • DESCR:

    數據集的描述信息

  • data:

    內部數據(即:X)

  • feature_names:

    數據字段名

  • target:

    數據標簽(即:y)

  • target_names:

    標簽字段名(回歸數據集無此項)?


使用方法(以load_iris為例)

數據介紹:

  • 一般用于做分類測試

  • 有150個數據集,共分為3類,每類50個樣本。每個樣本有4個特征。

  • 每條記錄都有 4 項特征:包含4個特征(Sepal.Length(花萼長度)、Sepal.Width(花萼寬度)、Petal.Length(花瓣長度)、Petal.Width(花瓣寬度)),特征值都為正浮點數,單位為厘米。

  • 可以通過這4個特征預測鳶尾花卉屬于(iris-setosa(山鳶尾), iris-versicolour(雜色鳶尾), iris-virginica(維吉尼亞鳶尾))中的哪一品種。

第一步:

導入數據

from?sklearn.datasets import?load_iris iris = load_iris()第二步:定義X和y X, y = iris.data, iris.target 此外,可以看下數據的維度:X.shape,y.shape 輸出為:((150, 4), (150,))查看特征名: iris.feature_names 輸出為:['sepal length (cm)','sepal width (cm)','petal length (cm)','petal width (cm)']查看標簽名: iris.target_names

輸出為:

array(['setosa', 'versicolor', 'virginica'], dtype='<U10')

劃分訓練集和測試集:

from?sklearn.model_selection import?train_test_split X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25)

這樣就把訓練集和測試集按照3比1劃分了,接下來就可以用機器學習算法進行訓練和測試了。

小技巧:將數據轉換為Dataframe格式(兩種方法都可以):

import?pandas as?pd df_X = pd.DataFrame(iris.data, columns=iris.feature_names) #這個是X df_y = pd.DataFrame(iris.target, columns=["target"]) #這個是y df=pd.concat([df_X,df2],axis=1)#橫向合并 df.head()

或者:

import?numpy as?np import?pandas as?pd col_names = iris['feature_names'] + ['target'] df = pd.DataFrame(data= np.c_[iris['data'], iris['target']], columns=col_names) df.head()

輸出結果一致:

二、可在線下載的數據集(需要下載)

下載的數據集為:sklearn.datasets.fetch_<name>

這類數據需要在線下載,有點慢

fetch_20newsgroups

用于文本分類、文本挖據和信息檢索研究的國際標準數據集之一。數據集收集了大約20,000左右的新聞組文檔,均勻分為20個不同主題的新聞組集合。返回一個可以被文本特征提取器

fetch_20newsgroups_vectorized

這是上面這個文本數據的向量化后的數據,返回一個已提取特征的文本序列,即不需要使用特征提取器

fetch_california_housing

加利福尼亞的房價數據,總計20640個樣本,每個樣本8個屬性表示,以及房價作為target,所有屬性值均為number,詳情可調用fetch_california_housing()['DESCR']了解每個屬性的具體含義;

fetch_covtype

森林植被類型,總計581012個樣本,每個樣本由54個維度表示(12個屬性,其中2個分別是onehot4維和onehot40維),以及target表示植被類型1-7,所有屬性值均為number,詳情可調用fetch_covtype()['DESCR']了解每個屬性的具體含義

fetch_kddcup99

KDD競賽在1999年舉行時采用的數據集,KDD99數據集仍然是網絡入侵檢測領域的事實Benckmark,為基于計算智能的網絡入侵檢測研究奠定基礎,包含41項特征

fetch_lfw_pairs

該任務稱為人臉驗證:給定一對兩張圖片,二分類器必須預測這兩個圖片是否來自同一個人。

fetch_lfw_people

打好標簽的人臉數據集

fetch_mldata

從 mldata.org 中下載數據集

fetch_olivetti_faces

Olivetti 臉部圖片數據集

fetch_rcv1

路透社新聞語聊數據集

fetch_species_distributions

物種分布數據集

使用方法與自帶數據集一致,只是多了下載過程(示例:fetch_20newsgroups)

from?sklearn.datasets import?fetch_20newsgroups news = fetch_20newsgroups(subset='all') #本次使用的數據需要到互聯網上下載 from?sklearn.model_selection import?train_test_split #對數據訓練集和測試件進行劃分 X_train, X_test, y_train, y_test = train_test_split(news.data, news.target, test_size=0.25, random_state=33)


三、生成數據集

可以用來分類任務,可以用來回歸任務,可以用來聚類任務,用于流形學習的,用于因子分解任務的,用于分類任務和聚類任務的:這些函數產生樣本特征向量矩陣以及對應的類別標簽集合

  • make_blobs:多類單標簽數據集,為每個類分配一個或多個正態分布的點集

  • make_classification:多類單標簽數據集,為每個類分配一個或多個正態分布的點集,提供了為數據添加噪聲的方式,包括維度相關性,無效特征以及冗余特征等

  • make_gaussian-quantiles:將一個單高斯分布的點集劃分為兩個數量均等的點集,作為兩類

  • make_hastie-10-2:產生一個相似的二元分類數據集,有10個維度

  • make_circle和make_moons:產生二維二元分類數據集來測試某些算法的性能,可以為數據集添加噪聲,可以為二元分類器產生一些球形判決界面的數據

舉例:

import?matplotlib.pyplot as?plt from?sklearn.datasets import?make_moons X, y = make_moons(n_samples=100, noise=0.15, random_state=42) plt.title('make_moons function example') plt.scatter(X[:,0],X[:,1],marker='o',c=y) plt.show()


四、其它數據集

kaggle:

https://www.kaggle.com

天池:

https://tianchi.aliyun.com/dataset

搜狗實驗室:

http://www.sogou.com/labs/resource/list_pingce.php

DC競賽:

https://www.pkbigdata.com/common/cmptIndex.html

DF競賽:

https://www.datafountain.cn/datasets

總結

本文為機器學習初學者提供了使用scikit-learn內置數據的方法,用兩行代碼就可以使用這些數據,可以進行大部分的機器學習實驗了。

參考

https://scikit-learn.org/stable/datasets/index.html

關于本站

“機器學習初學者”公眾號由是黃海廣博士創建,黃博個人知乎粉絲23000+,github排名全球前110名(32000+)。本公眾號致力于人工智能方向的科普性文章,為初學者提供學習路線和基礎資料。原創作品有:吳恩達機器學習個人筆記、吳恩達深度學習筆記等。

往期精彩回顧

  • 那些年做的學術公益-你不是一個人在戰斗

  • 適合初學者入門人工智能的路線及資料下載

  • 吳恩達機器學習課程筆記及資源(github標星12000+,提供百度云鏡像)

  • 吳恩達深度學習筆記及視頻等資源(github標星8500+,提供百度云鏡像)

  • 《統計學習方法》的python代碼實現(github標星7200+)

  • 精心整理和翻譯的機器學習的相關數學資料

  • 首發:深度學習入門寶典-《python深度學習》原文代碼中文注釋版及電子書

備注:加入本站微信群或者qq群,請回復“加群

加入知識星球(4300+用戶,ID:92416895),請回復“知識星球

總結

以上是生活随笔為你收集整理的机器学习练习数据哪里找?两行代码搞定!的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 日韩中文字幕精品 | 亚洲精品乱码久久久久久蜜桃不卡 | 精品久久久久久中文字幕 | 情侣作爱视频网站 | 日韩图色 | 激情开心网站 | 丝瓜色版 | 一级特黄aa大片欧美 | 靠逼网站在线观看 | 精品国产理论 | 欧美日韩123| 日本成人性爱 | 国产欧美精品一区二区 | 久久6精品 | 日本视频免费观看 | 黄色免费成人 | 佐佐木明希av在线 | 日产久久视频 | 在线观看视频中文字幕 | 综合久久伊人 | 男人日女人b视频 | 美女扒开腿男人爽桶 | a亚洲精品 | 高清一区二区三区四区五区 | 国产一区二区三区黄片 | 亚洲无线观看 | 台湾佬在线 | 免费污污视频在线观看 | 色播视频在线观看 | 成人免费毛片观看 | 老司机久久 | 人妻aⅴ无码一区二区三区 阿v免费视频 | 国产免费观看一区 | 亚洲精品乱码久久久久久国产主播 | 国产一区二区三区视频在线播放 | 中文字幕日韩在线观看 | 日本黄页网站免费大全 | 资源av| 好吊日免费视频 | 97精品人妻一区二区三区蜜桃 | 国产女人高潮视频 | 久久久久久九九 | 国产午夜一级一片免费播放 | 伊人9999| 天天舔天天干天天操 | 中字幕一区二区三区乱码 | 日本久久久久久久久久 | 国产av日韩一区二区三区精品 | www.久久久久久久久久 | 夜晚福利视频 | 青草福利在线 | 久久成人动漫 | 亚洲欧美日韩精品在线 | 欧美色图一区二区三区 | 在线国产视频 | 成人网av | 成人免费毛片日本片视频 | 天天久 | 久草资源网站 | 亚洲精品一区二区三区新线路 | 日本黄色片网址 | 欧美 日韩 国产 精品 | 快色视频在线观看 | 猛男大粗猛爽h男人味 | 日韩无码精品一区二区 | 日本视频在线看 | 波多野结衣电车 | 茄子av| 视频区小说区图片区 | 调教一区二区三区 | 夜夜嗨av禁果av粉嫩avhd | 免费看一级黄色大全 | 亚洲免费视 | 国产一区二区三区 | 日啪| 久久久久久久一区二区三区 | 91久久精品国产 | 国家队动漫免费观看在线观看晨光 | 成人免费无遮挡无码黄漫视频 | 三级欧美韩日大片在线看 | 亚洲一区二区三区日韩 | 亚洲一区二区电影 | 久久一视频 | 久草资源站 | 国产女人18毛片18精品 | 黄色在线观看网址 | 日韩中文字幕在线免费观看 | 久久久久久久性 | 亚洲精品久久久蜜桃网尤妮丝 | 免费的性爱视频 | 污污污污污污www网站免费 | www.黄色. | 亚洲69av| 91人人干 | av美女网站 | 小蝌蚪av | 一区二区三区欧美视频 | 国产美女无遮挡网站 | 亚洲精品天堂在线观看 |