【20211208】【Python】UCI数据集的简单介绍和使用Python保存UCI数据集为.mat文件
一、UCI 數(shù)據(jù)集介紹
????????進行機器學習學習過程中,會使用到 UCI 公開數(shù)據(jù)集,UCI 數(shù)據(jù)集網(wǎng)址:UCI Machine Learning Repository。
????????點擊進入之后,頁面顯示如下:
????????以 iris 數(shù)據(jù)集為例,點擊進入:
????????該頁面展示了該數(shù)據(jù)集的相關信息,包括:數(shù)據(jù)及相關介紹、相關任務、樣本個數(shù)、特征個數(shù)、是否有缺失值等。
????????常見數(shù)據(jù)集及其樣本個數(shù)、特征個數(shù)總結:
????????更為詳細的數(shù)據(jù)集介紹和使用方法見下面參考鏈接,因為本文是利用 Python 讀取數(shù)據(jù)集,所以就不在此贅述了~?
????????(參考:UCI數(shù)據(jù)集整理(附論文常用數(shù)據(jù)集))
? ? ? ? (參考:UCI數(shù)據(jù)集詳解及其數(shù)據(jù)處理(附148個數(shù)據(jù)集及處理代碼))
二、使用 Python 讀取 UCI 數(shù)據(jù)集,并保存成 .mat 數(shù)據(jù)
? ? ? ? 在 UCI 網(wǎng)站下載數(shù)據(jù)集固然可行,但突然想到 Python 中的 sklearn.datasets 可以直接 load 數(shù)據(jù)集,所以直接借用?Python 了。
????????代碼如下:?
import numpy as np from sklearn import datasets # UCI 數(shù)據(jù)集在sklearn.datasets中有 from scipy import io as scio # 用來save .mat數(shù)據(jù)# 載入wine數(shù)據(jù)集 Data = datasets.load_wine()feaName = Data.feature_names # 數(shù)據(jù)集特征名稱 tarName = Data.target_names # 數(shù)據(jù)集標簽名稱myData = np.array(Data.data) # 數(shù)據(jù)集數(shù)據(jù) labels = np.array(Data.target) # 數(shù)據(jù)集標簽DataSet = {} DataSet['feature_names'] = feaName DataSet['class_names'] = tarName DataSet['data'] = myData DataSet['label'] = labels# 保存數(shù)據(jù)到 .mat 文件中 scio.savemat('DataSet_UCIwine.mat', DataSet)? ? ? ? (參考:python讀取文件——python讀取和保存mat文件?)?
三、sklearn.datasets.load_wine() 使用方法?
? ? ? ? 本節(jié)詳細介紹?sklearn.datasets.load_wine() 的返回值,即 Data 是什么?
from sklearn import datasetsData = datasets.load_wine()? ? ? ? ?可以看出,Data 是一個 Bunch 模式的數(shù)據(jù),其中包含 data(數(shù)據(jù)集數(shù)據(jù))、feature_names(特征名字)、target(數(shù)據(jù)集標簽)、target_names(分類后的類別名字)等信息,所以可以通過 Data.data, Data.target 等的方法獲取數(shù)據(jù)和相應標簽等。
? ? ? ? (參考:【20210924】【機器/深度學習】以鳶尾花卉數(shù)據(jù)集為例,使用K折交叉驗證選取KNN算法最優(yōu)的模型參數(shù)實例)
四、知識點
1. Bunch 模式
? ? ? ? Bunch 模式繼承自 Dict 類,所以它具有 Dict 類的所有屬性。
? ? ? ? Bunch 模式非常靈活,其屬性可以動態(tài)設置,可以使用它實現(xiàn)多種類型,尤其適用于建立樹形結構。
? ? ? ? (參考:Python中的Bunch模式)
? ? ? ? (參考:python函數(shù)——Bunch配置加載)
? ? ? ? (參考:Python中的Bunch模式)
總結
以上是生活随笔為你收集整理的【20211208】【Python】UCI数据集的简单介绍和使用Python保存UCI数据集为.mat文件的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 天涯明月刀服务器维护,天涯明月刀手游维护
- 下一篇: 基于python的贪吃蛇游戏设计论文_《