转:iris数据集及简介
一.iris數據集簡介
iris數據集的中文名是安德森鳶尾花卉數據集,英文全稱是Anderson’s Iris data set。iris包含150個樣本,對應數據集的每行數據。每行數據包含每個樣本的四個特征和樣本的類別信息,所以iris數據集是一個150行5列的二維表。
通俗地說,iris數據集是用來給花做分類的數據集,每個樣本包含了花萼長度、花萼寬度、花瓣長度、花瓣寬度四個特征(前4列),我們需要建立一個分類器,分類器可以通過樣本的四個特征來判斷樣本屬于山鳶尾、變色鳶尾還是維吉尼亞鳶尾(這三個名詞都是花的品種)。
iris的每個樣本都包含了品種信息,即目標屬性(第5列,也叫target或label)。
樣本局部截圖:
將樣本中的4個特征兩兩組合(任選2個特征分別作為橫軸和縱軸,用不同的顏色標記不同品種的花),可以構建12種組合(其實只有6種,另外6種與之對稱),如圖所示:
python的數據挖掘/機器學習庫scikit已經內置了iris數據集,如果還沒有安裝scikit,可以參考scikit安裝教程。
二.scikit中iris數據集簡介
在linux中打開終端(ubuntu默認快捷鍵是ctrl+alt+T),輸入python進入python shell,輸入代碼:
from sklearn import datasets iris=datasets.load_iris()#data對應了樣本的4個特征,150行4列 print iris.data.shape#顯示樣本特征的前5行 print iris.data[:5]#target對應了樣本的類別(目標屬性),150行1列 print iris.target.shape#顯示所有樣本的目標屬性 print iris.target 運行結果如下:
其中,iris.target用0、1和2三個整數分別代表了花的三個品種
關于分類,我們使用了Iris數據集,這個scikit-learn自帶了,在pkgs目錄下搜索:iris.csv即可。
from sklearn.datasets import load_iris
iris = load_iris()
總結
以上是生活随笔為你收集整理的转:iris数据集及简介的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 你会选择深圳还是佛山?
- 下一篇: IAR8.4.2安装方法