當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数据挖掘 —— 有监督学习（分类）

發(fā)布時間：2025/3/21 编程问答 25 豆豆

生活随笔收集整理的這篇文章主要介紹了数据挖掘 —— 有监督学习（分类）小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

數(shù)據(jù)挖掘 —— 有監(jiān)督學習（分類）

1. KNN分類算法
2. 決策樹分類算法
3. SVM算法簡介
4. 分類——集成算法
- 4.1 隨機森林參數(shù)介紹
- 4.2 Adaboost算法參數(shù)介紹
5 總結(jié)

1. KNN分類算法

預備知識：KD-Tree算法 (KDimensional Tree)
在空間中尋找與目標點距離最近的k個點
from sklearn.neighbors import NearestNeighbors

n_neighbors 為查詢的臨近點個數(shù)

algorithm 為查詢算法

‘ball_tree’ will use BallTree
‘kd_tree’ will use KDTree
‘brute’ will use a brute-force search.
‘a(chǎn)uto’ will attempt to decide the most appropriate algorithm based on the values passed to fit method.

radius 為查詢半徑

p 為閔可夫斯距離的p值

from sklearn import datasets data = datasets.load_iris() X_data = data["data"] Y_data = data["target"] NN.fit(X_data) # 訓練模型 result = NN.kneighbors(X =[[5.2, 3.1, 1.4, 0.2]] ,n_neighbors = 5,return_distance = True) result[0] # 距離 result[1] # 索引# ————KNN分類算法 """ 算法簡介：https://www.cnblogs.com/jyroy/p/9427977.html """ import pandas as pd from sklearn.neighbors import KNeighborsClassifier features = pd.read_excel("./data.xlsx",sheet_name = "features",headers = 0) label = pd.read_excel("./data.xlsx",sheet_name = "label",headers = 0) # 訓練集、驗證集、測試集拆分 from sklearn.model_selection import train_test_split X_tt,X_validation,Y_tt,Y_validation = train_test_split(features,label,test_size = 0.2) X_train,X_test,Y_train,Y_test = train_test_split(X_tt,Y_tt,test_size = 0.25)# 創(chuàng)建KNN分類模型對象 knn = KNeighborsClassifier(n_neighbors = 3) knn_5 = KNeighborsClassifier(n_neighbors = 5)# 使用訓練集數(shù)據(jù)訓練模型 knn.fit(X_test,Y_test) knn_5.fit(X_test,Y_test)# 使用模型對訓練集和驗證集數(shù)據(jù)進行預測 Y_validation_predict = knn.predict(X_validation) Y_validation_predict_5 = knn_5.predict(X_validation) Y_test_predict = knn.predict(X_test) Y_test_predict_5 = knn_5.predict(X_test)# 模型效果評判 """ 1、精準度:precision_score 指被分類器判定正例中的正樣本的比重 2、準確率:accuracy_score 代表分類器對整個樣本判斷正確的比重。 3、召回率：recall_score 指的是被預測為正例的占總的正例的比重 4、f1_score 它是精確率和召回率的調(diào)和平均數(shù)，最大為1，最小為0 """ from sklearn.metrics import f1_score,precision_score,accuracy_score,recall_score def metrics_wj(x,y,title):print("*"*8,title,"*"*8)print("precision score:",precision_score(x,y))print("recall score :",recall_score(x,y))print("accuracy score :",accuracy_score(x,y))print("f1 score:",f1_score(x,y)) metrics_wj(Y_validation,Y_validation_predict,"neighbors = 3 validation datasets:") metrics_wj(Y_validation,Y_validation_predict_5,"neighbors = 5 validation datasets:") """ 存在微小過擬合現(xiàn)象 """ # 模型保存 from sklearn.externals import joblib joblib.dump(knn,"knn_wj") knn_wj = joblib.load("knn_wj")

2. 決策樹分類算法

葉節(jié)點：標注內(nèi)部節(jié)點：特征
決定特征順序的方法：

信息增益 ID3算法 —— 優(yōu)先選擇信息增益大的特征（特征與標注之間的信息增益）

信息增益率 C4.5算法 —— 考慮到熵很小時，信息增益也比較小

Gini系數(shù) CART決策樹 ——不純度不純度最低的切分當做當前切分

幾個問題：

連續(xù)值切分 —— 計算每個分隔

規(guī)則用盡 —— 投票

過擬合 —— 修枝剪葉。（1）前剪枝：構(gòu)造決策樹前，規(guī)定每個葉子結(jié)點有多少個樣本.。（2）后剪紙：對樣本值懸殊的枝葉進行修剪

# ————————決策樹可視化—————— import pandas as pd import numpy as np from sklearn.model_selection import train_test_split from sklearn.externals import joblib from sklearn.tree import DecisionTreeClassifier,export_graphviz from sklearn.metrics import accuracy_score,f1_score,recall_score,precision_score import os import pydotplus# 讀取數(shù)據(jù) features = pd.read_excel("./data.xlsx",sheet_name = "features",header = 0) label = pd.read_excel("./data.xlsx",sheet_name = "label",header = 0) feature_name = features.columns.values# 訓練集、驗證集、測試集拆分 X_tt,X_validation,Y_tt,Y_validation = train_test_split(features,label,test_size = 0.2) X_train,X_test,Y_train,Y_test = train_test_split(X_tt,Y_tt,test_size = 0.25)# 訓練決策樹模型 """ DecisionTreeClassifier(criterion,max_depth,min_sample_split,min_sample_leaf,min_impurity_decrease,min_impurity_split)criterion：決定特征順序的方法默認為"gini",還有"entropy"max_depth：設置決策隨機森林中的決策樹的最大深度，深度越大，越容易過擬合，推薦樹的深度為：5-20之間min_sample_split：設置結(jié)點的最小樣本數(shù)量，當樣本數(shù)量可能小于此值時，結(jié)點將不會在劃分。min_sample_leaf：這個值限制了葉子節(jié)點最少的樣本數(shù)，如果某葉子節(jié)點數(shù)目小于樣本數(shù)，則會和兄弟節(jié)點一起被剪枝min_impurity_decrease：當不純度的減小值低于這個值時，則不再生成子節(jié)點min_impurity_split：這個值限制了決策樹的增長，如果某節(jié)點的不純度(基尼系數(shù)，信息增益，均方差，絕對差)小于這個閾值則該節(jié)點不再生成子節(jié)點。即為葉子節(jié)點。""" dtc = DecisionTreeClassifier(criterion="gini")# 訓練模型 dtc.fit(X_train,Y_train)# ————決策樹可視化 """ 1、下載graphviz（Graph visualization Software） https://www.graphviz.org/download/ 2、下載完成后將graphviz 添加到環(huán)境變量中當然也可以使用代碼添加到環(huán)境變量中 3、代碼添加環(huán)境變量的方法：import osos.environ["path"] += os.pathsep + "------/bin/" """ # 將graphviz 添加到環(huán)境變量 os.environ["PATH"] += os.pathsep + "D://bin/"# 導入python與graphviz的接口：pydotplus """ pydotplus在anaconda中默認缺省不安裝 pip install pydotplus """ # 將模型輸出為dot數(shù)據(jù) dot_data = export_graphviz(dtc,\out_file = None,\feature_names = feature_name,\class_names = ["not left","left"],\filled = True,\rounded = True,\special_characters =True) """ dtc:為需要輸出位dot數(shù)據(jù)的決策樹模型 out_file:輸出到已存在的dot文件（import stringIO dot_data = StringIO out_file = dot_data_）否則為None feature_names:特征名稱 class_names：標注的類別 """ # 使用pydotplus作圖 graph = pydotplus.graph_from_dot_data(dot_data)# 寫入pdf文件 graph.write_pdf("./decesion_tree_graph.pdf")

3. SVM算法簡介

超平面： $W^T*x + B = 0$
分界面: $W^T*x(p)+b >= 1\\ W^T*x(n)+b <= -1$
若樣本線性可分則采用線性支持向量機
若不符合線性可分，則可采取以下兩個思路：

軟間隔即引入松弛變量

擴維：先映射再計算，會產(chǎn)生維度災難，先計算（低維空間），再升維，需使用核函數(shù)

核函數(shù)：

線性核函數(shù)

高斯徑向基（RBF）核函數(shù) 可映射至無限維 100%切分

多項式核函數(shù)

相比于決策樹 SVM的邊界更加平滑
解決多分類問題：

one-other

one-one

from sklearn.svm import SVC SVC(C,kernel,degree,max_iter,tol,decision_function_shape)C:一個標準被分錯后應施加多大的懲罰默認為1 kernel：核函數(shù) linear poly rbf sigmoid precomputed degree: n階多項式 max_iter：最大迭代次數(shù) tol：精度 decision_function_shape: ovo ovr SVC.coef_

4. 分類——集成算法

4.1 隨機森林參數(shù)介紹

from sklearn.ensemble import RandomForestClassifier
RandomForestClassifier()

n_estimators：決策樹的個數(shù)
criterion: 決定特征順序的方法：“gini”,“entropy”,默認使用gini
max_features:每棵樹的特征
int:特征數(shù)
float：所用特征比例比如0.8
“auto”:默認使用的方式即取根號
“sqrt”：取根號
“l(fā)og2”
None: 取全量特征
bootstrap:有放回的取樣或者取全量 True為有放回取樣 False為取全樣
oob_score:若有放回取樣時，沒有取到的數(shù)據(jù)將被用于評估整體模型的準確性 True/False
n_jobs:并行數(shù)量默認1 若為-1，則一起并行

4.2 Adaboost算法參數(shù)介紹

from sklearn.ensemble import AdaBoostClassifier(base_estimator,n_estimators,learing_rate,algorithm)

base_estimator：弱分類器默認為DecisionTreeClassifier
n_estimators：默認為50個
algorithm：{SAMME,SAMME.R}，默認為使用SAMM.R，即分類器基于概率分類，若使用不是基于概率分類的分類器，則使用SAMME
learning_rate：權值的衰減率

5 總結(jié)

import pandas as pd import numpy as np from sklearn.model_selection import train_test_split from sklearn.neighbors import KNeighborsClassifier from sklearn.metrics import accuracy_score,recall_score,precision_score,f1_score from sklearn.naive_bayes import GaussianNB,BernoulliNB from sklearn.externals import joblib from sklearn.tree import DecisionTreeClassifier from sklearn.svm import SVC from sklearn.ensemble import RandomForestClassifier from sklearn.ensemble import AdaBoostClassifierfeatures = pd.read_excel("./data.xlsx",sheet_name = "features") feature_names = features.columns.values features = features.values label = pd.read_excel("./data.xlsx",sheet_name = "label").values# 訓練集拆分 X_tt,X_validation,Y_tt,Y_validation = train_test_split(features,label,test_size = 0.2) X_train,X_test,Y_train,Y_test = train_test_split(X_tt,Y_tt,test_size = 0.25)models = [] # 添加 KNN 分類模型 models.append(("KNN",KNeighborsClassifier(n_neighbors = 3))) # 添加GaussianNB BernoulliNB (高斯樸素貝葉斯和伯努利樸素貝葉斯) 分類模型 models.append(("GaussianNB",GaussianNB())) models.append(("BernoulliNB",BernoulliNB())) # 添加決策樹分類模型決定順序的算法（1）Gini系數(shù) CART算法，（2）信息增益 ID3算法 models.append(("DecisionTree_Gini",DecisionTreeClassifier(criterion="gini"))) models.append(("DecisionTree_entropy",DecisionTreeClassifier(criterion = "entropy",min_impurity_split = 0))) # 添加支持向量機分類模型 SVC models.append(("SVM Classifier",SVC(C = 10**3))) # 添加集成分類算法中的隨機森林算法RandomForest models.append(("RandomForest",RandomForestClassifier(n_estimators = 100))) # 添加集成分類算法中的AdaBoostClassifier models.append(('AdaBoost',AdaBoostClassifier(n_estimators = 1000)))for clf_name,clf in models:clf.fit(X_train,Y_train)XY_list = [(X_train,Y_train,"訓練集"),(X_validation,Y_validation,"驗證集"),(X_test,Y_test,"測試集")]print("*"*15,clf_name,"*"*15)for x,y,data_type in XY_list:y_predict = clf.predict(x)print(data_type+":")print("\t","ACC:",accuracy_score(y,y_predict))print("\t","PRC:",precision_score(y,y_predict))print("\t","REC:",recall_score(y,y_predict))print("\t","f1 :",f1_score(y,y_predict))# 決策樹可視化import repattern = re.compile("_")clf_name_new = pattern.split(clf_name)[0]if clf_name_new == "DecisionTree":import pydotplusfrom sklearn.tree import export_graphvizimport os os.environ["PATH"] += os.pathsep + "D://bin/"dot_data = export_graphviz(clf,out_file = None,feature_names = feature_names,class_names = ["not left","left"],\filled = True,rounded = True,special_characters = True)graph = pydotplus.graph_from_dot_data(dot_data)graph.write_pdf("./"+clf_name+".pdf")# 模型保存joblib.dump(clf,clf_name)

by CyrusMay 2022 04 05

總結(jié)

以上是生活随笔為你收集整理的数据挖掘 —— 有监督学习（分类）的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

数据挖掘

上一篇：数据挖掘 —— 探索性数据分析
下一篇：数据挖掘 —— 有监督学习（回归）