當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

KNN算法实现knn完成iris数据集分类

發布時間：2023/12/20 编程问答 36 豆豆

生活随笔收集整理的這篇文章主要介紹了 KNN算法实现knn完成iris数据集分类小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

最近鄰規則分類KNN

例子

歐氏距離

K值選取

算法缺點

算法實現

import matplotlib.pyplot as plt import numpy as np import operator# 已知分類的數據 x1 = np.array([3,2,1]) y1 = np.array([104,100,81]) #上面是愛情片的坐標，下面是動作片的坐標 x2 = np.array([101,99,98]) y2 = np.array([10,5,2]) scatter1 = plt.scatter(x1,y1,c='r') scatter2 = plt.scatter(x2,y2,c='b')# 未知數據 x = np.array([18]) y = np.array([90]) scatter3 = plt.scatter(x,y,c='k')#畫圖例 plt.legend(handles=[scatter1,scatter2,scatter3],labels=['labelA','labelB','X'],loc='best')plt.show()

# 已知分類的數據 x_data = np.array([[3,104],[2,100],[1,81],[101,10],[99,5],[98,2]]) y_data = np.array(['A','A','A','B','B','B']) x_test = np.array([18,90]) # 計算樣本數量 x_data_size = x_data.shape[0] x_data_size

# 復制x_test np.tile(x_test, (x_data_size,1))

# 計算x_test與每一個樣本的差值 diffMat = np.tile(x_test, (x_data_size,1)) - x_data diffMat

# 計算差值的平方 sqDiffMat = diffMat**2 sqDiffMat

# 求和 sqDistances = sqDiffMat.sum(axis=1) sqDistances

# 開方 distances = sqDistances**0.5 distances

# 從小到大排序 sortedDistances = distances.argsort() sortedDistances

classCount = {} # 設置k k = 5 for i in range(k):# 獲取標簽votelabel = y_data[sortedDistances[i]]# 統計標簽數量classCount[votelabel] = classCount.get(votelabel,0) + 1 classCount

# 根據operator.itemgetter(1)-第1個值對classCount排序，然后再取倒序 sortedClassCount = sorted(classCount.items(),key=operator.itemgetter(1), reverse=True) sortedClassCount

# 獲取數量最多的標簽 knnclass = sortedClassCount[0][0] knnclass

iris分類

# 導入算法包以及數據集 import numpy as np from sklearn import datasets from sklearn.model_selection import train_test_split from sklearn.metrics import classification_report,confusion_matrix import operator import random def knn(x_test, x_data, y_data, k):# 計算樣本數量x_data_size = x_data.shape[0]# 復制x_testnp.tile(x_test, (x_data_size,1))# 計算x_test與每一個樣本的差值diffMat = np.tile(x_test, (x_data_size,1)) - x_data# 計算差值的平方sqDiffMat = diffMat**2# 求和sqDistances = sqDiffMat.sum(axis=1)# 開方distances = sqDistances**0.5# 從小到大排序sortedDistances = distances.argsort()classCount = {}for i in range(k):# 獲取標簽votelabel = y_data[sortedDistances[i]]# 統計標簽數量classCount[votelabel] = classCount.get(votelabel,0) + 1# 根據operator.itemgetter(1)-第1個值對classCount排序，然后再取倒序sortedClassCount = sorted(classCount.items(),key=operator.itemgetter(1), reverse=True)# 獲取數量最多的標簽return sortedClassCount[0][0] # 載入數據 iris = datasets.load_iris() # x_train,x_test,y_train,y_test = train_test_split(iris.data, iris.target, test_size=0.2) #分割數據0.2為測試數據，0.8為訓練數據#打亂數據 data_size = iris.data.shape[0] index = [i for i in range(data_size)] random.shuffle(index) iris.data = iris.data[index] iris.target = iris.target[index]#切分數據集 test_size = 40 x_train = iris.data[test_size:] x_test = iris.data[:test_size] y_train = iris.target[test_size:] y_test = iris.target[:test_size]predictions = [] for i in range(x_test.shape[0]):predictions.append(knn(x_test[i], x_train, y_train, 5))print(classification_report(y_test, predictions))

print(confusion_matrix(y_test,predictions))#混淆矩陣

sklearn進行iris分類

# 導入算法包以及數據集 from sklearn import neighbors from sklearn import datasets from sklearn.model_selection import train_test_split from sklearn.metrics import classification_report import random # 載入數據 iris = datasets.load_iris() print(iris)

# 打亂數據切分數據集 # x_train,x_test,y_train,y_test = train_test_split(iris.data, iris.target, test_size=0.2) #分割數據0.2為測試數據，0.8為訓練數據#打亂數據 data_size = iris.data.shape[0] index = [i for i in range(data_size)] random.shuffle(index) iris.data = iris.data[index] iris.target = iris.target[index]#切分數據集 test_size = 40 x_train = iris.data[test_size:] x_test = iris.data[:test_size] y_train = iris.target[test_size:] y_test = iris.target[:test_size]# 構建模型 model = neighbors.KNeighborsClassifier(n_neighbors=3) model.fit(x_train, y_train) prediction = model.predict(x_test)print(classification_report(y_test, prediction))

總結

以上是生活随笔為你收集整理的KNN算法实现knn完成iris数据集分类的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：同事用void把我给秀翻了！
下一篇：父母悄悄给自己买房，我很生气，要怎么调整