當前位置：首頁 > 人工智能 > ChatGpt >内容正文

ChatGpt

从零开始的AI·吃透kNN算法，学完我悟了（附实例代码）

發布時間：2025/4/5 ChatGpt 68 豆豆

生活随笔收集整理的這篇文章主要介紹了从零开始的AI·吃透kNN算法，学完我悟了（附实例代码）小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

從零開始的AI系列

從零開始的AI·機器學習の基本概念
從零開始的AI·決策樹原來這么好理解（附實例代碼）
從零開始的AI·樸素貝葉斯？拿來吧你（附實例代碼）

文章目錄

從零開始的AI系列
前言
一、權衡利弊
二、整體感知
- 圖解kNN
- 具體實例的應用
三、具體實現過程及細節
- 1. 數據的讀取
- 2. K值的選擇
- 3. 距離的計算
- 4. 數據的處理
- 5. 測試
四、封裝函數的使用

前言

本文理論部分基于Peter Harrington的《機器學習實戰》一書

kNN（k- Nearest Neighbor）即k-近鄰算法，最初由 Cover和Hart于1968年提出，是一個理論上比較成熟的方法，也是最簡單的機器學習算法之一。該方法的思路非常簡單直觀：如果一個樣本在特征空間中的K個最相似（即特征空間中最鄰近）的樣本中的大多數屬于某一個類別，則該樣本也屬于這個類別。該方法在定類決策上只依據最鄰近的一個或者幾個樣本的類別來決定待分樣本所屬的類別。

如果覺得AI學習枯燥，可以選擇看一下這個老哥做的網站，趣味性直接拉滿>>人工智能教程

一、權衡利弊

優點：精度高、對異常值不敏感、無數據輸入假定。
缺點：計算復雜度高、空間復雜度高。
適用數據范圍：數值型和標稱型。
應用：分類，回歸

二、整體感知

圖解kNN

在上圖中，五角星和方塊分別代表不同特征的數據，問號是需要我們預測的數據。現我們假設 k=5，即以距離問號最近5個數據的特征來確定該問號的特征。由此可知，問號①被預測為五角星，問號②被預測為方塊。但是，當數據足夠復雜時，k的值稍有變化，結果就可能不同，因此k的取值顯得尤為重要。

具體實例的應用

電影可以按照題材分類，同一題材的電影具有一些公共特征。那么動作片具有哪些共有特征，使得動作片之間非常類似，而與愛情片存在著明顯的差別呢？動作片中也會存在接吻鏡頭，愛情片中也會存在打斗場景，我們不能單純依靠是否存在打斗或者親吻來判斷影片的類型。但是愛情片中的親吻鏡頭更多，動作片中的打斗場景也更頻繁，基于此類場景在某部電影中出現的次數可以用來進行電影分類。基于電影中出現的親吻、打斗出現的次數，使用k-近鄰算法構造程序，我們就可以實現自動劃分電影的題材類型。

由上圖可計算出距離

根據幾個距離最小的已知電影，我們可以預測出，未知電影為愛情片

三、具體實現過程及細節

1. 數據的讀取

對數據進行讀取，并隨機分為三類：訓練集，驗證集，測試集

with open('iris.csv','r') as file: ##打開文件'iris.csv'，并命名為 filereader = csv.DictReader(file) datas = [row for row in reader] random.shuffle(datas) n = len(datas)//3 test_set = datas[0:n] train_set = datas[n:]

2. K值的選擇

取值方式：從選取一個較小的K值開始，不斷增加K值
驗證方式：交叉驗證（將數據按照一定比例分出訓練組和測試組，用測試組驗證訓練組得出的模型) 原理+方法

3. 距離的計算

閔可夫斯基距離
歐氏距離
曼哈頓距離

'''此處為歐式距離公式''' def distance(d1, d2):res = 0feature = ("150","4","setosa","versicolor")for key in (feature):res += (float(d1[key])-float(d2[key]))**2return res**0.5

4. 數據的處理

'''（1）對距離排序—升序'''res = sorted(res, key = lambdaitem:item['distance'])# '''（2）取前K個'''res2 = res[0:K] '''（3）加權平均（距離近的比重大）'''result = {'0': 0, '1':0, '2': 0}sum = 0for r in res2: sum+= r['distance']for r in res2: result[r['result']] += 1 - r['distance']/sum resulutCount1= sorted(result.items(),key=operator.itemgetter(1), reverse=True)return (resulutCount1[0][0])

5. 測試

利用測試集進行測試對比

correct = 0 for test in test_set: result = test['virginica']result2 = knn(test)if result == result2:correct+=1print("正確率：{:.2f}%".format(100*correct/len(test_set)))

四、封裝函數的使用

分類：neighbors.KNeighborsClassifier
預測：neighbors.KNeighborsRegressor

neighbors.KNeighborsClassifier(n_neighbors=5, weights='uniform',p=2, metric='minkowski',) n_neighbors：用于指定近鄰樣本個數K，默認為5 weights：用于指定近鄰樣本的投票權重，默認為'uniform'，表示所有近鄰樣本的投票權重一樣；如果為'distance'，則表示投票權重與距離成反比，即近鄰樣本與未知類別的樣本點距離越遠，權重越小，反之，權重越大 metric：用于指定距離的度量指標，默認為閔可夫斯基距離 p：當參數metric為閔可夫斯基距離時，p=1，表示計算點之間的曼哈頓距離；p=2，表示計算點之間的歐氏距離；該參數的默認值為2 #適用于最新版本python，復制就可以跑的代碼！！！ #原理代碼 import csv import random #讀取 with open('train.csv','r') as file:reader=csv.DictReader(file)datas=[row for row in reader]#分組 random.shuffle(datas) n=len(datas)//10test_set=datas[0:8*n] train_set=datas[8*n:]#KNN #距離 def distance(d1,d2):res=0for key in ("radius","texture"):res+=(float(d1[key])-float(d2[key]))**2return res**0.5K=1 def knn(data): #1.距離res=[{"result":train['diagnosis_result'],"distance":distance(data,train)}for train in train_set]#2.排序--升序res=sorted(res, key=lambda item:item['distance'])#3.取前K個res2=res[0:K]#4.加權平均result={'0':0,'1':0} #總距離sum=0for r in res2:sum+=r['distance']for r in res2:result[r['result']]+=1-r['distance']/sumif result['0']>result['1']:return '0'else:return'1' #測試階段 correct=0 for test in test_set:result=test['diagnosis_result']result2=knn(test)if result==result2:correct+=1print('準確率{:.2f}%'.format(100*correct/len(test_set))) knn(test_set[0] #實際應用代碼 import csv import pandas as pd from sklearn import model_selection from sklearn.neighbors import KNeighborsClassifier from sklearn.model_selection import train_test_split from sklearn import neighbors#讀取并處理數據 data=pd.read_csv('train.csv') predictors=data.columns[:-1] X_train, X_test, Y_train, Y_test =model_selection.train_test_split(data[predictors],data.diagnosis_result,test_size=0.25,random_state=1234)#knn算法 knn = KNeighborsClassifier(n_neighbors=1)# 評估模型的準確率 knn.fit(X_train, Y_train) print("預測的準確率為：", knn.score(X_test, Y_test))

總結

以上是生活随笔為你收集整理的从零开始的AI·吃透kNN算法，学完我悟了（附实例代码）的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：想写游戏吗？手把手教你SDL的安装及配置
下一篇：从零开始的AI·朴素贝叶斯？拿来吧你（附