當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【机器学习】KNN算法代码练习

發(fā)布時間：2025/3/12 编程问答 54 豆豆

生活随笔收集整理的這篇文章主要介紹了【机器学习】KNN算法代码练习小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

本課程是中國大學(xué)慕課《機(jī)器學(xué)習(xí)》的“KNN”章節(jié)的課后代碼。

課程地址：

https://www.icourse163.org/course/WZU-1464096179

課程完整代碼：

https://github.com/fengdu78/WZU-machine-learning-course

代碼修改并注釋：黃海廣，haiguang2000@wzu.edu.cn

1．近鄰法是基本且簡單的分類與回歸方法。近鄰法的基本做法是：對給定的訓(xùn)練實例點和輸入實例點，首先確定輸入實例點的個最近鄰訓(xùn)練實例點，然后利用這個訓(xùn)練實例點的類的多數(shù)來預(yù)測輸入實例點的類。

2．近鄰模型對應(yīng)于基于訓(xùn)練數(shù)據(jù)集對特征空間的一個劃分。近鄰法中，當(dāng)訓(xùn)練集、距離度量、值及分類決策規(guī)則確定后，其結(jié)果唯一確定。

3．近鄰法三要素：距離度量、值的選擇和分類決策規(guī)則。常用的距離度量是歐氏距離及更一般的pL距離。值小時，近鄰模型更復(fù)雜；值大時，近鄰模型更簡單。值的選擇反映了對近似誤差與估計誤差之間的權(quán)衡，通常由交叉驗證選擇最優(yōu)的。

常用的分類決策規(guī)則是多數(shù)表決，對應(yīng)于經(jīng)驗風(fēng)險最小化。

4．近鄰法的實現(xiàn)需要考慮如何快速搜索k個最近鄰點。kd樹是一種便于對k維空間中的數(shù)據(jù)進(jìn)行快速檢索的數(shù)據(jù)結(jié)構(gòu)。kd樹是二叉樹，表示對維空間的一個劃分，其每個結(jié)點對應(yīng)于維空間劃分中的一個超矩形區(qū)域。利用kd樹可以省去對大部分?jǐn)?shù)據(jù)點的搜索，從而減少搜索的計算量。

1.距離度量

在機(jī)器學(xué)習(xí)算法中，我們經(jīng)常需要計算樣本之間的相似度，通常的做法是計算樣本之間的距離。

設(shè)和為兩個向量，求它們之間的距離。

這里用Numpy實現(xiàn)，設(shè)和為ndarray <numpy.ndarray>，它們的shape都是(N,)

為所求的距離，是個浮點數(shù)（float）。

import?numpy?as?np??#注意：運行代碼時候需要導(dǎo)入NumPy庫。

歐氏距離(Euclidean distance)

歐幾里得度量(euclidean metric)(也稱歐氏距離)是一個通常采用的距離定義，指在維空間中兩個點之間的真實距離，或者向量的自然長度(即該點到原點的距離)。在二維和三維空間中的歐氏距離就是兩點之間的實際距離。

距離公式：

代碼實現(xiàn)：

def?euclidean(x,?y):return?np.sqrt(np.sum((x?-?y)**2))

曼哈頓距離(Manhattan distance)

想象你在城市道路里，要從一個十字路口開車到另外一個十字路口，駕駛距離是兩點間的直線距離嗎？顯然不是，除非你能穿越大樓。實際駕駛距離就是這個“曼哈頓距離”。而這也是曼哈頓距離名稱的來源，曼哈頓距離也稱為城市街區(qū)距離(City Block distance)。

距離公式：

代碼實現(xiàn)：

def?manhattan(x,?y):return?np.sum(np.abs(x?-?y))

切比雪夫距離(Chebyshev distance)

在數(shù)學(xué)中，切比雪夫距離(Chebyshev distance)或是L∞度量，是向量空間中的一種度量，二個點之間的距離定義是其各坐標(biāo)數(shù)值差絕對值的最大值。以數(shù)學(xué)的觀點來看，切比雪夫距離是由一致范數(shù)(uniform norm)(或稱為上確界范數(shù))所衍生的度量，也是超凸度量(injective metric space)的一種。

距離公式：

若將國際象棋棋盤放在二維直角座標(biāo)系中，格子的邊長定義為1，座標(biāo)的軸及軸和棋盤方格平行，原點恰落在某一格的中心點，則王從一個位置走到其他位置需要的步數(shù)恰為二個位置的切比雪夫距離，因此切比雪夫距離也稱為棋盤距離。例如位置F6和位置E2的切比雪夫距離為4。任何一個不在棋盤邊緣的位置，和周圍八個位置的切比雪夫距離都是1。

代碼實現(xiàn)：

def?chebyshev(x,?y):return?np.max(np.abs(x?-?y))

閔可夫斯基距離(Minkowski distance)

閔氏空間指狹義相對論中由一個時間維和三個空間維組成的時空，為俄裔德國數(shù)學(xué)家閔可夫斯基(H.Minkowski,1864-1909)最先表述。他的平坦空間(即假設(shè)沒有重力，曲率為零的空間)的概念以及表示為特殊距離量的幾何學(xué)是與狹義相對論的要求相一致的。閔可夫斯基空間不同于牛頓力學(xué)的平坦空間。取1或2時的閔氏距離是最為常用的，即為歐氏距離，而時則為曼哈頓距離。

當(dāng)取無窮時的極限情況下，可以得到切比雪夫距離。

距離公式：

代碼實現(xiàn)：

def?minkowski(x,?y,?p):return?np.sum(np.abs(x?-?y)**p)**(1?/?p)

漢明距離(Hamming distance)

漢明距離是使用在數(shù)據(jù)傳輸差錯控制編碼里面的，漢明距離是一個概念，它表示兩個(相同長度)字對應(yīng)位不同的數(shù)量，我們以表示兩個字,之間的漢明距離。對兩個字符串進(jìn)行異或運算，并統(tǒng)計結(jié)果為1的個數(shù)，那么這個數(shù)就是漢明距離。

距離公式：

代碼實現(xiàn)：

def?hamming(x,?y):return?np.sum(x?!=?y)?/?len(x)

余弦相似度(Cosine Similarity)

余弦相似性通過測量兩個向量的夾角的余弦值來度量它們之間的相似性。0度角的余弦值是1，而其他任何角度的余弦值都不大于1；并且其最小值是-1。從而兩個向量之間的角度的余弦值確定兩個向量是否大致指向相同的方向。兩個向量有相同的指向時，余弦相似度的值為1；兩個向量夾角為90°時，余弦相似度的值為0；兩個向量指向完全相反的方向時，余弦相似度的值為-1。這結(jié)果是與向量的長度無關(guān)的，僅僅與向量的指向方向相關(guān)。余弦相似度通常用于正空間，因此給出的值為0到1之間。

二維空間為例，上圖的和是兩個向量，我們要計算它們的夾角θ。余弦定理告訴我們，可以用下面的公式求得：

假定向量是

，向量是，兩個向量間的余弦值可以通過使用歐幾里得點積公式求出：

如果向量和不是二維而是維，上述余弦的計算法仍然正確。假定和是兩個維向量，是

，是，則與的夾角余弦等于：

代碼實現(xiàn)：

from?math?import?*def?square_rooted(x):return?round(sqrt(sum([a*a?for?a?in?x])),3)def?cosine_similarity(x,?y):numerator?=?sum(a?*?b?for?a,?b?in?zip(x,?y))denominator?=?square_rooted(x)?*?square_rooted(y)return?round(numerator?/?float(denominator),?3)print(cosine_similarity([3,?45,?7,?2],?[2,?54,?13,?15]))0.972

KNN算法

3．近鄰法三要素：距離度量、值的選擇和分類決策規(guī)則。常用的距離度量是歐氏距離。值小時，近鄰模型更復(fù)雜；值大時，近鄰模型更簡單。值的選擇反映了對近似誤差與估計誤差之間的權(quán)衡，通常由交叉驗證選擇最優(yōu)的。

常用的分類決策規(guī)則是多數(shù)表決，對應(yīng)于經(jīng)驗風(fēng)險最小化。

python實現(xiàn)，遍歷所有數(shù)據(jù)點，找出個距離最近的點的分類情況，少數(shù)服從多數(shù)

import?numpy?as?np import?pandas?as?pd import?matplotlib.pyplot?as?plt from?sklearn.datasets?import?load_iris from?sklearn.model_selection?import?train_test_split from?collections?import?Counter

導(dǎo)入鳶尾花數(shù)據(jù)集

iris?=?load_iris() df?=?pd.DataFrame(iris.data,?columns=iris.feature_names) df['label']?=?iris.target df.columns?=?['sepal?length',?'sepal?width',?'petal?length',?'petal?width',?'label']df.head()
sepal lengthsepal widthpetal lengthpetal widthlabel01234

5.1	3.5	1.4	0.2
4.9	3.0	1.4	0.2
4.7	3.2	1.3	0.2
4.6	3.1	1.5	0.2
5.0	3.6	1.4	0.2

選擇長和寬的數(shù)據(jù)進(jìn)行可視化

plt.figure(figsize=(12,?8)) plt.scatter(df[:50]['sepal?length'],?df[:50]['sepal?width'],?label='0') plt.scatter(df[50:100]['sepal?length'],?df[50:100]['sepal?width'],?label='1') plt.xlabel('sepal?length',?fontsize=18) plt.ylabel('sepal?width',?fontsize=18) plt.legend() plt.show()

Numpy實現(xiàn)

class?KNN:def?__init__(self,?X_train,?y_train,?n_neighbors=3,?p=2):"""parameter:?n_neighbors?臨近點個數(shù)parameter:?p?距離度量"""self.n?=?n_neighborsself.p?=?pself.X_train?=?X_trainself.y_train?=?y_traindef?predict(self,?X):#?取出n個點knn_list?=?[]for?i?in?range(self.n):dist?=?np.linalg.norm(X?-?self.X_train[i],?ord=self.p)knn_list.append((dist,?self.y_train[i]))for?i?in?range(self.n,?len(self.X_train)):max_index?=?knn_list.index(max(knn_list,?key=lambda?x:?x[0]))dist?=?np.linalg.norm(X?-?self.X_train[i],?ord=self.p)if?knn_list[max_index][0]?>?dist:knn_list[max_index]?=?(dist,?self.y_train[i])#?統(tǒng)計knn?=?[k[-1]?for?k?in?knn_list]count_pairs?=?Counter(knn)#?????????max_count?=?sorted(count_pairs,?key=lambda?x:?x)[-1]max_count?=?sorted(count_pairs.items(),?key=lambda?x:?x[1])[-1][0]return?max_countdef?score(self,?X_test,?y_test):right_count?=?0n?=?10for?X,?y?in?zip(X_test,?y_test):label?=?self.predict(X)if?label?==?y:right_count?+=?1return?right_count?/?len(X_test)data?=?np.array(df.iloc[:150,?[0,?1,?-1]]) X,?y?=?data[:,:-1],?data[:,-1] X_train,?X_test,?y_train,?y_test?=?train_test_split(X,?y,?test_size=0.3)clf?=?KNN(X_train,?y_train)clf.score(X_test,?y_test)0.7777777777777778test_point?=?[6.0,?3.0] print('Test?Point:?{}'.format(clf.predict(test_point)))Test Point: 2.0

Scikit-learn實例

sklearn.neighbors.KNeighborsClassifier

n_neighbors: 臨近點個數(shù)，即k的個數(shù)，默認(rèn)是5
p: 距離度量，默認(rèn)
algorithm: 近鄰算法，可選{'auto', 'ball_tree', 'kd_tree', 'brute'}
weights: 確定近鄰的權(quán)重
n_neighbors ：int，optional(default = 5) 默認(rèn)情況下kneighbors查詢使用的鄰居數(shù)。就是k-NN的k的值，選取最近的k個點。
weights ：str或callable，可選(默認(rèn)=‘uniform’) 默認(rèn)是uniform，參數(shù)可以是uniform、distance，也可以是用戶自己定義的函數(shù)。uniform是均等的權(quán)重，就說所有的鄰近點的權(quán)重都是相等的。distance是不均等的權(quán)重，距離近的點比距離遠(yuǎn)的點的影響大。用戶自定義的函數(shù)，接收距離的數(shù)組，返回一組維數(shù)相同的權(quán)重。
algorithm ：{‘a(chǎn)uto’，‘ball_tree’，‘kd_tree’，‘brute’}，可選快速k近鄰搜索算法，默認(rèn)參數(shù)為auto，可以理解為算法自己決定合適的搜索算法。除此之外，用戶也可以自己指定搜索算法ball_tree、kd_tree、brute方法進(jìn)行搜索，brute是蠻力搜索，也就是線性掃描，當(dāng)訓(xùn)練集很大時，計算非常耗時。kd_tree，構(gòu)造kd樹存儲數(shù)據(jù)以便對其進(jìn)行快速檢索的樹形數(shù)據(jù)結(jié)構(gòu)，kd樹也就是數(shù)據(jù)結(jié)構(gòu)中的二叉樹。以中值切分構(gòu)造的樹，每個結(jié)點是一個超矩形，在維數(shù)小于20時效率高。ball tree是為了克服kd樹高緯失效而發(fā)明的，其構(gòu)造過程是以質(zhì)心C和半徑r分割樣本空間，每個節(jié)點是一個超球體。
leaf_size ：int，optional(默認(rèn)值= 30) 默認(rèn)是30，這個是構(gòu)造的kd樹和ball樹的大小。這個值的設(shè)置會影響樹構(gòu)建的速度和搜索速度，同樣也影響著存儲樹所需的內(nèi)存大小。需要根據(jù)問題的性質(zhì)選擇最優(yōu)的大小。
p ：整數(shù)，可選(默認(rèn)= 2) 距離度量公式。在上小結(jié)，我們使用歐氏距離公式進(jìn)行距離度量。除此之外，還有其他的度量方法，例如曼哈頓距離。這個參數(shù)默認(rèn)為2，也就是默認(rèn)使用歐式距離公式進(jìn)行距離度量。也可以設(shè)置為1，使用曼哈頓距離公式進(jìn)行距離度量。
metric ：字符串或可調(diào)用，默認(rèn)為’minkowski’ 用于距離度量，默認(rèn)度量是minkowski，也就是p=2的歐氏距離(歐幾里德度量)。
metric_params ：dict，optional(默認(rèn)=None) 距離公式的其他關(guān)鍵參數(shù)，這個可以不管，使用默認(rèn)的None即可。
n_jobs ：int或None，可選(默認(rèn)=None) 并行處理設(shè)置。默認(rèn)為1，臨近點搜索并行工作數(shù)。如果為-1，那么CPU的所有cores都用于并行工作。

from?sklearn.neighbors?import?KNeighborsClassifier

不同k(n_neighbors)值下的結(jié)果：

clf_sk?=?KNeighborsClassifier(n_neighbors=3) clf_sk.fit(X_train,?y_train)KNeighborsClassifier(n_neighbors=3)clf_sk.score(X_test,?y_test)0.7777777777777778clf_sk?=?KNeighborsClassifier(n_neighbors=4) clf_sk.fit(X_train,?y_train) clf_sk.score(X_test,?y_test)0.8clf_sk?=?KNeighborsClassifier(n_neighbors=5) clf_sk.fit(X_train,?y_train) clf_sk.score(X_test,?y_test)0.7555555555555555

自動調(diào)參吧，試試循環(huán)，找到最優(yōu)的k值

best_score?=?0.0 best_k?=?-1 for?k?in?range(1,?11):knn_clf?=?KNeighborsClassifier(n_neighbors=k)knn_clf.fit(X_train,?y_train)score?=?knn_clf.score(X_test,?y_test)if?score?>?best_score:best_k?=?kbest_score?=?scoreprint("best_k?=?"?+?str(best_k)) print("best_score?=?"?+?str(best_score))best_k = 2 best_score = 0.8

KD樹的劃分和搜索

KD樹

KD樹(K-Dimension Tree)，，也可稱之為維樹，可以用更高的效率來對空間進(jìn)行劃分，并且其結(jié)構(gòu)非常適合尋找最近鄰居和碰撞檢測。KD樹是一種便于對維空間中的數(shù)據(jù)進(jìn)行快速檢索的數(shù)據(jù)結(jié)構(gòu)。KD樹是二叉樹，表示對維空間的一個劃分，其每個結(jié)點對應(yīng)于維空間劃分中的一個超矩形區(qū)域。利用KD樹可以省去對大部分?jǐn)?shù)據(jù)點的搜索，從而減少搜索的計算量。

KD樹是二叉樹，表示對𝑘維空間的一個劃分(partition)。構(gòu)造KD樹相當(dāng)于不斷地用垂直于坐標(biāo)軸的超平面將𝑘維空間切分，構(gòu)成一系列的維超矩形區(qū)域。KD樹的每個結(jié)點對應(yīng)于一個維超矩形區(qū)域。

構(gòu)造KD樹的方法

構(gòu)造根結(jié)點，使根結(jié)點對應(yīng)于維空間中包含所有實例點的超矩形區(qū)域；

通過下面的遞歸方法，不斷地對維空間進(jìn)行切分，生成子結(jié)點。

在超矩形區(qū)域(結(jié)點)上選擇一個坐標(biāo)軸和在此坐標(biāo)軸上的一個切分點，確定一個超平面，這個超平面通過選定的切分點并垂直于選定的坐標(biāo)軸，將當(dāng)前超矩形區(qū)域切分為左右兩個子區(qū)域(子結(jié)點)；

這時，實例被分到兩個子區(qū)域。這個過程直到子區(qū)域內(nèi)沒有實例時終止(終止時的結(jié)點為葉結(jié)點)。

在此過程中，將實例保存在相應(yīng)的結(jié)點上。

通常，依次選擇坐標(biāo)軸對空間切分，選擇訓(xùn)練實例點在選定坐標(biāo)軸上的中位數(shù)(median)為切分點，這樣得到的KD樹是平衡的。

注意，平衡的KD樹搜索時的效率未必是最優(yōu)的。

對于構(gòu)建過程，有兩個優(yōu)化點：

選擇切分維度

根據(jù)數(shù)據(jù)點在各維度上的分布情況，方差越大，分布越分散從方差大的維度開始切分，有較好的切分效果和平衡性。

確定中值點

預(yù)先對原始數(shù)據(jù)點在所有維度進(jìn)行一次排序，存儲下來，然后在后續(xù)的中值選擇中，無須每次都對其子集進(jìn)行排序，提升了性能。也可以從原始數(shù)據(jù)點中隨機(jī)選擇固定數(shù)目的點，然后對其進(jìn)行排序，每次從這些樣本點中取中值，來作為分割超平面。該方式在實踐中被證明可以取得很好性能及很好的平衡性。

from?collections?import?namedtuple from?pprint?import?pformatclass?Node(namedtuple('Node',?'location?left_child?right_child')):def?__repr__(self):return?pformat(tuple(self))#?kd-tree每個結(jié)點中主要包含的數(shù)據(jù)結(jié)構(gòu)如下 class?KdNode(object):def?__init__(self,?dom_elt,?split,?left,?right):self.dom_elt?=?dom_elt??#?k維向量節(jié)點(k維空間中的一個樣本點)self.split?=?split??#?整數(shù)（進(jìn)行分割維度的序號）self.left?=?left??#?該結(jié)點分割超平面左子空間構(gòu)成的kd-treeself.right?=?right??#?該結(jié)點分割超平面右子空間構(gòu)成的kd-treeclass?KdTreeCreate(object):def?__init__(self,?data):k?=?len(data[0])??#?數(shù)據(jù)維度def?CreateNode(split,?data_set):??#?按第split維劃分?jǐn)?shù)據(jù)集exset創(chuàng)建KdNodeif?not?data_set:??#?數(shù)據(jù)集為空return?None#?key參數(shù)的值為一個函數(shù)，此函數(shù)只有一個參數(shù)且返回一個值用來進(jìn)行比較#?operator模塊提供的itemgetter函數(shù)用于獲取對象的哪些維的數(shù)據(jù)，參數(shù)為需要獲取的數(shù)據(jù)在對象中的序號#data_set.sort(key=itemgetter(split))?#?按要進(jìn)行分割的那一維數(shù)據(jù)排序data_set.sort(key=lambda?x:?x[split])split_pos?=?len(data_set)?//?2??#?//為Python中的整數(shù)除法median?=?data_set[split_pos]??#?中位數(shù)分割點split_next?=?(split?+?1)?%?k??#?cycle?coordinates#?遞歸的創(chuàng)建kd樹return?KdNode(median,split,CreateNode(split_next,?data_set[:split_pos]),??#?創(chuàng)建左子樹CreateNode(split_next,?data_set[split_pos?+?1:]))??#?創(chuàng)建右子樹self.root?=?CreateNode(0,?data)??#?從第0維分量開始構(gòu)建kd樹,返回根節(jié)點#?KDTree的前序遍歷 def?preorder(root):print(root.dom_elt)if?root.left:??#?節(jié)點不為空preorder(root.left)if?root.right:preorder(root.right)#?對構(gòu)建好的kd樹進(jìn)行搜索，尋找與目標(biāo)點最近的樣本點： from?math?import?sqrt from?collections?import?namedtuple#?定義一個namedtuple,分別存放最近坐標(biāo)點、最近距離和訪問過的節(jié)點數(shù) result?=?namedtuple("Result_tuple","nearest_point??nearest_dist??nodes_visited")def?find_nearest(tree,?point):k?=?len(point)??#?數(shù)據(jù)維度def?travel(kd_node,?target,?max_dist):if?kd_node?is?None:return?result([0]?*?k,?float("inf"),0)??#?python中用float("inf")和float("-inf")表示正負(fù)無窮nodes_visited?=?1s?=?kd_node.split??#?進(jìn)行分割的維度pivot?=?kd_node.dom_elt??#?進(jìn)行分割的“軸”if?target[s]?<=?pivot[s]:??#?如果目標(biāo)點第s維小于分割軸的對應(yīng)值(目標(biāo)離左子樹更近)nearer_node?=?kd_node.left??#?下一個訪問節(jié)點為左子樹根節(jié)點further_node?=?kd_node.right??#?同時記錄下右子樹else:??#?目標(biāo)離右子樹更近nearer_node?=?kd_node.right??#?下一個訪問節(jié)點為右子樹根節(jié)點further_node?=?kd_node.lefttemp1?=?travel(nearer_node,?target,?max_dist)??#?進(jìn)行遍歷找到包含目標(biāo)點的區(qū)域nearest?=?temp1.nearest_point??#?以此葉結(jié)點作為“當(dāng)前最近點”dist?=?temp1.nearest_dist??#?更新最近距離nodes_visited?+=?temp1.nodes_visitedif?dist?<?max_dist:max_dist?=?dist??#?最近點將在以目標(biāo)點為球心，max_dist為半徑的超球體內(nèi)temp_dist?=?abs(pivot[s]?-?target[s])??#?第s維上目標(biāo)點與分割超平面的距離if?max_dist?<?temp_dist:??#?判斷超球體是否與超平面相交return?result(nearest,?dist,?nodes_visited)??#?不相交則可以直接返回，不用繼續(xù)判斷#----------------------------------------------------------------------#?計算目標(biāo)點與分割點的歐氏距離temp_dist?=?sqrt(sum((p1?-?p2)**2?for?p1,?p2?in?zip(pivot,?target)))if?temp_dist?<?dist:??#?如果“更近”nearest?=?pivot??#?更新最近點dist?=?temp_dist??#?更新最近距離max_dist?=?dist??#?更新超球體半徑#?檢查另一個子結(jié)點對應(yīng)的區(qū)域是否有更近的點temp2?=?travel(further_node,?target,?max_dist)nodes_visited?+=?temp2.nodes_visitedif?temp2.nearest_dist?<?dist:??#?如果另一個子結(jié)點內(nèi)存在更近距離nearest?=?temp2.nearest_point??#?更新最近點dist?=?temp2.nearest_dist??#?更新最近距離return?result(nearest,?dist,?nodes_visited)return?travel(tree.root,?point,?float("inf"))??#?從根節(jié)點開始遞歸from?time?import?process_time from?random?import?random#?產(chǎn)生一個k維隨機(jī)向量，每維分量值在0~1之間 def?random_point(k):return?[random()?for?_?in?range(k)]#?產(chǎn)生n個k維隨機(jī)向量 def?random_points(k,?n):return?[random_point(k)?for?_?in?range(n)]N?=?400000 t0?=?process_time() kd2?=?KdTreeCreate(random_points(3,?N))??#?構(gòu)建包含四十萬個3維空間樣本點的kd樹 ret2?=?find_nearest(kd2,?[0.1,?0.5,?0.8])??#?四十萬個樣本點中尋找離目標(biāo)最近的點 t1?=?process_time() print("time:?",?t1?-?t0,?"s") print(ret2)time: 6.28125 s Result_tuple(nearest_point=[0.10173282609374357, 0.501003167941415, 0.8000047195369713], nearest_dist=0.002002262336426111, nodes_visited=36)

KD樹的繪圖代碼

from?operator?import?itemgetterdef?kdtree(point_list,?depth=0):if?len(point_list)?==?0:return?None#?選擇“基于深度的軸”，以便軸在所有有效值之間循環(huán)#?只支持二維axis?=?depth?%?2#?Sort?point?list?and?choose?median?as?pivot?elementpoint_list.sort(key=itemgetter(axis))median?=?len(point_list)?//?2??#?選擇中值點#?創(chuàng)建節(jié)點并構(gòu)造子樹return?Node(location?=?point_list[median],left_child?=?kdtree(point_list[:median],?depth?+?1),right_child?=?kdtree(point_list[median?+?1:],?depth?+?1))import?matplotlib.pyplot?as?plt#?KD樹的線寬 line_width?=?[4.,?3.5,?3.,?2.5,?2.,?1.5,?1.,?.5,?0.3]def?plot_tree(tree,?min_x,?max_x,?min_y,?max_y,?prev_node,?branch,?depth=0):"""?plot?K-D?tree:param?tree??????input?tree?to?be?plotted:param?min_x:param?max_x:param?min_y:param?max_y:param?prev_node?parent's?node:param?branch????True?if?left,?False?if?right:param?depth?????tree's?depth:return?tree?????node"""cur_node?=?tree.location??#?當(dāng)前樹節(jié)點left_branch?=?tree.left_child??#?左分支right_branch?=?tree.right_child??#?右分支#根據(jù)樹的深度設(shè)置線條的寬度if?depth?>?len(line_width)?-?1:ln_width?=?line_width[len(line_width)?-?1]else:ln_width?=?line_width[depth]k?=?len(cur_node)axis?=?depth?%?k#?畫垂直分割線if?axis?==?0:if?branch?is?not?None?and?prev_node?is?not?None:if?branch:max_y?=?prev_node[1]else:min_y?=?prev_node[1]plt.plot([cur_node[0],?cur_node[0]],?[min_y,?max_y],linestyle='-',color='red',linewidth=ln_width)#?畫水平分割線elif?axis?==?1:if?branch?is?not?None?and?prev_node?is?not?None:if?branch:max_x?=?prev_node[0]else:min_x?=?prev_node[0]plt.plot([min_x,?max_x],?[cur_node[1],?cur_node[1]],linestyle='-',color='blue',linewidth=ln_width)#?畫當(dāng)前節(jié)點plt.plot(cur_node[0],?cur_node[1],?'ko')#?繪制當(dāng)前節(jié)點的左分支和右分支if?left_branch?is?not?None:plot_tree(left_branch,?min_x,?max_x,?min_y,?max_y,?cur_node,?True,depth?+?1)if?right_branch?is?not?None:plot_tree(right_branch,?min_x,?max_x,?min_y,?max_y,?cur_node,?False,depth?+?1)def?create_diagram(tree,?width,?height,?min_val,?max_val,?delta):plt.figure("Kd?Tree",?figsize=(width,?height))plt.axis([min_val?-?delta,?max_val?+?delta,?min_val?-?delta,?max_val?+?delta])plt.grid(b=True,?which='major',?color='0.75',?linestyle='--')plt.xticks([i?for?i?in?range(min_val?-?delta,?max_val?+?delta,?1)])plt.yticks([i?for?i?in?range(min_val?-?delta,?max_val?+?delta,?1)])#?畫出樹plot_tree(tree,?min_val?-?delta,?max_val?+?delta,?min_val?-?delta,max_val?+?delta,?None,?None)plt.title('KD?Tree')def?label_nodes(node,?i):loc?=?node.locationplt.text(loc[0]?+?0.15,?loc[1]?+?0.15,?str(i),?fontsize=10)if?node.left_child:i?=?label_nodes(node.left_child,?i?+?1)if?node.right_child:i?=?label_nodes(node.right_child,?i?+?1)return?idef?draw_target(point,?radius):plt.plot(point[0],?point[1],?marker='o',?color='#ff007f')circle?=?plt.Circle(point,0.3,facecolor='#ff007f',edgecolor='#ff007f',alpha=0.5)plt.gca().add_patch(circle)#?圍繞目標(biāo)點繪制超球體circle?=?plt.Circle(point,radius,facecolor='#ffd83d',edgecolor='#ffd83d',alpha=0.5)plt.gca().add_patch(circle)def?draw_neighbors(point_list):for?point?in?point_list:#?畫出找到的最近的鄰居plt.plot(point[0],?point[1],?'go')circle?=?plt.Circle(point,0.3,facecolor='#33cc00',edgecolor='#33cc00',alpha=0.5)plt.gca().add_patch(circle)from?graphviz?import?Digraphdef?add_node(dot,?node,?parent_id=None,?i=0,?edge_label=''):loc?=?node.locationnode_id?=?str(i)dot.node(node_id,?f"{i}\n({loc[0]},{loc[1]})")if?parent_id:dot.edge(parent_id,?node_id,?label=edge_label)if?node.left_child:i?=?add_node(dot,?node.left_child,?node_id,?i?+?1,?'l')if?node.right_child:i?=?add_node(dot,?node.right_child,?node_id,?i?+?1,?'r')return?idef?create_graph(tree):dot?=?Digraph(comment='Kd-tree')dot.attr('node',fontsize='20',shape='circle',width='1',fixedsize='true')dot.attr('edge',?arrowsize='0.7')add_node(dot,?tree)return?dot#?point_list?=?[[2,3],[5,7],[9,6],[4,5],[6,4],[7,2]] point_list1?=?[(2,3),(5,7),(9,6),(4,5),(6,4),(7,2)] tree?=?kdtree(point_list1) print(tree) create_graph(tree)((6, 4),((4, 5), ((2, 3), None, None), ((5, 7), None, None)),((9, 6), ((7, 2), None, None), None))

max_int?=?10000000 min_int?=?-max_int?-?1 max_float?=?float('inf')def?get_val_range(point_list):min_val?=?max_intmax_val?=?-max_int?-?1for?point?in?point_list:min_v?=?min(point)if?min_v?<?min_val:min_val?=?min_vmax_v?=?max(point)if?max_v?>?max_val:max_val?=?max_vreturn?(min_val,?max_val)min_val,?max_val=get_val_range(point_list1)create_diagram(tree,?8.,?8.,?min_val,?max_val,?1) label_nodes(tree,?0) plt.show()

參考

Prof. Andrew Ng. Machine Learning. Stanford University
李航，《統(tǒng)計學(xué)習(xí)方法》

機(jī)器學(xué)習(xí)練習(xí)6 KNN算法

代碼修改并注釋：黃海廣，haiguang2000@wzu.edu.cn

常用的分類決策規(guī)則是多數(shù)表決，對應(yīng)于經(jīng)驗風(fēng)險最小化。

1.距離度量

在機(jī)器學(xué)習(xí)算法中，我們經(jīng)常需要計算樣本之間的相似度，通常的做法是計算樣本之間的距離。

設(shè)和為兩個向量，求它們之間的距離。

這里用Numpy實現(xiàn)，設(shè)和為ndarray <numpy.ndarray>，它們的shape都是(N,)

為所求的距離，是個浮點數(shù)（float）。

import?numpy?as?np??#注意：運行代碼時候需要導(dǎo)入NumPy庫。

歐氏距離(Euclidean distance)

距離公式：

代碼實現(xiàn)：

def?euclidean(x,?y):return?np.sqrt(np.sum((x?-?y)**2))

曼哈頓距離(Manhattan distance)

距離公式：

代碼實現(xiàn)：

def?manhattan(x,?y):return?np.sum(np.abs(x?-?y))

切比雪夫距離(Chebyshev distance)

距離公式：

代碼實現(xiàn)：

def?chebyshev(x,?y):return?np.max(np.abs(x?-?y))

閔可夫斯基距離(Minkowski distance)

當(dāng)取無窮時的極限情況下，可以得到切比雪夫距離。

距離公式：

代碼實現(xiàn)：

def?minkowski(x,?y,?p):return?np.sum(np.abs(x?-?y)**p)**(1?/?p)

漢明距離(Hamming distance)

距離公式：

代碼實現(xiàn)：

def?hamming(x,?y):return?np.sum(x?!=?y)?/?len(x)

余弦相似度(Cosine Similarity)

二維空間為例，上圖的和是兩個向量，我們要計算它們的夾角θ。余弦定理告訴我們，可以用下面的公式求得：

假定向量是

，向量是，兩個向量間的余弦值可以通過使用歐幾里得點積公式求出：

如果向量和不是二維而是維，上述余弦的計算法仍然正確。假定和是兩個維向量，是

，是，則與的夾角余弦等于：

代碼實現(xiàn)：

KNN算法

常用的分類決策規(guī)則是多數(shù)表決，對應(yīng)于經(jīng)驗風(fēng)險最小化。

python實現(xiàn)，遍歷所有數(shù)據(jù)點，找出個距離最近的點的分類情況，少數(shù)服從多數(shù)

import?numpy?as?np import?pandas?as?pd import?matplotlib.pyplot?as?plt from?sklearn.datasets?import?load_iris from?sklearn.model_selection?import?train_test_split from?collections?import?Counter

導(dǎo)入鳶尾花數(shù)據(jù)集

5.1	3.5	1.4	0.2
4.9	3.0	1.4	0.2
4.7	3.2	1.3	0.2
4.6	3.1	1.5	0.2
5.0	3.6	1.4	0.2

選擇長和寬的數(shù)據(jù)進(jìn)行可視化

Numpy實現(xiàn)

Scikit-learn實例

sklearn.neighbors.KNeighborsClassifier

n_neighbors: 臨近點個數(shù)，即k的個數(shù)，默認(rèn)是5
p: 距離度量，默認(rèn)
algorithm: 近鄰算法，可選{'auto', 'ball_tree', 'kd_tree', 'brute'}
weights: 確定近鄰的權(quán)重
n_neighbors ：int，optional(default = 5) 默認(rèn)情況下kneighbors查詢使用的鄰居數(shù)。就是k-NN的k的值，選取最近的k個點。
weights ：str或callable，可選(默認(rèn)=‘uniform’) 默認(rèn)是uniform，參數(shù)可以是uniform、distance，也可以是用戶自己定義的函數(shù)。uniform是均等的權(quán)重，就說所有的鄰近點的權(quán)重都是相等的。distance是不均等的權(quán)重，距離近的點比距離遠(yuǎn)的點的影響大。用戶自定義的函數(shù)，接收距離的數(shù)組，返回一組維數(shù)相同的權(quán)重。
algorithm ：{‘a(chǎn)uto’，‘ball_tree’，‘kd_tree’，‘brute’}，可選快速k近鄰搜索算法，默認(rèn)參數(shù)為auto，可以理解為算法自己決定合適的搜索算法。除此之外，用戶也可以自己指定搜索算法ball_tree、kd_tree、brute方法進(jìn)行搜索，brute是蠻力搜索，也就是線性掃描，當(dāng)訓(xùn)練集很大時，計算非常耗時。kd_tree，構(gòu)造kd樹存儲數(shù)據(jù)以便對其進(jìn)行快速檢索的樹形數(shù)據(jù)結(jié)構(gòu)，kd樹也就是數(shù)據(jù)結(jié)構(gòu)中的二叉樹。以中值切分構(gòu)造的樹，每個結(jié)點是一個超矩形，在維數(shù)小于20時效率高。ball tree是為了克服kd樹高緯失效而發(fā)明的，其構(gòu)造過程是以質(zhì)心C和半徑r分割樣本空間，每個節(jié)點是一個超球體。
leaf_size ：int，optional(默認(rèn)值= 30) 默認(rèn)是30，這個是構(gòu)造的kd樹和ball樹的大小。這個值的設(shè)置會影響樹構(gòu)建的速度和搜索速度，同樣也影響著存儲樹所需的內(nèi)存大小。需要根據(jù)問題的性質(zhì)選擇最優(yōu)的大小。
p ：整數(shù)，可選(默認(rèn)= 2) 距離度量公式。在上小結(jié)，我們使用歐氏距離公式進(jìn)行距離度量。除此之外，還有其他的度量方法，例如曼哈頓距離。這個參數(shù)默認(rèn)為2，也就是默認(rèn)使用歐式距離公式進(jìn)行距離度量。也可以設(shè)置為1，使用曼哈頓距離公式進(jìn)行距離度量。
metric ：字符串或可調(diào)用，默認(rèn)為’minkowski’ 用于距離度量，默認(rèn)度量是minkowski，也就是p=2的歐氏距離(歐幾里德度量)。
metric_params ：dict，optional(默認(rèn)=None) 距離公式的其他關(guān)鍵參數(shù)，這個可以不管，使用默認(rèn)的None即可。
n_jobs ：int或None，可選(默認(rèn)=None) 并行處理設(shè)置。默認(rèn)為1，臨近點搜索并行工作數(shù)。如果為-1，那么CPU的所有cores都用于并行工作。

from?sklearn.neighbors?import?KNeighborsClassifier

不同k(n_neighbors)值下的結(jié)果：

自動調(diào)參吧，試試循環(huán)，找到最優(yōu)的k值

KD樹的劃分和搜索

KD樹

構(gòu)造KD樹的方法

構(gòu)造根結(jié)點，使根結(jié)點對應(yīng)于維空間中包含所有實例點的超矩形區(qū)域；

通過下面的遞歸方法，不斷地對維空間進(jìn)行切分，生成子結(jié)點。

這時，實例被分到兩個子區(qū)域。這個過程直到子區(qū)域內(nèi)沒有實例時終止(終止時的結(jié)點為葉結(jié)點)。

在此過程中，將實例保存在相應(yīng)的結(jié)點上。

通常，依次選擇坐標(biāo)軸對空間切分，選擇訓(xùn)練實例點在選定坐標(biāo)軸上的中位數(shù)(median)為切分點，這樣得到的KD樹是平衡的。

注意，平衡的KD樹搜索時的效率未必是最優(yōu)的。

對于構(gòu)建過程，有兩個優(yōu)化點：

選擇切分維度

根據(jù)數(shù)據(jù)點在各維度上的分布情況，方差越大，分布越分散從方差大的維度開始切分，有較好的切分效果和平衡性。

確定中值點

KD樹的繪圖代碼

參考

Prof. Andrew Ng. Machine Learning. Stanford University
李航，《統(tǒng)計學(xué)習(xí)方法》葉斯估計。

往期精彩回顧適合初學(xué)者入門人工智能的路線及資料下載機(jī)器學(xué)習(xí)及深度學(xué)習(xí)筆記等資料打印機(jī)器學(xué)習(xí)在線手冊深度學(xué)習(xí)筆記專輯《統(tǒng)計學(xué)習(xí)方法》的代碼復(fù)現(xiàn)專輯 AI基礎(chǔ)下載黃海廣老師《機(jī)器學(xué)習(xí)課程》視頻課黃海廣老師《機(jī)器學(xué)習(xí)課程》711頁完整版課件

本站qq群955171419，加入微信群請掃碼：

總結(jié)

以上是生活随笔為你收集整理的【机器学习】KNN算法代码练习的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：无线网络受限制或无连接处理方法
下一篇：互联网内容平台到底要用到多少AI技术？

5.1	3.5	1.4	0.2
4.9	3.0	1.4	0.2
4.7	3.2	1.3	0.2
4.6	3.1	1.5	0.2
5.0	3.6	1.4	0.2

5.1	3.5	1.4	0.2
4.9	3.0	1.4	0.2
4.7	3.2	1.3	0.2
4.6	3.1	1.5	0.2
5.0	3.6	1.4	0.2

5.1	3.5	1.4	0.2
4.9	3.0	1.4	0.2
4.7	3.2	1.3	0.2
4.6	3.1	1.5	0.2
5.0	3.6	1.4	0.2

5.1	3.5	1.4	0.2
4.9	3.0	1.4	0.2
4.7	3.2	1.3	0.2
4.6	3.1	1.5	0.2
5.0	3.6	1.4	0.2

5.1	3.5	1.4	0.2
4.9	3.0	1.4	0.2
4.7	3.2	1.3	0.2
4.6	3.1	1.5	0.2
5.0	3.6	1.4	0.2

5.1	3.5	1.4	0.2
4.9	3.0	1.4	0.2
4.7	3.2	1.3	0.2
4.6	3.1	1.5	0.2
5.0	3.6	1.4	0.2