【机器学习】KNN算法代码练习
本課程是中國(guó)大學(xué)慕課《機(jī)器學(xué)習(xí)》的“KNN”章節(jié)的課后代碼。
課程地址:
https://www.icourse163.org/course/WZU-1464096179
課程完整代碼:
https://github.com/fengdu78/WZU-machine-learning-course
代碼修改并注釋:黃海廣,haiguang2000@wzu.edu.cn
1.近鄰法是基本且簡(jiǎn)單的分類(lèi)與回歸方法。近鄰法的基本做法是:對(duì)給定的訓(xùn)練實(shí)例點(diǎn)和輸入實(shí)例點(diǎn),首先確定輸入實(shí)例點(diǎn)的個(gè)最近鄰訓(xùn)練實(shí)例點(diǎn),然后利用這個(gè)訓(xùn)練實(shí)例點(diǎn)的類(lèi)的多數(shù)來(lái)預(yù)測(cè)輸入實(shí)例點(diǎn)的類(lèi)。
2.近鄰模型對(duì)應(yīng)于基于訓(xùn)練數(shù)據(jù)集對(duì)特征空間的一個(gè)劃分。近鄰法中,當(dāng)訓(xùn)練集、距離度量、值及分類(lèi)決策規(guī)則確定后,其結(jié)果唯一確定。
3.近鄰法三要素:距離度量、值的選擇和分類(lèi)決策規(guī)則。常用的距離度量是歐氏距離及更一般的pL距離。值小時(shí),近鄰模型更復(fù)雜;值大時(shí),近鄰模型更簡(jiǎn)單。值的選擇反映了對(duì)近似誤差與估計(jì)誤差之間的權(quán)衡,通常由交叉驗(yàn)證選擇最優(yōu)的。
常用的分類(lèi)決策規(guī)則是多數(shù)表決,對(duì)應(yīng)于經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化。
4.近鄰法的實(shí)現(xiàn)需要考慮如何快速搜索k個(gè)最近鄰點(diǎn)。kd樹(shù)是一種便于對(duì)k維空間中的數(shù)據(jù)進(jìn)行快速檢索的數(shù)據(jù)結(jié)構(gòu)。kd樹(shù)是二叉樹(shù),表示對(duì)維空間的一個(gè)劃分,其每個(gè)結(jié)點(diǎn)對(duì)應(yīng)于維空間劃分中的一個(gè)超矩形區(qū)域。利用kd樹(shù)可以省去對(duì)大部分?jǐn)?shù)據(jù)點(diǎn)的搜索, 從而減少搜索的計(jì)算量。
1.距離度量
在機(jī)器學(xué)習(xí)算法中,我們經(jīng)常需要計(jì)算樣本之間的相似度,通常的做法是計(jì)算樣本之間的距離。
設(shè)和為兩個(gè)向量,求它們之間的距離。
這里用Numpy實(shí)現(xiàn),設(shè)和為ndarray <numpy.ndarray>,它們的shape都是(N,)
為所求的距離,是個(gè)浮點(diǎn)數(shù)(float)。
import?numpy?as?np??#注意:運(yùn)行代碼時(shí)候需要導(dǎo)入NumPy庫(kù)。歐氏距離(Euclidean distance)
歐幾里得度量(euclidean metric)(也稱(chēng)歐氏距離)是一個(gè)通常采用的距離定義,指在維空間中兩個(gè)點(diǎn)之間的真實(shí)距離,或者向量的自然長(zhǎng)度(即該點(diǎn)到原點(diǎn)的距離)。在二維和三維空間中的歐氏距離就是兩點(diǎn)之間的實(shí)際距離。
距離公式:
代碼實(shí)現(xiàn):
def?euclidean(x,?y):return?np.sqrt(np.sum((x?-?y)**2))曼哈頓距離(Manhattan distance)
想象你在城市道路里,要從一個(gè)十字路口開(kāi)車(chē)到另外一個(gè)十字路口,駕駛距離是兩點(diǎn)間的直線距離嗎?顯然不是,除非你能穿越大樓。實(shí)際駕駛距離就是這個(gè)“曼哈頓距離”。而這也是曼哈頓距離名稱(chēng)的來(lái)源,曼哈頓距離也稱(chēng)為城市街區(qū)距離(City Block distance)。
距離公式:
代碼實(shí)現(xiàn):
def?manhattan(x,?y):return?np.sum(np.abs(x?-?y))切比雪夫距離(Chebyshev distance)
在數(shù)學(xué)中,切比雪夫距離(Chebyshev distance)或是L∞度量,是向量空間中的一種度量,二個(gè)點(diǎn)之間的距離定義是其各坐標(biāo)數(shù)值差絕對(duì)值的最大值。以數(shù)學(xué)的觀點(diǎn)來(lái)看,切比雪夫距離是由一致范數(shù)(uniform norm)(或稱(chēng)為上確界范數(shù))所衍生的度量,也是超凸度量(injective metric space)的一種。
距離公式:
若將國(guó)際象棋棋盤(pán)放在二維直角座標(biāo)系中,格子的邊長(zhǎng)定義為1,座標(biāo)的軸及軸和棋盤(pán)方格平行,原點(diǎn)恰落在某一格的中心點(diǎn),則王從一個(gè)位置走到其他位置需要的步數(shù)恰為二個(gè)位置的切比雪夫距離,因此切比雪夫距離也稱(chēng)為棋盤(pán)距離。例如位置F6和位置E2的切比雪夫距離為4。任何一個(gè)不在棋盤(pán)邊緣的位置,和周?chē)藗€(gè)位置的切比雪夫距離都是1。
代碼實(shí)現(xiàn):
def?chebyshev(x,?y):return?np.max(np.abs(x?-?y))閔可夫斯基距離(Minkowski distance)
閔氏空間指狹義相對(duì)論中由一個(gè)時(shí)間維和三個(gè)空間維組成的時(shí)空,為俄裔德國(guó)數(shù)學(xué)家閔可夫斯基(H.Minkowski,1864-1909)最先表述。他的平坦空間(即假設(shè)沒(méi)有重力,曲率為零的空間)的概念以及表示為特殊距離量的幾何學(xué)是與狹義相對(duì)論的要求相一致的。閔可夫斯基空間不同于牛頓力學(xué)的平坦空間。取1或2時(shí)的閔氏距離是最為常用的,即為歐氏距離,而時(shí)則為曼哈頓距離。
當(dāng)取無(wú)窮時(shí)的極限情況下,可以得到切比雪夫距離。
距離公式:
代碼實(shí)現(xiàn):
def?minkowski(x,?y,?p):return?np.sum(np.abs(x?-?y)**p)**(1?/?p)漢明距離(Hamming distance)
漢明距離是使用在數(shù)據(jù)傳輸差錯(cuò)控制編碼里面的,漢明距離是一個(gè)概念,它表示兩個(gè)(相同長(zhǎng)度)字對(duì)應(yīng)位不同的數(shù)量,我們以表示兩個(gè)字,之間的漢明距離。對(duì)兩個(gè)字符串進(jìn)行異或運(yùn)算,并統(tǒng)計(jì)結(jié)果為1的個(gè)數(shù),那么這個(gè)數(shù)就是漢明距離。
距離公式:
代碼實(shí)現(xiàn):
def?hamming(x,?y):return?np.sum(x?!=?y)?/?len(x)余弦相似度(Cosine Similarity)
余弦相似性通過(guò)測(cè)量?jī)蓚€(gè)向量的夾角的余弦值來(lái)度量它們之間的相似性。0度角的余弦值是1,而其他任何角度的余弦值都不大于1;并且其最小值是-1。從而兩個(gè)向量之間的角度的余弦值確定兩個(gè)向量是否大致指向相同的方向。兩個(gè)向量有相同的指向時(shí),余弦相似度的值為1;兩個(gè)向量夾角為90°時(shí),余弦相似度的值為0;兩個(gè)向量指向完全相反的方向時(shí),余弦相似度的值為-1。這結(jié)果是與向量的長(zhǎng)度無(wú)關(guān)的,僅僅與向量的指向方向相關(guān)。余弦相似度通常用于正空間,因此給出的值為0到1之間。
二維空間為例,上圖的和是兩個(gè)向量,我們要計(jì)算它們的夾角θ。余弦定理告訴我們,可以用下面的公式求得:
假定向量是
,向量是,兩個(gè)向量間的余弦值可以通過(guò)使用歐幾里得點(diǎn)積公式求出:如果向量和不是二維而是維,上述余弦的計(jì)算法仍然正確。假定和是兩個(gè)維向量,是
,是,則與的夾角余弦等于:代碼實(shí)現(xiàn):
from?math?import?*def?square_rooted(x):return?round(sqrt(sum([a*a?for?a?in?x])),3)def?cosine_similarity(x,?y):numerator?=?sum(a?*?b?for?a,?b?in?zip(x,?y))denominator?=?square_rooted(x)?*?square_rooted(y)return?round(numerator?/?float(denominator),?3)print(cosine_similarity([3,?45,?7,?2],?[2,?54,?13,?15]))0.972KNN算法
1.近鄰法是基本且簡(jiǎn)單的分類(lèi)與回歸方法。近鄰法的基本做法是:對(duì)給定的訓(xùn)練實(shí)例點(diǎn)和輸入實(shí)例點(diǎn),首先確定輸入實(shí)例點(diǎn)的個(gè)最近鄰訓(xùn)練實(shí)例點(diǎn),然后利用這個(gè)訓(xùn)練實(shí)例點(diǎn)的類(lèi)的多數(shù)來(lái)預(yù)測(cè)輸入實(shí)例點(diǎn)的類(lèi)。
2.近鄰模型對(duì)應(yīng)于基于訓(xùn)練數(shù)據(jù)集對(duì)特征空間的一個(gè)劃分。近鄰法中,當(dāng)訓(xùn)練集、距離度量、值及分類(lèi)決策規(guī)則確定后,其結(jié)果唯一確定。
3.近鄰法三要素:距離度量、值的選擇和分類(lèi)決策規(guī)則。常用的距離度量是歐氏距離。值小時(shí),近鄰模型更復(fù)雜;值大時(shí),近鄰模型更簡(jiǎn)單。值的選擇反映了對(duì)近似誤差與估計(jì)誤差之間的權(quán)衡,通常由交叉驗(yàn)證選擇最優(yōu)的。
常用的分類(lèi)決策規(guī)則是多數(shù)表決,對(duì)應(yīng)于經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化。
4.近鄰法的實(shí)現(xiàn)需要考慮如何快速搜索k個(gè)最近鄰點(diǎn)。kd樹(shù)是一種便于對(duì)k維空間中的數(shù)據(jù)進(jìn)行快速檢索的數(shù)據(jù)結(jié)構(gòu)。kd樹(shù)是二叉樹(shù),表示對(duì)維空間的一個(gè)劃分,其每個(gè)結(jié)點(diǎn)對(duì)應(yīng)于維空間劃分中的一個(gè)超矩形區(qū)域。利用kd樹(shù)可以省去對(duì)大部分?jǐn)?shù)據(jù)點(diǎn)的搜索, 從而減少搜索的計(jì)算量。
python實(shí)現(xiàn),遍歷所有數(shù)據(jù)點(diǎn),找出個(gè)距離最近的點(diǎn)的分類(lèi)情況,少數(shù)服從多數(shù)
import?numpy?as?np import?pandas?as?pd import?matplotlib.pyplot?as?plt from?sklearn.datasets?import?load_iris from?sklearn.model_selection?import?train_test_split from?collections?import?Counter導(dǎo)入鳶尾花數(shù)據(jù)集
iris?=?load_iris() df?=?pd.DataFrame(iris.data,?columns=iris.feature_names) df['label']?=?iris.target df.columns?=?['sepal?length',?'sepal?width',?'petal?length',?'petal?width',?'label']df.head()| 5.1 | 3.5 | 1.4 | 0.2 | 0 |
| 4.9 | 3.0 | 1.4 | 0.2 | 0 |
| 4.7 | 3.2 | 1.3 | 0.2 | 0 |
| 4.6 | 3.1 | 1.5 | 0.2 | 0 |
| 5.0 | 3.6 | 1.4 | 0.2 | 0 |
選擇長(zhǎng)和寬的數(shù)據(jù)進(jìn)行可視化
plt.figure(figsize=(12,?8)) plt.scatter(df[:50]['sepal?length'],?df[:50]['sepal?width'],?label='0') plt.scatter(df[50:100]['sepal?length'],?df[50:100]['sepal?width'],?label='1') plt.xlabel('sepal?length',?fontsize=18) plt.ylabel('sepal?width',?fontsize=18) plt.legend() plt.show()Numpy實(shí)現(xiàn)
class?KNN:def?__init__(self,?X_train,?y_train,?n_neighbors=3,?p=2):"""parameter:?n_neighbors?臨近點(diǎn)個(gè)數(shù)parameter:?p?距離度量"""self.n?=?n_neighborsself.p?=?pself.X_train?=?X_trainself.y_train?=?y_traindef?predict(self,?X):#?取出n個(gè)點(diǎn)knn_list?=?[]for?i?in?range(self.n):dist?=?np.linalg.norm(X?-?self.X_train[i],?ord=self.p)knn_list.append((dist,?self.y_train[i]))for?i?in?range(self.n,?len(self.X_train)):max_index?=?knn_list.index(max(knn_list,?key=lambda?x:?x[0]))dist?=?np.linalg.norm(X?-?self.X_train[i],?ord=self.p)if?knn_list[max_index][0]?>?dist:knn_list[max_index]?=?(dist,?self.y_train[i])#?統(tǒng)計(jì)knn?=?[k[-1]?for?k?in?knn_list]count_pairs?=?Counter(knn)#?????????max_count?=?sorted(count_pairs,?key=lambda?x:?x)[-1]max_count?=?sorted(count_pairs.items(),?key=lambda?x:?x[1])[-1][0]return?max_countdef?score(self,?X_test,?y_test):right_count?=?0n?=?10for?X,?y?in?zip(X_test,?y_test):label?=?self.predict(X)if?label?==?y:right_count?+=?1return?right_count?/?len(X_test)data?=?np.array(df.iloc[:150,?[0,?1,?-1]]) X,?y?=?data[:,:-1],?data[:,-1] X_train,?X_test,?y_train,?y_test?=?train_test_split(X,?y,?test_size=0.3)clf?=?KNN(X_train,?y_train)clf.score(X_test,?y_test)0.7777777777777778test_point?=?[6.0,?3.0] print('Test?Point:?{}'.format(clf.predict(test_point)))Test Point: 2.0Scikit-learn實(shí)例
sklearn.neighbors.KNeighborsClassifier
n_neighbors: 臨近點(diǎn)個(gè)數(shù),即k的個(gè)數(shù),默認(rèn)是5
p: 距離度量,默認(rèn)
algorithm: 近鄰算法,可選{'auto', 'ball_tree', 'kd_tree', 'brute'}
weights: 確定近鄰的權(quán)重
n_neighbors :int,optional(default = 5) 默認(rèn)情況下kneighbors查詢使用的鄰居數(shù)。就是k-NN的k的值,選取最近的k個(gè)點(diǎn)。
weights :str或callable,可選(默認(rèn)=‘uniform’) 默認(rèn)是uniform,參數(shù)可以是uniform、distance,也可以是用戶自己定義的函數(shù)。uniform是均等的權(quán)重,就說(shuō)所有的鄰近點(diǎn)的權(quán)重都是相等的。distance是不均等的權(quán)重,距離近的點(diǎn)比距離遠(yuǎn)的點(diǎn)的影響大。用戶自定義的函數(shù),接收距離的數(shù)組,返回一組維數(shù)相同的權(quán)重。
algorithm :{‘a(chǎn)uto’,‘ball_tree’,‘kd_tree’,‘brute’},可選 快速k近鄰搜索算法,默認(rèn)參數(shù)為auto,可以理解為算法自己決定合適的搜索算法。除此之外,用戶也可以自己指定搜索算法ball_tree、kd_tree、brute方法進(jìn)行搜索,brute是蠻力搜索,也就是線性掃描,當(dāng)訓(xùn)練集很大時(shí),計(jì)算非常耗時(shí)。kd_tree,構(gòu)造kd樹(shù)存儲(chǔ)數(shù)據(jù)以便對(duì)其進(jìn)行快速檢索的樹(shù)形數(shù)據(jù)結(jié)構(gòu),kd樹(shù)也就是數(shù)據(jù)結(jié)構(gòu)中的二叉樹(shù)。以中值切分構(gòu)造的樹(shù),每個(gè)結(jié)點(diǎn)是一個(gè)超矩形,在維數(shù)小于20時(shí)效率高。ball tree是為了克服kd樹(shù)高緯失效而發(fā)明的,其構(gòu)造過(guò)程是以質(zhì)心C和半徑r分割樣本空間,每個(gè)節(jié)點(diǎn)是一個(gè)超球體。
leaf_size :int,optional(默認(rèn)值= 30) 默認(rèn)是30,這個(gè)是構(gòu)造的kd樹(shù)和ball樹(shù)的大小。這個(gè)值的設(shè)置會(huì)影響樹(shù)構(gòu)建的速度和搜索速度,同樣也影響著存儲(chǔ)樹(shù)所需的內(nèi)存大小。需要根據(jù)問(wèn)題的性質(zhì)選擇最優(yōu)的大小。
p :整數(shù),可選(默認(rèn)= 2) 距離度量公式。在上小結(jié),我們使用歐氏距離公式進(jìn)行距離度量。除此之外,還有其他的度量方法,例如曼哈頓距離。這個(gè)參數(shù)默認(rèn)為2,也就是默認(rèn)使用歐式距離公式進(jìn)行距離度量。也可以設(shè)置為1,使用曼哈頓距離公式進(jìn)行距離度量。
metric :字符串或可調(diào)用,默認(rèn)為’minkowski’ 用于距離度量,默認(rèn)度量是minkowski,也就是p=2的歐氏距離(歐幾里德度量)。
metric_params :dict,optional(默認(rèn)=None) 距離公式的其他關(guān)鍵參數(shù),這個(gè)可以不管,使用默認(rèn)的None即可。
n_jobs :int或None,可選(默認(rèn)=None) 并行處理設(shè)置。默認(rèn)為1,臨近點(diǎn)搜索并行工作數(shù)。如果為-1,那么CPU的所有cores都用于并行工作。
不同k(n_neighbors)值下的結(jié)果:
clf_sk?=?KNeighborsClassifier(n_neighbors=3) clf_sk.fit(X_train,?y_train)KNeighborsClassifier(n_neighbors=3)clf_sk.score(X_test,?y_test)0.7777777777777778clf_sk?=?KNeighborsClassifier(n_neighbors=4) clf_sk.fit(X_train,?y_train) clf_sk.score(X_test,?y_test)0.8clf_sk?=?KNeighborsClassifier(n_neighbors=5) clf_sk.fit(X_train,?y_train) clf_sk.score(X_test,?y_test)0.7555555555555555自動(dòng)調(diào)參吧,試試循環(huán),找到最優(yōu)的k值
best_score?=?0.0 best_k?=?-1 for?k?in?range(1,?11):knn_clf?=?KNeighborsClassifier(n_neighbors=k)knn_clf.fit(X_train,?y_train)score?=?knn_clf.score(X_test,?y_test)if?score?>?best_score:best_k?=?kbest_score?=?scoreprint("best_k?=?"?+?str(best_k)) print("best_score?=?"?+?str(best_score))best_k = 2 best_score = 0.8KD樹(shù)的劃分和搜索
KD樹(shù)
KD樹(shù)(K-Dimension Tree),,也可稱(chēng)之為維樹(shù),可以用更高的效率來(lái)對(duì)空間進(jìn)行劃分,并且其結(jié)構(gòu)非常適合尋找最近鄰居和碰撞檢測(cè)。KD樹(shù)是一種便于對(duì)維空間中的數(shù)據(jù)進(jìn)行快速檢索的數(shù)據(jù)結(jié)構(gòu)。KD樹(shù)是二叉樹(shù),表示對(duì)維空間的一個(gè)劃分,其每個(gè)結(jié)點(diǎn)對(duì)應(yīng)于維空間劃分中的一個(gè)超矩形區(qū)域。利用KD樹(shù)可以省去對(duì)大部分?jǐn)?shù)據(jù)點(diǎn)的搜索,從而減少搜索的計(jì)算量。
KD樹(shù)是二叉樹(shù),表示對(duì)𝑘維空間的一個(gè)劃分(partition)。構(gòu)造KD樹(shù)相當(dāng)于不斷地用垂直于坐標(biāo)軸的超平面將𝑘維空間切分,構(gòu)成一系列的維超矩形區(qū)域。KD樹(shù)的每個(gè)結(jié)點(diǎn)對(duì)應(yīng)于一個(gè)維超矩形區(qū)域。
構(gòu)造KD樹(shù)的方法
構(gòu)造根結(jié)點(diǎn),使根結(jié)點(diǎn)對(duì)應(yīng)于維空間中包含所有實(shí)例點(diǎn)的超矩形區(qū)域;
通過(guò)下面的遞歸方法,不斷地對(duì)維空間進(jìn)行切分,生成子結(jié)點(diǎn)。
在超矩形區(qū)域(結(jié)點(diǎn))上選擇一個(gè)坐標(biāo)軸和在此坐標(biāo)軸上的一個(gè)切分點(diǎn),確定一個(gè)超平面,這個(gè)超平面通過(guò)選定的切分點(diǎn)并垂直于選定的坐標(biāo)軸,將當(dāng)前超矩形區(qū)域切分為左右兩個(gè)子區(qū)域(子結(jié)點(diǎn));
這時(shí),實(shí)例被分到兩個(gè)子區(qū)域。這個(gè)過(guò)程直到子區(qū)域內(nèi)沒(méi)有實(shí)例時(shí)終止(終止時(shí)的結(jié)點(diǎn)為葉結(jié)點(diǎn))。
在此過(guò)程中,將實(shí)例保存在相應(yīng)的結(jié)點(diǎn)上。
通常,依次選擇坐標(biāo)軸對(duì)空間切分,選擇訓(xùn)練實(shí)例點(diǎn)在選定坐標(biāo)軸上的中位數(shù)(median)為切分點(diǎn),這樣得到的KD樹(shù)是平衡的。
注意,平衡的KD樹(shù)搜索時(shí)的效率未必是最優(yōu)的。
對(duì)于構(gòu)建過(guò)程,有兩個(gè)優(yōu)化點(diǎn):
選擇切分維度
根據(jù)數(shù)據(jù)點(diǎn)在各維度上的分布情況,方差越大,分布越分散從方差大的維度開(kāi)始切分,有較好的切分效果和平衡性。
確定中值點(diǎn)
預(yù)先對(duì)原始數(shù)據(jù)點(diǎn)在所有維度進(jìn)行一次排序,存儲(chǔ)下來(lái),然后在后續(xù)的中值選擇中,無(wú)須每次都對(duì)其子集進(jìn)行排序,提升了性能。也可以從原始數(shù)據(jù)點(diǎn)中隨機(jī)選擇固定數(shù)目的點(diǎn),然后對(duì)其進(jìn)行排序,每次從這些樣本點(diǎn)中取中值,來(lái)作為分割超平面。該方式在實(shí)踐中被證明可以取得很好性能及很好的平衡性。
from?collections?import?namedtuple from?pprint?import?pformatclass?Node(namedtuple('Node',?'location?left_child?right_child')):def?__repr__(self):return?pformat(tuple(self))#?kd-tree每個(gè)結(jié)點(diǎn)中主要包含的數(shù)據(jù)結(jié)構(gòu)如下 class?KdNode(object):def?__init__(self,?dom_elt,?split,?left,?right):self.dom_elt?=?dom_elt??#?k維向量節(jié)點(diǎn)(k維空間中的一個(gè)樣本點(diǎn))self.split?=?split??#?整數(shù)(進(jìn)行分割維度的序號(hào))self.left?=?left??#?該結(jié)點(diǎn)分割超平面左子空間構(gòu)成的kd-treeself.right?=?right??#?該結(jié)點(diǎn)分割超平面右子空間構(gòu)成的kd-treeclass?KdTreeCreate(object):def?__init__(self,?data):k?=?len(data[0])??#?數(shù)據(jù)維度def?CreateNode(split,?data_set):??#?按第split維劃分?jǐn)?shù)據(jù)集exset創(chuàng)建KdNodeif?not?data_set:??#?數(shù)據(jù)集為空return?None#?key參數(shù)的值為一個(gè)函數(shù),此函數(shù)只有一個(gè)參數(shù)且返回一個(gè)值用來(lái)進(jìn)行比較#?operator模塊提供的itemgetter函數(shù)用于獲取對(duì)象的哪些維的數(shù)據(jù),參數(shù)為需要獲取的數(shù)據(jù)在對(duì)象中的序號(hào)#data_set.sort(key=itemgetter(split))?#?按要進(jìn)行分割的那一維數(shù)據(jù)排序data_set.sort(key=lambda?x:?x[split])split_pos?=?len(data_set)?//?2??#?//為Python中的整數(shù)除法median?=?data_set[split_pos]??#?中位數(shù)分割點(diǎn)split_next?=?(split?+?1)?%?k??#?cycle?coordinates#?遞歸的創(chuàng)建kd樹(shù)return?KdNode(median,split,CreateNode(split_next,?data_set[:split_pos]),??#?創(chuàng)建左子樹(shù)CreateNode(split_next,?data_set[split_pos?+?1:]))??#?創(chuàng)建右子樹(shù)self.root?=?CreateNode(0,?data)??#?從第0維分量開(kāi)始構(gòu)建kd樹(shù),返回根節(jié)點(diǎn)#?KDTree的前序遍歷 def?preorder(root):print(root.dom_elt)if?root.left:??#?節(jié)點(diǎn)不為空preorder(root.left)if?root.right:preorder(root.right)#?對(duì)構(gòu)建好的kd樹(shù)進(jìn)行搜索,尋找與目標(biāo)點(diǎn)最近的樣本點(diǎn): from?math?import?sqrt from?collections?import?namedtuple#?定義一個(gè)namedtuple,分別存放最近坐標(biāo)點(diǎn)、最近距離和訪問(wèn)過(guò)的節(jié)點(diǎn)數(shù) result?=?namedtuple("Result_tuple","nearest_point??nearest_dist??nodes_visited")def?find_nearest(tree,?point):k?=?len(point)??#?數(shù)據(jù)維度def?travel(kd_node,?target,?max_dist):if?kd_node?is?None:return?result([0]?*?k,?float("inf"),0)??#?python中用float("inf")和float("-inf")表示正負(fù)無(wú)窮nodes_visited?=?1s?=?kd_node.split??#?進(jìn)行分割的維度pivot?=?kd_node.dom_elt??#?進(jìn)行分割的“軸”if?target[s]?<=?pivot[s]:??#?如果目標(biāo)點(diǎn)第s維小于分割軸的對(duì)應(yīng)值(目標(biāo)離左子樹(shù)更近)nearer_node?=?kd_node.left??#?下一個(gè)訪問(wèn)節(jié)點(diǎn)為左子樹(shù)根節(jié)點(diǎn)further_node?=?kd_node.right??#?同時(shí)記錄下右子樹(shù)else:??#?目標(biāo)離右子樹(shù)更近nearer_node?=?kd_node.right??#?下一個(gè)訪問(wèn)節(jié)點(diǎn)為右子樹(shù)根節(jié)點(diǎn)further_node?=?kd_node.lefttemp1?=?travel(nearer_node,?target,?max_dist)??#?進(jìn)行遍歷找到包含目標(biāo)點(diǎn)的區(qū)域nearest?=?temp1.nearest_point??#?以此葉結(jié)點(diǎn)作為“當(dāng)前最近點(diǎn)”dist?=?temp1.nearest_dist??#?更新最近距離nodes_visited?+=?temp1.nodes_visitedif?dist?<?max_dist:max_dist?=?dist??#?最近點(diǎn)將在以目標(biāo)點(diǎn)為球心,max_dist為半徑的超球體內(nèi)temp_dist?=?abs(pivot[s]?-?target[s])??#?第s維上目標(biāo)點(diǎn)與分割超平面的距離if?max_dist?<?temp_dist:??#?判斷超球體是否與超平面相交return?result(nearest,?dist,?nodes_visited)??#?不相交則可以直接返回,不用繼續(xù)判斷#----------------------------------------------------------------------#?計(jì)算目標(biāo)點(diǎn)與分割點(diǎn)的歐氏距離temp_dist?=?sqrt(sum((p1?-?p2)**2?for?p1,?p2?in?zip(pivot,?target)))if?temp_dist?<?dist:??#?如果“更近”nearest?=?pivot??#?更新最近點(diǎn)dist?=?temp_dist??#?更新最近距離max_dist?=?dist??#?更新超球體半徑#?檢查另一個(gè)子結(jié)點(diǎn)對(duì)應(yīng)的區(qū)域是否有更近的點(diǎn)temp2?=?travel(further_node,?target,?max_dist)nodes_visited?+=?temp2.nodes_visitedif?temp2.nearest_dist?<?dist:??#?如果另一個(gè)子結(jié)點(diǎn)內(nèi)存在更近距離nearest?=?temp2.nearest_point??#?更新最近點(diǎn)dist?=?temp2.nearest_dist??#?更新最近距離return?result(nearest,?dist,?nodes_visited)return?travel(tree.root,?point,?float("inf"))??#?從根節(jié)點(diǎn)開(kāi)始遞歸from?time?import?process_time from?random?import?random#?產(chǎn)生一個(gè)k維隨機(jī)向量,每維分量值在0~1之間 def?random_point(k):return?[random()?for?_?in?range(k)]#?產(chǎn)生n個(gè)k維隨機(jī)向量 def?random_points(k,?n):return?[random_point(k)?for?_?in?range(n)]N?=?400000 t0?=?process_time() kd2?=?KdTreeCreate(random_points(3,?N))??#?構(gòu)建包含四十萬(wàn)個(gè)3維空間樣本點(diǎn)的kd樹(shù) ret2?=?find_nearest(kd2,?[0.1,?0.5,?0.8])??#?四十萬(wàn)個(gè)樣本點(diǎn)中尋找離目標(biāo)最近的點(diǎn) t1?=?process_time() print("time:?",?t1?-?t0,?"s") print(ret2)time: 6.28125 s Result_tuple(nearest_point=[0.10173282609374357, 0.501003167941415, 0.8000047195369713], nearest_dist=0.002002262336426111, nodes_visited=36)KD樹(shù)的繪圖代碼
from?operator?import?itemgetterdef?kdtree(point_list,?depth=0):if?len(point_list)?==?0:return?None#?選擇“基于深度的軸”,以便軸在所有有效值之間循環(huán)#?只支持二維axis?=?depth?%?2#?Sort?point?list?and?choose?median?as?pivot?elementpoint_list.sort(key=itemgetter(axis))median?=?len(point_list)?//?2??#?選擇中值點(diǎn)#?創(chuàng)建節(jié)點(diǎn)并構(gòu)造子樹(shù)return?Node(location?=?point_list[median],left_child?=?kdtree(point_list[:median],?depth?+?1),right_child?=?kdtree(point_list[median?+?1:],?depth?+?1))import?matplotlib.pyplot?as?plt#?KD樹(shù)的線寬 line_width?=?[4.,?3.5,?3.,?2.5,?2.,?1.5,?1.,?.5,?0.3]def?plot_tree(tree,?min_x,?max_x,?min_y,?max_y,?prev_node,?branch,?depth=0):"""?plot?K-D?tree:param?tree??????input?tree?to?be?plotted:param?min_x:param?max_x:param?min_y:param?max_y:param?prev_node?parent's?node:param?branch????True?if?left,?False?if?right:param?depth?????tree's?depth:return?tree?????node"""cur_node?=?tree.location??#?當(dāng)前樹(shù)節(jié)點(diǎn)left_branch?=?tree.left_child??#?左分支right_branch?=?tree.right_child??#?右分支#根據(jù)樹(shù)的深度設(shè)置線條的寬度if?depth?>?len(line_width)?-?1:ln_width?=?line_width[len(line_width)?-?1]else:ln_width?=?line_width[depth]k?=?len(cur_node)axis?=?depth?%?k#?畫(huà)垂直分割線if?axis?==?0:if?branch?is?not?None?and?prev_node?is?not?None:if?branch:max_y?=?prev_node[1]else:min_y?=?prev_node[1]plt.plot([cur_node[0],?cur_node[0]],?[min_y,?max_y],linestyle='-',color='red',linewidth=ln_width)#?畫(huà)水平分割線elif?axis?==?1:if?branch?is?not?None?and?prev_node?is?not?None:if?branch:max_x?=?prev_node[0]else:min_x?=?prev_node[0]plt.plot([min_x,?max_x],?[cur_node[1],?cur_node[1]],linestyle='-',color='blue',linewidth=ln_width)#?畫(huà)當(dāng)前節(jié)點(diǎn)plt.plot(cur_node[0],?cur_node[1],?'ko')#?繪制當(dāng)前節(jié)點(diǎn)的左分支和右分支if?left_branch?is?not?None:plot_tree(left_branch,?min_x,?max_x,?min_y,?max_y,?cur_node,?True,depth?+?1)if?right_branch?is?not?None:plot_tree(right_branch,?min_x,?max_x,?min_y,?max_y,?cur_node,?False,depth?+?1)def?create_diagram(tree,?width,?height,?min_val,?max_val,?delta):plt.figure("Kd?Tree",?figsize=(width,?height))plt.axis([min_val?-?delta,?max_val?+?delta,?min_val?-?delta,?max_val?+?delta])plt.grid(b=True,?which='major',?color='0.75',?linestyle='--')plt.xticks([i?for?i?in?range(min_val?-?delta,?max_val?+?delta,?1)])plt.yticks([i?for?i?in?range(min_val?-?delta,?max_val?+?delta,?1)])#?畫(huà)出樹(shù)plot_tree(tree,?min_val?-?delta,?max_val?+?delta,?min_val?-?delta,max_val?+?delta,?None,?None)plt.title('KD?Tree')def?label_nodes(node,?i):loc?=?node.locationplt.text(loc[0]?+?0.15,?loc[1]?+?0.15,?str(i),?fontsize=10)if?node.left_child:i?=?label_nodes(node.left_child,?i?+?1)if?node.right_child:i?=?label_nodes(node.right_child,?i?+?1)return?idef?draw_target(point,?radius):plt.plot(point[0],?point[1],?marker='o',?color='#ff007f')circle?=?plt.Circle(point,0.3,facecolor='#ff007f',edgecolor='#ff007f',alpha=0.5)plt.gca().add_patch(circle)#?圍繞目標(biāo)點(diǎn)繪制超球體circle?=?plt.Circle(point,radius,facecolor='#ffd83d',edgecolor='#ffd83d',alpha=0.5)plt.gca().add_patch(circle)def?draw_neighbors(point_list):for?point?in?point_list:#?畫(huà)出找到的最近的鄰居plt.plot(point[0],?point[1],?'go')circle?=?plt.Circle(point,0.3,facecolor='#33cc00',edgecolor='#33cc00',alpha=0.5)plt.gca().add_patch(circle)from?graphviz?import?Digraphdef?add_node(dot,?node,?parent_id=None,?i=0,?edge_label=''):loc?=?node.locationnode_id?=?str(i)dot.node(node_id,?f"{i}\n({loc[0]},{loc[1]})")if?parent_id:dot.edge(parent_id,?node_id,?label=edge_label)if?node.left_child:i?=?add_node(dot,?node.left_child,?node_id,?i?+?1,?'l')if?node.right_child:i?=?add_node(dot,?node.right_child,?node_id,?i?+?1,?'r')return?idef?create_graph(tree):dot?=?Digraph(comment='Kd-tree')dot.attr('node',fontsize='20',shape='circle',width='1',fixedsize='true')dot.attr('edge',?arrowsize='0.7')add_node(dot,?tree)return?dot#?point_list?=?[[2,3],[5,7],[9,6],[4,5],[6,4],[7,2]] point_list1?=?[(2,3),(5,7),(9,6),(4,5),(6,4),(7,2)] tree?=?kdtree(point_list1) print(tree) create_graph(tree)((6, 4),((4, 5), ((2, 3), None, None), ((5, 7), None, None)),((9, 6), ((7, 2), None, None), None))max_int?=?10000000 min_int?=?-max_int?-?1 max_float?=?float('inf')def?get_val_range(point_list):min_val?=?max_intmax_val?=?-max_int?-?1for?point?in?point_list:min_v?=?min(point)if?min_v?<?min_val:min_val?=?min_vmax_v?=?max(point)if?max_v?>?max_val:max_val?=?max_vreturn?(min_val,?max_val)min_val,?max_val=get_val_range(point_list1)create_diagram(tree,?8.,?8.,?min_val,?max_val,?1) label_nodes(tree,?0) plt.show()參考
Prof. Andrew Ng. Machine Learning. Stanford University
李航,《統(tǒng)計(jì)學(xué)習(xí)方法》
機(jī)器學(xué)習(xí)練習(xí)6 KNN算法
代碼修改并注釋:黃海廣,haiguang2000@wzu.edu.cn
1.近鄰法是基本且簡(jiǎn)單的分類(lèi)與回歸方法。近鄰法的基本做法是:對(duì)給定的訓(xùn)練實(shí)例點(diǎn)和輸入實(shí)例點(diǎn),首先確定輸入實(shí)例點(diǎn)的個(gè)最近鄰訓(xùn)練實(shí)例點(diǎn),然后利用這個(gè)訓(xùn)練實(shí)例點(diǎn)的類(lèi)的多數(shù)來(lái)預(yù)測(cè)輸入實(shí)例點(diǎn)的類(lèi)。
2.近鄰模型對(duì)應(yīng)于基于訓(xùn)練數(shù)據(jù)集對(duì)特征空間的一個(gè)劃分。近鄰法中,當(dāng)訓(xùn)練集、距離度量、值及分類(lèi)決策規(guī)則確定后,其結(jié)果唯一確定。
3.近鄰法三要素:距離度量、值的選擇和分類(lèi)決策規(guī)則。常用的距離度量是歐氏距離及更一般的pL距離。值小時(shí),近鄰模型更復(fù)雜;值大時(shí),近鄰模型更簡(jiǎn)單。值的選擇反映了對(duì)近似誤差與估計(jì)誤差之間的權(quán)衡,通常由交叉驗(yàn)證選擇最優(yōu)的。
常用的分類(lèi)決策規(guī)則是多數(shù)表決,對(duì)應(yīng)于經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化。
4.近鄰法的實(shí)現(xiàn)需要考慮如何快速搜索k個(gè)最近鄰點(diǎn)。kd樹(shù)是一種便于對(duì)k維空間中的數(shù)據(jù)進(jìn)行快速檢索的數(shù)據(jù)結(jié)構(gòu)。kd樹(shù)是二叉樹(shù),表示對(duì)維空間的一個(gè)劃分,其每個(gè)結(jié)點(diǎn)對(duì)應(yīng)于維空間劃分中的一個(gè)超矩形區(qū)域。利用kd樹(shù)可以省去對(duì)大部分?jǐn)?shù)據(jù)點(diǎn)的搜索, 從而減少搜索的計(jì)算量。
1.距離度量
在機(jī)器學(xué)習(xí)算法中,我們經(jīng)常需要計(jì)算樣本之間的相似度,通常的做法是計(jì)算樣本之間的距離。
設(shè)和為兩個(gè)向量,求它們之間的距離。
這里用Numpy實(shí)現(xiàn),設(shè)和為ndarray <numpy.ndarray>,它們的shape都是(N,)
為所求的距離,是個(gè)浮點(diǎn)數(shù)(float)。
import?numpy?as?np??#注意:運(yùn)行代碼時(shí)候需要導(dǎo)入NumPy庫(kù)。歐氏距離(Euclidean distance)
歐幾里得度量(euclidean metric)(也稱(chēng)歐氏距離)是一個(gè)通常采用的距離定義,指在維空間中兩個(gè)點(diǎn)之間的真實(shí)距離,或者向量的自然長(zhǎng)度(即該點(diǎn)到原點(diǎn)的距離)。在二維和三維空間中的歐氏距離就是兩點(diǎn)之間的實(shí)際距離。
距離公式:
代碼實(shí)現(xiàn):
def?euclidean(x,?y):return?np.sqrt(np.sum((x?-?y)**2))曼哈頓距離(Manhattan distance)
想象你在城市道路里,要從一個(gè)十字路口開(kāi)車(chē)到另外一個(gè)十字路口,駕駛距離是兩點(diǎn)間的直線距離嗎?顯然不是,除非你能穿越大樓。實(shí)際駕駛距離就是這個(gè)“曼哈頓距離”。而這也是曼哈頓距離名稱(chēng)的來(lái)源,曼哈頓距離也稱(chēng)為城市街區(qū)距離(City Block distance)。
距離公式:
代碼實(shí)現(xiàn):
def?manhattan(x,?y):return?np.sum(np.abs(x?-?y))切比雪夫距離(Chebyshev distance)
在數(shù)學(xué)中,切比雪夫距離(Chebyshev distance)或是L∞度量,是向量空間中的一種度量,二個(gè)點(diǎn)之間的距離定義是其各坐標(biāo)數(shù)值差絕對(duì)值的最大值。以數(shù)學(xué)的觀點(diǎn)來(lái)看,切比雪夫距離是由一致范數(shù)(uniform norm)(或稱(chēng)為上確界范數(shù))所衍生的度量,也是超凸度量(injective metric space)的一種。
距離公式:
若將國(guó)際象棋棋盤(pán)放在二維直角座標(biāo)系中,格子的邊長(zhǎng)定義為1,座標(biāo)的軸及軸和棋盤(pán)方格平行,原點(diǎn)恰落在某一格的中心點(diǎn),則王從一個(gè)位置走到其他位置需要的步數(shù)恰為二個(gè)位置的切比雪夫距離,因此切比雪夫距離也稱(chēng)為棋盤(pán)距離。例如位置F6和位置E2的切比雪夫距離為4。任何一個(gè)不在棋盤(pán)邊緣的位置,和周?chē)藗€(gè)位置的切比雪夫距離都是1。
代碼實(shí)現(xiàn):
def?chebyshev(x,?y):return?np.max(np.abs(x?-?y))閔可夫斯基距離(Minkowski distance)
閔氏空間指狹義相對(duì)論中由一個(gè)時(shí)間維和三個(gè)空間維組成的時(shí)空,為俄裔德國(guó)數(shù)學(xué)家閔可夫斯基(H.Minkowski,1864-1909)最先表述。他的平坦空間(即假設(shè)沒(méi)有重力,曲率為零的空間)的概念以及表示為特殊距離量的幾何學(xué)是與狹義相對(duì)論的要求相一致的。閔可夫斯基空間不同于牛頓力學(xué)的平坦空間。取1或2時(shí)的閔氏距離是最為常用的,即為歐氏距離,而時(shí)則為曼哈頓距離。
當(dāng)取無(wú)窮時(shí)的極限情況下,可以得到切比雪夫距離。
距離公式:
代碼實(shí)現(xiàn):
def?minkowski(x,?y,?p):return?np.sum(np.abs(x?-?y)**p)**(1?/?p)漢明距離(Hamming distance)
漢明距離是使用在數(shù)據(jù)傳輸差錯(cuò)控制編碼里面的,漢明距離是一個(gè)概念,它表示兩個(gè)(相同長(zhǎng)度)字對(duì)應(yīng)位不同的數(shù)量,我們以表示兩個(gè)字,之間的漢明距離。對(duì)兩個(gè)字符串進(jìn)行異或運(yùn)算,并統(tǒng)計(jì)結(jié)果為1的個(gè)數(shù),那么這個(gè)數(shù)就是漢明距離。
距離公式:
代碼實(shí)現(xiàn):
def?hamming(x,?y):return?np.sum(x?!=?y)?/?len(x)余弦相似度(Cosine Similarity)
余弦相似性通過(guò)測(cè)量?jī)蓚€(gè)向量的夾角的余弦值來(lái)度量它們之間的相似性。0度角的余弦值是1,而其他任何角度的余弦值都不大于1;并且其最小值是-1。從而兩個(gè)向量之間的角度的余弦值確定兩個(gè)向量是否大致指向相同的方向。兩個(gè)向量有相同的指向時(shí),余弦相似度的值為1;兩個(gè)向量夾角為90°時(shí),余弦相似度的值為0;兩個(gè)向量指向完全相反的方向時(shí),余弦相似度的值為-1。這結(jié)果是與向量的長(zhǎng)度無(wú)關(guān)的,僅僅與向量的指向方向相關(guān)。余弦相似度通常用于正空間,因此給出的值為0到1之間。
二維空間為例,上圖的和是兩個(gè)向量,我們要計(jì)算它們的夾角θ。余弦定理告訴我們,可以用下面的公式求得:
假定向量是
,向量是,兩個(gè)向量間的余弦值可以通過(guò)使用歐幾里得點(diǎn)積公式求出:如果向量和不是二維而是維,上述余弦的計(jì)算法仍然正確。假定和是兩個(gè)維向量,是
,是,則與的夾角余弦等于:代碼實(shí)現(xiàn):
from?math?import?*def?square_rooted(x):return?round(sqrt(sum([a*a?for?a?in?x])),3)def?cosine_similarity(x,?y):numerator?=?sum(a?*?b?for?a,?b?in?zip(x,?y))denominator?=?square_rooted(x)?*?square_rooted(y)return?round(numerator?/?float(denominator),?3)print(cosine_similarity([3,?45,?7,?2],?[2,?54,?13,?15]))0.972KNN算法
1.近鄰法是基本且簡(jiǎn)單的分類(lèi)與回歸方法。近鄰法的基本做法是:對(duì)給定的訓(xùn)練實(shí)例點(diǎn)和輸入實(shí)例點(diǎn),首先確定輸入實(shí)例點(diǎn)的個(gè)最近鄰訓(xùn)練實(shí)例點(diǎn),然后利用這個(gè)訓(xùn)練實(shí)例點(diǎn)的類(lèi)的多數(shù)來(lái)預(yù)測(cè)輸入實(shí)例點(diǎn)的類(lèi)。
2.近鄰模型對(duì)應(yīng)于基于訓(xùn)練數(shù)據(jù)集對(duì)特征空間的一個(gè)劃分。近鄰法中,當(dāng)訓(xùn)練集、距離度量、值及分類(lèi)決策規(guī)則確定后,其結(jié)果唯一確定。
3.近鄰法三要素:距離度量、值的選擇和分類(lèi)決策規(guī)則。常用的距離度量是歐氏距離。值小時(shí),近鄰模型更復(fù)雜;值大時(shí),近鄰模型更簡(jiǎn)單。值的選擇反映了對(duì)近似誤差與估計(jì)誤差之間的權(quán)衡,通常由交叉驗(yàn)證選擇最優(yōu)的。
常用的分類(lèi)決策規(guī)則是多數(shù)表決,對(duì)應(yīng)于經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化。
4.近鄰法的實(shí)現(xiàn)需要考慮如何快速搜索k個(gè)最近鄰點(diǎn)。kd樹(shù)是一種便于對(duì)k維空間中的數(shù)據(jù)進(jìn)行快速檢索的數(shù)據(jù)結(jié)構(gòu)。kd樹(shù)是二叉樹(shù),表示對(duì)維空間的一個(gè)劃分,其每個(gè)結(jié)點(diǎn)對(duì)應(yīng)于維空間劃分中的一個(gè)超矩形區(qū)域。利用kd樹(shù)可以省去對(duì)大部分?jǐn)?shù)據(jù)點(diǎn)的搜索, 從而減少搜索的計(jì)算量。
python實(shí)現(xiàn),遍歷所有數(shù)據(jù)點(diǎn),找出個(gè)距離最近的點(diǎn)的分類(lèi)情況,少數(shù)服從多數(shù)
import?numpy?as?np import?pandas?as?pd import?matplotlib.pyplot?as?plt from?sklearn.datasets?import?load_iris from?sklearn.model_selection?import?train_test_split from?collections?import?Counter導(dǎo)入鳶尾花數(shù)據(jù)集
iris?=?load_iris() df?=?pd.DataFrame(iris.data,?columns=iris.feature_names) df['label']?=?iris.target df.columns?=?['sepal?length',?'sepal?width',?'petal?length',?'petal?width',?'label']df.head()| 5.1 | 3.5 | 1.4 | 0.2 | 0 |
| 4.9 | 3.0 | 1.4 | 0.2 | 0 |
| 4.7 | 3.2 | 1.3 | 0.2 | 0 |
| 4.6 | 3.1 | 1.5 | 0.2 | 0 |
| 5.0 | 3.6 | 1.4 | 0.2 | 0 |
選擇長(zhǎng)和寬的數(shù)據(jù)進(jìn)行可視化
plt.figure(figsize=(12,?8)) plt.scatter(df[:50]['sepal?length'],?df[:50]['sepal?width'],?label='0') plt.scatter(df[50:100]['sepal?length'],?df[50:100]['sepal?width'],?label='1') plt.xlabel('sepal?length',?fontsize=18) plt.ylabel('sepal?width',?fontsize=18) plt.legend() plt.show()Numpy實(shí)現(xiàn)
class?KNN:def?__init__(self,?X_train,?y_train,?n_neighbors=3,?p=2):"""parameter:?n_neighbors?臨近點(diǎn)個(gè)數(shù)parameter:?p?距離度量"""self.n?=?n_neighborsself.p?=?pself.X_train?=?X_trainself.y_train?=?y_traindef?predict(self,?X):#?取出n個(gè)點(diǎn)knn_list?=?[]for?i?in?range(self.n):dist?=?np.linalg.norm(X?-?self.X_train[i],?ord=self.p)knn_list.append((dist,?self.y_train[i]))for?i?in?range(self.n,?len(self.X_train)):max_index?=?knn_list.index(max(knn_list,?key=lambda?x:?x[0]))dist?=?np.linalg.norm(X?-?self.X_train[i],?ord=self.p)if?knn_list[max_index][0]?>?dist:knn_list[max_index]?=?(dist,?self.y_train[i])#?統(tǒng)計(jì)knn?=?[k[-1]?for?k?in?knn_list]count_pairs?=?Counter(knn)#?????????max_count?=?sorted(count_pairs,?key=lambda?x:?x)[-1]max_count?=?sorted(count_pairs.items(),?key=lambda?x:?x[1])[-1][0]return?max_countdef?score(self,?X_test,?y_test):right_count?=?0n?=?10for?X,?y?in?zip(X_test,?y_test):label?=?self.predict(X)if?label?==?y:right_count?+=?1return?right_count?/?len(X_test)data?=?np.array(df.iloc[:150,?[0,?1,?-1]]) X,?y?=?data[:,:-1],?data[:,-1] X_train,?X_test,?y_train,?y_test?=?train_test_split(X,?y,?test_size=0.3)clf?=?KNN(X_train,?y_train)clf.score(X_test,?y_test)0.7777777777777778test_point?=?[6.0,?3.0] print('Test?Point:?{}'.format(clf.predict(test_point)))Test Point: 2.0Scikit-learn實(shí)例
sklearn.neighbors.KNeighborsClassifier
n_neighbors: 臨近點(diǎn)個(gè)數(shù),即k的個(gè)數(shù),默認(rèn)是5
p: 距離度量,默認(rèn)
algorithm: 近鄰算法,可選{'auto', 'ball_tree', 'kd_tree', 'brute'}
weights: 確定近鄰的權(quán)重
n_neighbors :int,optional(default = 5) 默認(rèn)情況下kneighbors查詢使用的鄰居數(shù)。就是k-NN的k的值,選取最近的k個(gè)點(diǎn)。
weights :str或callable,可選(默認(rèn)=‘uniform’) 默認(rèn)是uniform,參數(shù)可以是uniform、distance,也可以是用戶自己定義的函數(shù)。uniform是均等的權(quán)重,就說(shuō)所有的鄰近點(diǎn)的權(quán)重都是相等的。distance是不均等的權(quán)重,距離近的點(diǎn)比距離遠(yuǎn)的點(diǎn)的影響大。用戶自定義的函數(shù),接收距離的數(shù)組,返回一組維數(shù)相同的權(quán)重。
algorithm :{‘a(chǎn)uto’,‘ball_tree’,‘kd_tree’,‘brute’},可選 快速k近鄰搜索算法,默認(rèn)參數(shù)為auto,可以理解為算法自己決定合適的搜索算法。除此之外,用戶也可以自己指定搜索算法ball_tree、kd_tree、brute方法進(jìn)行搜索,brute是蠻力搜索,也就是線性掃描,當(dāng)訓(xùn)練集很大時(shí),計(jì)算非常耗時(shí)。kd_tree,構(gòu)造kd樹(shù)存儲(chǔ)數(shù)據(jù)以便對(duì)其進(jìn)行快速檢索的樹(shù)形數(shù)據(jù)結(jié)構(gòu),kd樹(shù)也就是數(shù)據(jù)結(jié)構(gòu)中的二叉樹(shù)。以中值切分構(gòu)造的樹(shù),每個(gè)結(jié)點(diǎn)是一個(gè)超矩形,在維數(shù)小于20時(shí)效率高。ball tree是為了克服kd樹(shù)高緯失效而發(fā)明的,其構(gòu)造過(guò)程是以質(zhì)心C和半徑r分割樣本空間,每個(gè)節(jié)點(diǎn)是一個(gè)超球體。
leaf_size :int,optional(默認(rèn)值= 30) 默認(rèn)是30,這個(gè)是構(gòu)造的kd樹(shù)和ball樹(shù)的大小。這個(gè)值的設(shè)置會(huì)影響樹(shù)構(gòu)建的速度和搜索速度,同樣也影響著存儲(chǔ)樹(shù)所需的內(nèi)存大小。需要根據(jù)問(wèn)題的性質(zhì)選擇最優(yōu)的大小。
p :整數(shù),可選(默認(rèn)= 2) 距離度量公式。在上小結(jié),我們使用歐氏距離公式進(jìn)行距離度量。除此之外,還有其他的度量方法,例如曼哈頓距離。這個(gè)參數(shù)默認(rèn)為2,也就是默認(rèn)使用歐式距離公式進(jìn)行距離度量。也可以設(shè)置為1,使用曼哈頓距離公式進(jìn)行距離度量。
metric :字符串或可調(diào)用,默認(rèn)為’minkowski’ 用于距離度量,默認(rèn)度量是minkowski,也就是p=2的歐氏距離(歐幾里德度量)。
metric_params :dict,optional(默認(rèn)=None) 距離公式的其他關(guān)鍵參數(shù),這個(gè)可以不管,使用默認(rèn)的None即可。
n_jobs :int或None,可選(默認(rèn)=None) 并行處理設(shè)置。默認(rèn)為1,臨近點(diǎn)搜索并行工作數(shù)。如果為-1,那么CPU的所有cores都用于并行工作。
不同k(n_neighbors)值下的結(jié)果:
clf_sk?=?KNeighborsClassifier(n_neighbors=3) clf_sk.fit(X_train,?y_train)KNeighborsClassifier(n_neighbors=3)clf_sk.score(X_test,?y_test)0.7777777777777778clf_sk?=?KNeighborsClassifier(n_neighbors=4) clf_sk.fit(X_train,?y_train) clf_sk.score(X_test,?y_test)0.8clf_sk?=?KNeighborsClassifier(n_neighbors=5) clf_sk.fit(X_train,?y_train) clf_sk.score(X_test,?y_test)0.7555555555555555自動(dòng)調(diào)參吧,試試循環(huán),找到最優(yōu)的k值
best_score?=?0.0 best_k?=?-1 for?k?in?range(1,?11):knn_clf?=?KNeighborsClassifier(n_neighbors=k)knn_clf.fit(X_train,?y_train)score?=?knn_clf.score(X_test,?y_test)if?score?>?best_score:best_k?=?kbest_score?=?scoreprint("best_k?=?"?+?str(best_k)) print("best_score?=?"?+?str(best_score))best_k = 2 best_score = 0.8KD樹(shù)的劃分和搜索
KD樹(shù)
KD樹(shù)(K-Dimension Tree),,也可稱(chēng)之為維樹(shù),可以用更高的效率來(lái)對(duì)空間進(jìn)行劃分,并且其結(jié)構(gòu)非常適合尋找最近鄰居和碰撞檢測(cè)。KD樹(shù)是一種便于對(duì)維空間中的數(shù)據(jù)進(jìn)行快速檢索的數(shù)據(jù)結(jié)構(gòu)。KD樹(shù)是二叉樹(shù),表示對(duì)維空間的一個(gè)劃分,其每個(gè)結(jié)點(diǎn)對(duì)應(yīng)于維空間劃分中的一個(gè)超矩形區(qū)域。利用KD樹(shù)可以省去對(duì)大部分?jǐn)?shù)據(jù)點(diǎn)的搜索,從而減少搜索的計(jì)算量。
KD樹(shù)是二叉樹(shù),表示對(duì)𝑘維空間的一個(gè)劃分(partition)。構(gòu)造KD樹(shù)相當(dāng)于不斷地用垂直于坐標(biāo)軸的超平面將𝑘維空間切分,構(gòu)成一系列的維超矩形區(qū)域。KD樹(shù)的每個(gè)結(jié)點(diǎn)對(duì)應(yīng)于一個(gè)維超矩形區(qū)域。
構(gòu)造KD樹(shù)的方法
構(gòu)造根結(jié)點(diǎn),使根結(jié)點(diǎn)對(duì)應(yīng)于維空間中包含所有實(shí)例點(diǎn)的超矩形區(qū)域;
通過(guò)下面的遞歸方法,不斷地對(duì)維空間進(jìn)行切分,生成子結(jié)點(diǎn)。
在超矩形區(qū)域(結(jié)點(diǎn))上選擇一個(gè)坐標(biāo)軸和在此坐標(biāo)軸上的一個(gè)切分點(diǎn),確定一個(gè)超平面,這個(gè)超平面通過(guò)選定的切分點(diǎn)并垂直于選定的坐標(biāo)軸,將當(dāng)前超矩形區(qū)域切分為左右兩個(gè)子區(qū)域(子結(jié)點(diǎn));
這時(shí),實(shí)例被分到兩個(gè)子區(qū)域。這個(gè)過(guò)程直到子區(qū)域內(nèi)沒(méi)有實(shí)例時(shí)終止(終止時(shí)的結(jié)點(diǎn)為葉結(jié)點(diǎn))。
在此過(guò)程中,將實(shí)例保存在相應(yīng)的結(jié)點(diǎn)上。
通常,依次選擇坐標(biāo)軸對(duì)空間切分,選擇訓(xùn)練實(shí)例點(diǎn)在選定坐標(biāo)軸上的中位數(shù)(median)為切分點(diǎn),這樣得到的KD樹(shù)是平衡的。
注意,平衡的KD樹(shù)搜索時(shí)的效率未必是最優(yōu)的。
對(duì)于構(gòu)建過(guò)程,有兩個(gè)優(yōu)化點(diǎn):
選擇切分維度
根據(jù)數(shù)據(jù)點(diǎn)在各維度上的分布情況,方差越大,分布越分散從方差大的維度開(kāi)始切分,有較好的切分效果和平衡性。
確定中值點(diǎn)
預(yù)先對(duì)原始數(shù)據(jù)點(diǎn)在所有維度進(jìn)行一次排序,存儲(chǔ)下來(lái),然后在后續(xù)的中值選擇中,無(wú)須每次都對(duì)其子集進(jìn)行排序,提升了性能。也可以從原始數(shù)據(jù)點(diǎn)中隨機(jī)選擇固定數(shù)目的點(diǎn),然后對(duì)其進(jìn)行排序,每次從這些樣本點(diǎn)中取中值,來(lái)作為分割超平面。該方式在實(shí)踐中被證明可以取得很好性能及很好的平衡性。
from?collections?import?namedtuple from?pprint?import?pformatclass?Node(namedtuple('Node',?'location?left_child?right_child')):def?__repr__(self):return?pformat(tuple(self))#?kd-tree每個(gè)結(jié)點(diǎn)中主要包含的數(shù)據(jù)結(jié)構(gòu)如下 class?KdNode(object):def?__init__(self,?dom_elt,?split,?left,?right):self.dom_elt?=?dom_elt??#?k維向量節(jié)點(diǎn)(k維空間中的一個(gè)樣本點(diǎn))self.split?=?split??#?整數(shù)(進(jìn)行分割維度的序號(hào))self.left?=?left??#?該結(jié)點(diǎn)分割超平面左子空間構(gòu)成的kd-treeself.right?=?right??#?該結(jié)點(diǎn)分割超平面右子空間構(gòu)成的kd-treeclass?KdTreeCreate(object):def?__init__(self,?data):k?=?len(data[0])??#?數(shù)據(jù)維度def?CreateNode(split,?data_set):??#?按第split維劃分?jǐn)?shù)據(jù)集exset創(chuàng)建KdNodeif?not?data_set:??#?數(shù)據(jù)集為空return?None#?key參數(shù)的值為一個(gè)函數(shù),此函數(shù)只有一個(gè)參數(shù)且返回一個(gè)值用來(lái)進(jìn)行比較#?operator模塊提供的itemgetter函數(shù)用于獲取對(duì)象的哪些維的數(shù)據(jù),參數(shù)為需要獲取的數(shù)據(jù)在對(duì)象中的序號(hào)#data_set.sort(key=itemgetter(split))?#?按要進(jìn)行分割的那一維數(shù)據(jù)排序data_set.sort(key=lambda?x:?x[split])split_pos?=?len(data_set)?//?2??#?//為Python中的整數(shù)除法median?=?data_set[split_pos]??#?中位數(shù)分割點(diǎn)split_next?=?(split?+?1)?%?k??#?cycle?coordinates#?遞歸的創(chuàng)建kd樹(shù)return?KdNode(median,split,CreateNode(split_next,?data_set[:split_pos]),??#?創(chuàng)建左子樹(shù)CreateNode(split_next,?data_set[split_pos?+?1:]))??#?創(chuàng)建右子樹(shù)self.root?=?CreateNode(0,?data)??#?從第0維分量開(kāi)始構(gòu)建kd樹(shù),返回根節(jié)點(diǎn)#?KDTree的前序遍歷 def?preorder(root):print(root.dom_elt)if?root.left:??#?節(jié)點(diǎn)不為空preorder(root.left)if?root.right:preorder(root.right)#?對(duì)構(gòu)建好的kd樹(shù)進(jìn)行搜索,尋找與目標(biāo)點(diǎn)最近的樣本點(diǎn): from?math?import?sqrt from?collections?import?namedtuple#?定義一個(gè)namedtuple,分別存放最近坐標(biāo)點(diǎn)、最近距離和訪問(wèn)過(guò)的節(jié)點(diǎn)數(shù) result?=?namedtuple("Result_tuple","nearest_point??nearest_dist??nodes_visited")def?find_nearest(tree,?point):k?=?len(point)??#?數(shù)據(jù)維度def?travel(kd_node,?target,?max_dist):if?kd_node?is?None:return?result([0]?*?k,?float("inf"),0)??#?python中用float("inf")和float("-inf")表示正負(fù)無(wú)窮nodes_visited?=?1s?=?kd_node.split??#?進(jìn)行分割的維度pivot?=?kd_node.dom_elt??#?進(jìn)行分割的“軸”if?target[s]?<=?pivot[s]:??#?如果目標(biāo)點(diǎn)第s維小于分割軸的對(duì)應(yīng)值(目標(biāo)離左子樹(shù)更近)nearer_node?=?kd_node.left??#?下一個(gè)訪問(wèn)節(jié)點(diǎn)為左子樹(shù)根節(jié)點(diǎn)further_node?=?kd_node.right??#?同時(shí)記錄下右子樹(shù)else:??#?目標(biāo)離右子樹(shù)更近nearer_node?=?kd_node.right??#?下一個(gè)訪問(wèn)節(jié)點(diǎn)為右子樹(shù)根節(jié)點(diǎn)further_node?=?kd_node.lefttemp1?=?travel(nearer_node,?target,?max_dist)??#?進(jìn)行遍歷找到包含目標(biāo)點(diǎn)的區(qū)域nearest?=?temp1.nearest_point??#?以此葉結(jié)點(diǎn)作為“當(dāng)前最近點(diǎn)”dist?=?temp1.nearest_dist??#?更新最近距離nodes_visited?+=?temp1.nodes_visitedif?dist?<?max_dist:max_dist?=?dist??#?最近點(diǎn)將在以目標(biāo)點(diǎn)為球心,max_dist為半徑的超球體內(nèi)temp_dist?=?abs(pivot[s]?-?target[s])??#?第s維上目標(biāo)點(diǎn)與分割超平面的距離if?max_dist?<?temp_dist:??#?判斷超球體是否與超平面相交return?result(nearest,?dist,?nodes_visited)??#?不相交則可以直接返回,不用繼續(xù)判斷#----------------------------------------------------------------------#?計(jì)算目標(biāo)點(diǎn)與分割點(diǎn)的歐氏距離temp_dist?=?sqrt(sum((p1?-?p2)**2?for?p1,?p2?in?zip(pivot,?target)))if?temp_dist?<?dist:??#?如果“更近”nearest?=?pivot??#?更新最近點(diǎn)dist?=?temp_dist??#?更新最近距離max_dist?=?dist??#?更新超球體半徑#?檢查另一個(gè)子結(jié)點(diǎn)對(duì)應(yīng)的區(qū)域是否有更近的點(diǎn)temp2?=?travel(further_node,?target,?max_dist)nodes_visited?+=?temp2.nodes_visitedif?temp2.nearest_dist?<?dist:??#?如果另一個(gè)子結(jié)點(diǎn)內(nèi)存在更近距離nearest?=?temp2.nearest_point??#?更新最近點(diǎn)dist?=?temp2.nearest_dist??#?更新最近距離return?result(nearest,?dist,?nodes_visited)return?travel(tree.root,?point,?float("inf"))??#?從根節(jié)點(diǎn)開(kāi)始遞歸from?time?import?process_time from?random?import?random#?產(chǎn)生一個(gè)k維隨機(jī)向量,每維分量值在0~1之間 def?random_point(k):return?[random()?for?_?in?range(k)]#?產(chǎn)生n個(gè)k維隨機(jī)向量 def?random_points(k,?n):return?[random_point(k)?for?_?in?range(n)]N?=?400000 t0?=?process_time() kd2?=?KdTreeCreate(random_points(3,?N))??#?構(gòu)建包含四十萬(wàn)個(gè)3維空間樣本點(diǎn)的kd樹(shù) ret2?=?find_nearest(kd2,?[0.1,?0.5,?0.8])??#?四十萬(wàn)個(gè)樣本點(diǎn)中尋找離目標(biāo)最近的點(diǎn) t1?=?process_time() print("time:?",?t1?-?t0,?"s") print(ret2)time: 6.28125 s Result_tuple(nearest_point=[0.10173282609374357, 0.501003167941415, 0.8000047195369713], nearest_dist=0.002002262336426111, nodes_visited=36)KD樹(shù)的繪圖代碼
from?operator?import?itemgetterdef?kdtree(point_list,?depth=0):if?len(point_list)?==?0:return?None#?選擇“基于深度的軸”,以便軸在所有有效值之間循環(huán)#?只支持二維axis?=?depth?%?2#?Sort?point?list?and?choose?median?as?pivot?elementpoint_list.sort(key=itemgetter(axis))median?=?len(point_list)?//?2??#?選擇中值點(diǎn)#?創(chuàng)建節(jié)點(diǎn)并構(gòu)造子樹(shù)return?Node(location?=?point_list[median],left_child?=?kdtree(point_list[:median],?depth?+?1),right_child?=?kdtree(point_list[median?+?1:],?depth?+?1))import?matplotlib.pyplot?as?plt#?KD樹(shù)的線寬 line_width?=?[4.,?3.5,?3.,?2.5,?2.,?1.5,?1.,?.5,?0.3]def?plot_tree(tree,?min_x,?max_x,?min_y,?max_y,?prev_node,?branch,?depth=0):"""?plot?K-D?tree:param?tree??????input?tree?to?be?plotted:param?min_x:param?max_x:param?min_y:param?max_y:param?prev_node?parent's?node:param?branch????True?if?left,?False?if?right:param?depth?????tree's?depth:return?tree?????node"""cur_node?=?tree.location??#?當(dāng)前樹(shù)節(jié)點(diǎn)left_branch?=?tree.left_child??#?左分支right_branch?=?tree.right_child??#?右分支#根據(jù)樹(shù)的深度設(shè)置線條的寬度if?depth?>?len(line_width)?-?1:ln_width?=?line_width[len(line_width)?-?1]else:ln_width?=?line_width[depth]k?=?len(cur_node)axis?=?depth?%?k#?畫(huà)垂直分割線if?axis?==?0:if?branch?is?not?None?and?prev_node?is?not?None:if?branch:max_y?=?prev_node[1]else:min_y?=?prev_node[1]plt.plot([cur_node[0],?cur_node[0]],?[min_y,?max_y],linestyle='-',color='red',linewidth=ln_width)#?畫(huà)水平分割線elif?axis?==?1:if?branch?is?not?None?and?prev_node?is?not?None:if?branch:max_x?=?prev_node[0]else:min_x?=?prev_node[0]plt.plot([min_x,?max_x],?[cur_node[1],?cur_node[1]],linestyle='-',color='blue',linewidth=ln_width)#?畫(huà)當(dāng)前節(jié)點(diǎn)plt.plot(cur_node[0],?cur_node[1],?'ko')#?繪制當(dāng)前節(jié)點(diǎn)的左分支和右分支if?left_branch?is?not?None:plot_tree(left_branch,?min_x,?max_x,?min_y,?max_y,?cur_node,?True,depth?+?1)if?right_branch?is?not?None:plot_tree(right_branch,?min_x,?max_x,?min_y,?max_y,?cur_node,?False,depth?+?1)def?create_diagram(tree,?width,?height,?min_val,?max_val,?delta):plt.figure("Kd?Tree",?figsize=(width,?height))plt.axis([min_val?-?delta,?max_val?+?delta,?min_val?-?delta,?max_val?+?delta])plt.grid(b=True,?which='major',?color='0.75',?linestyle='--')plt.xticks([i?for?i?in?range(min_val?-?delta,?max_val?+?delta,?1)])plt.yticks([i?for?i?in?range(min_val?-?delta,?max_val?+?delta,?1)])#?畫(huà)出樹(shù)plot_tree(tree,?min_val?-?delta,?max_val?+?delta,?min_val?-?delta,max_val?+?delta,?None,?None)plt.title('KD?Tree')def?label_nodes(node,?i):loc?=?node.locationplt.text(loc[0]?+?0.15,?loc[1]?+?0.15,?str(i),?fontsize=10)if?node.left_child:i?=?label_nodes(node.left_child,?i?+?1)if?node.right_child:i?=?label_nodes(node.right_child,?i?+?1)return?idef?draw_target(point,?radius):plt.plot(point[0],?point[1],?marker='o',?color='#ff007f')circle?=?plt.Circle(point,0.3,facecolor='#ff007f',edgecolor='#ff007f',alpha=0.5)plt.gca().add_patch(circle)#?圍繞目標(biāo)點(diǎn)繪制超球體circle?=?plt.Circle(point,radius,facecolor='#ffd83d',edgecolor='#ffd83d',alpha=0.5)plt.gca().add_patch(circle)def?draw_neighbors(point_list):for?point?in?point_list:#?畫(huà)出找到的最近的鄰居plt.plot(point[0],?point[1],?'go')circle?=?plt.Circle(point,0.3,facecolor='#33cc00',edgecolor='#33cc00',alpha=0.5)plt.gca().add_patch(circle)from?graphviz?import?Digraphdef?add_node(dot,?node,?parent_id=None,?i=0,?edge_label=''):loc?=?node.locationnode_id?=?str(i)dot.node(node_id,?f"{i}\n({loc[0]},{loc[1]})")if?parent_id:dot.edge(parent_id,?node_id,?label=edge_label)if?node.left_child:i?=?add_node(dot,?node.left_child,?node_id,?i?+?1,?'l')if?node.right_child:i?=?add_node(dot,?node.right_child,?node_id,?i?+?1,?'r')return?idef?create_graph(tree):dot?=?Digraph(comment='Kd-tree')dot.attr('node',fontsize='20',shape='circle',width='1',fixedsize='true')dot.attr('edge',?arrowsize='0.7')add_node(dot,?tree)return?dot#?point_list?=?[[2,3],[5,7],[9,6],[4,5],[6,4],[7,2]] point_list1?=?[(2,3),(5,7),(9,6),(4,5),(6,4),(7,2)] tree?=?kdtree(point_list1) print(tree) create_graph(tree)((6, 4),((4, 5), ((2, 3), None, None), ((5, 7), None, None)),((9, 6), ((7, 2), None, None), None))svgmax_int?=?10000000 min_int?=?-max_int?-?1 max_float?=?float('inf')def?get_val_range(point_list):min_val?=?max_intmax_val?=?-max_int?-?1for?point?in?point_list:min_v?=?min(point)if?min_v?<?min_val:min_val?=?min_vmax_v?=?max(point)if?max_v?>?max_val:max_val?=?max_vreturn?(min_val,?max_val)min_val,?max_val=get_val_range(point_list1)create_diagram(tree,?8.,?8.,?min_val,?max_val,?1) label_nodes(tree,?0) plt.show()參考
Prof. Andrew Ng. Machine Learning. Stanford University
李航,《統(tǒng)計(jì)學(xué)習(xí)方法》 葉斯估計(jì)。
本站qq群955171419,加入微信群請(qǐng)掃碼:
總結(jié)
以上是生活随笔為你收集整理的【机器学习】KNN算法代码练习的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 无线网络受限制或无连接处理方法
- 下一篇: three.js 把geometry转换