日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

knn k的选取_KNN - 初窥K近邻算法

發(fā)布時間:2023/12/10 编程问答 35 豆豆
生活随笔 收集整理的這篇文章主要介紹了 knn k的选取_KNN - 初窥K近邻算法 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

1>算法概述

KNN: 全名K-NearestNeighbor,K近鄰算法,簡單講就是每個樣本都可以用最接近的k個鄰居表示,或者說共享同一個標(biāo)簽。KNN是一種分類(classification)算法,它輸入基于實(shí)例的學(xué)習(xí)(instance-based learning),屬于懶惰學(xué)習(xí)(lazy learning),也就是說沒有學(xué)習(xí)過程,而是事先就已經(jīng)準(zhǔn)備好分類和特征值,可以直接對新樣本進(jìn)行處理分類。

如圖所示,綠點(diǎn)為測試樣本,我們需要判斷它是屬于紅色標(biāo)簽還是藍(lán)色標(biāo)簽(r/b)。如果k=1,r:b = 2:1,測試樣本為紅色;如果k=2,r:b=2:3,測試樣本為藍(lán)色; 如果k=3,r:b=6:5,測試樣本為紅色。很顯然k的取值對樣本影響重大,下文將提及k值選取。

2>算法流程

  1)計算測試數(shù)據(jù)與各個訓(xùn)練數(shù)據(jù)之間的距離;

  2)按照距離的遞增關(guān)系進(jìn)行排序;

  3)選取距離最小的K個點(diǎn);

  4)確定前K個點(diǎn)所在類別的出現(xiàn)頻率;

  5)返回前K個點(diǎn)中出現(xiàn)頻率最高的類別作為測試數(shù)據(jù)的預(yù)測分類

3>算法實(shí)現(xiàn)

3.1準(zhǔn)備數(shù)據(jù)

#scatter詳解鏈接如下:

CSDN-專業(yè)IT技術(shù)社區(qū)-登錄

數(shù)據(jù)可視化后生成的圖如上,其中橫軸是腫塊大小,縱軸是發(fā)現(xiàn)時間。每個點(diǎn)代表不同病人的腫瘤大小和發(fā)病時間,根據(jù)顏色判斷腫瘤是良性還是惡性。

現(xiàn)給出測試樣本,判斷點(diǎn)x = [8.90933607318, 3.365731514]屬于哪種情況。

3.2計算距離

距離可以采用歐氏距離或馬氏距離計算,此處采用歐幾里得距離計算。

√(∑_(i=1)^n?(x_i-y_i )^2 )

使用函數(shù)argsort對數(shù)組distances進(jìn)行排序,距離由近到遠(yuǎn),返回值為索引。

3.3選取k值

k值選取要適宜,k過大會導(dǎo)致模型簡化而失去意義,k值過小則會將模型復(fù)雜化并產(chǎn)生過擬合現(xiàn)象。且k最好為奇數(shù),以免出現(xiàn)結(jié)果相等的尷尬情況。

在實(shí)際應(yīng)用中,K值一般取一個比較小的數(shù)值,例如采用交叉驗證法(簡單來說,就是一部分樣本做訓(xùn)練集,一部分做測試集)來選擇最優(yōu)的K值。有點(diǎn)復(fù)雜,此處跳過。

暫且選擇k值為6,找出最近的6個點(diǎn),并記錄他們的標(biāo)簽值。

3.3決策

統(tǒng)計所選點(diǎn)的標(biāo)簽,得到多的一個標(biāo)簽值是多少,即為測試點(diǎn)x的標(biāo)簽。

輸出一個字典,“:”前面是數(shù)組中的值,后面是統(tǒng)計的數(shù)量;我們可以用most_common()方法找出預(yù)測值。

至此我們得到了測試點(diǎn)x的標(biāo)簽值為1。

4>自實(shí)現(xiàn)完整工程代碼

5>算法優(yōu)缺點(diǎn)

KNN的主要優(yōu)點(diǎn)有:

  • 理論成熟,思想簡單,既可以用來做分類也可以用來做回歸
  • 天然解決多分類問題,也可用于回歸問題
  • 和樸素貝葉斯之類的算法比,對數(shù)據(jù)沒有假設(shè),準(zhǔn)確度高,對異常點(diǎn)不敏感
  • 由于KNN方法主要靠周圍有限的鄰近的樣本,而不是靠判別類域的方法來確定所屬類別的,因此對于類域的交叉或重疊較多的待分樣本集來說,KNN方法較其他方法更為適合
  • KNN的主要缺點(diǎn)有:

  • 計算量大,效率低。即使優(yōu)化算法,效率也不高。
  • 高度數(shù)據(jù)相關(guān),樣本不平衡的時候,對稀有類別的預(yù)測準(zhǔn)確率低
  • 相比決策樹模型,KNN模型可解釋性不強(qiáng)
  • 維度災(zāi)難:隨著維度的增加,“看似相近”的兩個點(diǎn)之間的距離越來越大,而knn非常依賴距離
  • #參考鏈接:

    機(jī)器學(xué)習(xí)的敲門磚:kNN算法(上)?mp.weixin.qq.com機(jī)器學(xué)習(xí)-KNN算法 - 數(shù)月亮 - 博客園?www.cnblogs.com

    總結(jié)

    以上是生活随笔為你收集整理的knn k的选取_KNN - 初窥K近邻算法的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。

    主站蜘蛛池模板: 97色在线观看| 草草在线影院 | 日韩bbw| 欧美小视频在线观看 | 欧美福利一区 | 怡红院一区二区三区 | 香蕉亚洲| 久草香蕉在线 | 天堂伊人网 | 国产做爰xxxⅹ高潮视频12p | 天堂精品一区二区三区 | 久久久久久欧美精品se一二三四 | 91精品国产色综合久久不卡蜜臀 | 亚洲国产理论 | 视频一区二区国产 | 狠狠干人人干 | 免费观看a毛片 | 黄色一级大片在线免费看产 | 国产精品美女高潮无套 | 日韩精品免费看 | 久久福利在线 | 亚洲一区二区播放 | 国产91视频在线 | 噼里啪啦免费观看 | 一区二区视频在线免费观看 | 亚洲精品色图 | 男同精品| 二区三区在线观看 | 国产人妖在线播放 | 精品国产一区一区二区三亚瑟 | 青青青青在线 | 日本欧美三级 | 人妻互换一区二区激情偷拍 | 国产91久久精品一区二区 | 久久蜜桃av一区二区天堂 | 韩日视频在线观看 | 综合国产视频 | 深夜福利免费在线观看 | 麻豆传媒在线播放 | 亚洲一区二区三区影院 | 亚洲免费视频网站 | 97久久综合 | 在线视频欧美一区 | 晨勃顶到尿h1v1 | 可以免费看污视频的网站 | 欧美激情图片 | 免费一级特黄特色大片 | 久久色在线观看 | 国内精品人妻无码久久久影院蜜桃 | 激情亚洲 | 国产伦理久久精品久久久久 | 人人妻人人澡人人爽精品日本 | 熟妇五十路六十路息与子 | 加勒比一区在线 | 青青草国产精品视频 | 在线观看日韩视频 | 国产精品第四页 | 日日草 | 以女性视角写的高h爽文 | 又黄又爽又刺激的视频 | a级片免费看 | 中文字幕一区二区三三 | 色婷婷av一区二区三区四区 | 久久久久一区二区三区四区 | 亚洲社区一区二区 | 蜜臀av一区二区三区有限公司 | 日韩少妇一区二区 | 国产午夜精品一区二区理论影院 | 97精品视频在线 | 亚洲69av | 久久久久久影视 | 中文字幕一区二区三区四区视频 | 久久久久麻豆v国产精华液好用吗 | 久久综合免费 | 中文字幕一区二区三区人妻电影 | 日韩国产毛片 | 国产色中色 | 不卡一区二区在线观看 | 人人搞人人干 | 久久精品成人一区二区三区蜜臀 | 日韩国产一区二区 | 国产精品熟女一区二区不卡 | 一区二区三区www污污污网站 | 亚洲天堂二区 | 女儿的朋友5中汉字晋通话 欧美成人免费高清视频 | 国产精品视频网站 | 日韩av网页 | 亚洲人xxx | 精品日韩制服无码久久久久久 | 影音先锋在线视频观看 | 国产com| 国产网站精品 | 一区二区影院 | a级片视频网站 | 嫩草影院在线观看视频 | 久草资源在线 | 麻豆69| 99国产在线 | 污片在线观看 |