日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 人文社科 > 生活经验 >内容正文

生活经验

K-最近邻法(KNN)简介

發布時間:2023/11/27 生活经验 52 豆豆
生活随笔 收集整理的這篇文章主要介紹了 K-最近邻法(KNN)简介 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

K-最近鄰法(K-Nearest Neighbor, KNN)最初由Cover和Hart于1968年提出,是一個在理論上比較成熟的分類算法。

KNN是一類可用于分類或回歸的技術。作為一個非參數學習算法,K-最近鄰并不局限于固定數目的參數。我們通常認為K-最近鄰算法沒有任何參數,而且使用訓練數據的簡單函數。事實上,它甚至也沒有一個真正的訓練階段或學習過程。反之,在測試階段我們希望在新的測試輸入x上產生y,我們需要在訓練數據X上找到x的K-最近鄰。然后我們返回訓練集上對應的y值的平均值。這幾乎適用于任何類型可以確定y值平均值的監督學習。

在模式識別領域中,KNN算法是一種用于分類和回歸的非參數統計方法。

算法:訓練樣本是多維特征空間向量,其中每個訓練樣本帶有一個類別標簽。算法的訓練階段只包含存儲的特征向量和訓練樣本的標簽。在分類階段,k是一個用戶定義的常數。一個沒有類別標簽的向量將被歸類為最接近該點的k個樣本點中最頻繁使用的一類。一般情況下,將歐式距離作為距離度量,但是這只適用于連續變量。在文本分類這種離散變量情況下,另一個度量----重疊度量(或漢明距離)可以用來作為度量。

參數選擇:如何選擇一個最佳的K值取決于數據。一般情況下,在分類時較大的K值能夠減少噪聲的影響,但會使類別之間的界限變得模糊。一個較好的K值能通過各種啟發式技術來獲取。噪聲和非相關性特征的存在,或特征尺度與它們的重要性不一致會使K近鄰算法的準確性嚴重降低。在兩類分類問題中,選取k為奇數有助于避免兩個分類平票的情形。在此問題下,選取最佳經驗k值的方法是自助法。

KNN算法的核心思想:如果一個樣本在特征空間中的K個最相鄰的樣本中的大多數屬于某一個類別,則該樣本也屬于這個類別,并具有這個類別上樣本的特性。KNN方法在類別決策上僅僅依據最鄰近的一個或者幾個樣本的類別來決定待分樣本所屬的類別。

優點:簡單,易于理解,易于實現;無需估計參數;無需訓練。特別適合于多分類問題。

缺點:K值的確定,比較好的選取K值的方法只能是通過反復試驗調整;當樣本不平衡時,如一個類的樣本容量很大,而其它類樣本容量很小時,有可能導致當輸入一個新樣本時,該樣本的K個鄰居中大容量類的樣本占多數;計算量大,KNN算法的時間復雜度和存儲空間的增加會隨著訓練集規模和特征維數的增大而快速增加。

距離度量表示法:(1)、歐式距離;(2)、曼哈頓距離;(3)、切比雪夫距離;(4)、閔可夫斯基距離;(5)、標準化歐式距離;(6)、馬氏距離;(7)、巴氏距離;(8)、漢明距離;等。

K-最近鄰法例子(來自:維基百科):


以上內容主要摘自:??維基百科

GitHub:?https://github.com/fengbingchun/NN_Test

總結

以上是生活随笔為你收集整理的K-最近邻法(KNN)简介的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。