當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【数据挖掘】K-NN 分类 ( 简介 | 分类概念 | K-NN 分类实例 | K-NN 分类准确度评估 | K-NN 分类结果评价指标 | 准确率 | 召回率 )

發布時間：2025/6/17 编程问答 26 豆豆

文章目錄

- - - I . K-NN 簡介
    - II . K-NN 分類
    - III . K-NN 分類實例
    - IV . K-NN 分類準確性評估方法
    - V . 保持法
    - VI . $k$ -交叉確認法
    - VII . K-NN 分類結果評價指標
    - VIII . 分類判定二維表
    - IX . 準確率
    - X . 召回率
    - XI . 準確率與召回率關聯
    - XII . 準確率與召回率綜合考慮

I . K-NN 簡介

K-NN 簡介 :

① 全稱 : K-NN 全稱是 K-Nearest Neighbors , 即 K 最近鄰 算法 ;

② 定義 : 給定查詢點 $p$ , 找出離 $p$ 最近的 $K$ 個點 , 找出所有的 $q_k$ 點 , $q_k$ 點的要求是點到 $p$ 的距離小于其第 $k$ 個鄰居的距離 ;

③ 理解方式 : 以 $p$ 點為圓心畫圓 , 數一下圓內 , 和圓的邊上的點是由有 $K$ 個 , 如果個數不足 $K$ 個 , 擴大半徑 , 直到圓邊上和園內的點的個數大于等于 $K$ 為止 ;

④ 圖示 : 紅色的點是 $p$ 點 , 綠色的點是 $p$ 點的 $9$ 個最近的鄰居 , 圓上的綠點是第 $9$ 個最近的鄰居 ;

II . K-NN 分類

K-NN 分類 :

① 已知條件 : 假設給定查詢點 $p$ , 已經直到其 $K$ 個最近鄰居 ;

② 分類內容 : K-NN 的目的是為了給查詢點 $p$ 進行分類 ;

③ 數據集樣本抽象成點 : 將訓練集的數據樣本 , 當做 $n$ 維空間中的的點 ;

④ 預測分類 : 給定一個未知樣本 $p$ , 要給該位置樣本分類 , 首先以該未知樣本作為查詢點 , 以 $p$ 點為中心 , 找到該樣本的點在 $n$ 維空間中的 $K$ 個近鄰 , 將這 $K$ 個近鄰按照某個屬性的值進行分組 , 該未知樣本 $p$ 被分到樣本最多的那個組 ;

III . K-NN 分類實例

為下面的紅色點進行分類 : 有兩種分類 , 綠色點的分類是 $A$ , 和紫色點的分類是 $B$ , 為紅點進行分類 ;

1-NN 分類 : 此時 $A$ 類別有 $1$ 個 , $B$ 類別有 $0$ 個 , 紅色點被分為 $A$ 類別 ;

3-NN 分類 : 此時 $A$ 類別有 $1$ 個 , $B$ 類別有 $2$ 個 , 紅色點被分為 $B$ 類別 ;

9-NN 分類 : 此時 $A$ 類別有 $5$ 個 , $B$ 類別有 $2$ 個 , 紅色點被分為 $A$ 類別 ;

15-NN 分類 : 此時 $A$ 類別有 $5$ 個 , $B$ 類別有 $9$ 個 , 紅色點被分為 $B$ 類別 ;

K-NN 分類準確度 : 數據量越大 , 準確度越高 ; K-NN 的思想是與周圍的大多數樣本保持一致 ;

IV . K-NN 分類準確性評估方法

K-NN 分類準確性評估方法 : 保持法 , $k$ -交叉確認法 , 這兩種方法是常用的 K-NN 評估分類準確率的方法 ;

V . 保持法

1 . 保持法 :

① 訓練集測試集劃分 : 將數據集樣本隨機分成兩個獨立的數據集 , 分別是用于訓練學習的訓練集 , 和用于驗證測試的測試集 ;

② 訓練集測試集樣本比例 : 數據集劃分比例 , 通常是 , 訓練集 $23\dfrac{2}{3}$ , 測試集 $13\dfrac{1}{3}$ ;

③ 隨機劃分 : 劃分一定要保證隨機性 , 劃分時不能有任何偏好 ;

2 . 隨機選樣法 : 執行 $K$ 次保持法 , 得到 $K$ 個準確率 , 總體的準確率取這 $K$ 次準確率的平均值 ;

3 . 隨機選樣法本質 : 保持法的另一種形式 , 相當于使用多次保持法 ;

VI . $k$ -交叉確認法

1 . $k$ -交叉確認法 : 首先要劃分數據集 , 然后進行 $k$ 次訓練測試 , 最后計算出準確率 ;

2 . 劃分數據集 : 將數據集樣本劃分成 $k$ 個獨立的子集 , 分別是 ${S1,S2,?,Sk}\{ S_1 , S_2 , \cdots , S_k \}$ , 每個子集的樣本個數盡量相同 ;

3 . 訓練測試 :

① 訓練測試次數 : 訓練 $k$ 次 , 測試 $k$ 次 , 每次訓練都要對應一次測試 ;

② 訓練測試過程 : 第 $i$ 次訓練 , 使用 $S_i$ 作為測試集 , 其余 $(k ? 1)$ 個子集作為訓練集 ;

4 . 訓練測試示例 : 訓練 $k$ 次 ;

第 $1$ 次訓練 , 使用 $S_1$ 作為測試集 , 其余 $(k ? 1)$ 個子集作為訓練集 ;
第 $2$ 次訓練 , 使用 $S_2$ 作為測試集 , 其余 $(k ? 1)$ 個子集作為訓練集 ;
$?\vdots$
第 $k$ 次訓練 , 使用 $S_k$ 作為測試集 , 其余 $(k ? 1)$ 個子集作為訓練集 ;

5 . 準確率結果 :

① 單次訓練測試結果 : $k$ 次測試訓練 , 每次使用 $S_i$ 作為測試集 , 測試的子集中有分類正確的 , 有分類錯誤的 ;

② 總體準確率 : $k$ 次測試后 , 相當于將整個數據集的子集 ${S1,S2,?,Sk}\{ S_1 , S_2 , \cdots , S_k \}$ 都當做測試集測試了一遍 , 將整體的數據集的樣本分類正確的樣本個數 $Y$ , 除以整體的樣本個數 $T$ , 即可得到 $k$ -交叉確認準確率結果 $YT\dfrac{Y}{T}$ ;

VII . K-NN 分類結果評價指標

K-NN 分類結果評價指標 : ① 準確率 , ② 召回率 ;

VIII . 分類判定二維表

1 . 分類判定二維表 : 這里引入二維表 , 這個二維表表示人和機器 , 對樣本的判定情況 ;

人判斷正確人判斷錯誤

機器判斷正確	a	b
機器判斷錯誤	c	d

2 . 樣本分類正確性分析 :

① 樣本分類的三種認知 : 樣本實際的分類 , 人認為的分類 , 機器認為的分類 ;

② 樣本的實際分類 : 樣本的實際分類是 $A$ ;

③ 人的判斷 : 人認為該樣本分類是 $A$ , 說明人判定正確 , 人如果認為該樣本分類為 $B$ , 說明人判斷錯誤 ;

④ 機器的判斷 : 機器認為該樣本分類是 $A$ , 說明機器判定正確 ; 機器如果認為該樣本分類為 $B$ , 說明機器判斷錯誤 ;

3 . 表內數據含義 : 表格中的 $a, b, c, d$ 值表示樣本的個數 ; :

① $a$ 含義 : 表示人判斷正確 , 機器判斷正確的樣本個數 ; 數據集中人和機器同時分類正確的樣本個數 ;

② $b$ 含義 : 表示人判斷錯誤 , 機器判斷正確的樣本個數 ; 數據集中人分類錯誤 , 機器分類正確的樣本個數 ;

③ $c$ 含義 : 表示人判斷正確 , 機器判斷錯誤的樣本個數 ; 數據集中人分類正確 , 機器分類錯誤的樣本個數 ;

④ $d$ 含義 : 表示人判斷錯誤 , 機器判斷錯誤的樣本個數 ; 數據集中人和機器同時分類錯誤的樣本個數 ;

IX . 準確率

1 . 準確率計算公式 :

$\frac{a}{a + b}$

$(a + b)$ 是機器分類正確的樣本的總數 ;

$a$ 是人和機器都認為正確的樣本個數;

2 . 準確率理解 : 機器分類正確的樣本中 , 哪些是真正正確的樣本 ; $(a + b)$ 是機器認為正確的樣本 , 其中只有 $a$ 個樣本是真正正確的 ;

X . 召回率

1 . 召回率計算公式 :

$\frac{a}{a + c}$

$(a + c)$ 是人認為分類正確的樣本的總數 ;

$a$ 是人和機器都認為正確的樣本個數;

2 . 召回率理解 : 人認為分類正確的樣本中 , 哪些是機器判定正確的 ; $(a + c)$ 是人認為正確的樣本個數 , 機器認為正確的是 $a$ 個樣本 ;

XI . 準確率與召回率關聯

準確率與召回率關系 : 這兩個指標互相矛盾 ;

準確率與召回率是互相影響的 , 準確率很高時 , 召回率很低 ;

準確率 100% 時 , 召回率很低 ; 召回率 100% 時 , 準確率很低 ;

XII . 準確率與召回率綜合考慮

1 . 準確率與召回率綜合考慮 :

$\frac {1} { \alpha \dfrac{1}{P} + (1 + \alpha) \dfrac{1}{R} }$

將準確率與召回率放在上述公式中計算 , $P$ 是準確率 , $R$ 是召回率 ;

$α\alpha$ 是一個系數 , 通常 $α\alpha$ 取值 $0.5$ ;

2 . $α\alpha$ 取值 $0.5$ 時公式為 : 此時的度量指標叫做 $F_1$ 值 , 這個值經常作為 K-NN分類結果的度量指標 , 即考慮了準確率 , 又考慮了召回率 ;

$F1=2PRP+RF_1 = \frac{2PR}{P + R}$

總結

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：【Android 应用开发】Androi
下一篇：【数据挖掘】聚类算法简介 ( 基于划分