【数据挖掘】K-NN 分类 ( 简介 | 分类概念 | K-NN 分类实例 | K-NN 分类准确度评估 | K-NN 分类结果评价指标 | 准确率 | 召回率 )
文章目錄
- I . K-NN 簡(jiǎn)介
- II . K-NN 分類
- III . K-NN 分類實(shí)例
- IV . K-NN 分類 準(zhǔn)確性評(píng)估方法
- V . 保持法
- VI . kkk-交叉確認(rèn)法
- VII . K-NN 分類結(jié)果評(píng)價(jià)指標(biāo)
- VIII . 分類 判定 二維表
- IX . 準(zhǔn)確率
- X . 召回率
- XI . 準(zhǔn)確率與召回率關(guān)聯(lián)
- XII . 準(zhǔn)確率 與 召回率 綜合考慮
I . K-NN 簡(jiǎn)介
K-NN 簡(jiǎn)介 :
① 全稱 : K-NN 全稱是 K-Nearest Neighbors , 即 K 最近鄰 算法 ;
② 定義 : 給定查詢點(diǎn) ppp , 找出離ppp 最近的 KKK 個(gè)點(diǎn) , 找出所有的 qkq_kqk? 點(diǎn) , qkq_kqk? 點(diǎn)的要求是 點(diǎn)到 ppp 的距離 小于其第 kkk 個(gè)鄰居的距離 ;
③ 理解方式 : 以 ppp 點(diǎn)為圓心畫圓 , 數(shù)一下圓內(nèi) , 和圓的邊上的點(diǎn)是由有 KKK 個(gè) , 如果個(gè)數(shù)不足 KKK 個(gè) , 擴(kuò)大半徑 , 直到圓邊上和園內(nèi)的點(diǎn)的個(gè)數(shù)大于等于 KKK 為止 ;
④ 圖示 : 紅色的點(diǎn)是 ppp 點(diǎn) , 綠色的點(diǎn)是 ppp 點(diǎn)的 999 個(gè)最近的鄰居 , 圓上的綠點(diǎn)是第 999 個(gè)最近的鄰居 ;
II . K-NN 分類
K-NN 分類 :
① 已知條件 : 假設(shè)給定查詢點(diǎn) ppp , 已經(jīng)直到其 KKK 個(gè)最近鄰居 ;
② 分類內(nèi)容 : K-NN 的目的是為了給查詢點(diǎn) ppp 進(jìn)行分類 ;
③ 數(shù)據(jù)集樣本抽象成點(diǎn) : 將訓(xùn)練集的數(shù)據(jù)樣本 , 當(dāng)做 nnn 維空間中的的點(diǎn) ;
④ 預(yù)測(cè)分類 : 給定一個(gè)未知樣本 ppp , 要給該位置樣本分類 , 首先以該未知樣本作為查詢點(diǎn) , 以 ppp 點(diǎn)為中心 , 找到該樣本的點(diǎn)在 nnn 維空間中的 KKK 個(gè)近鄰 , 將這 KKK 個(gè)近鄰按照某個(gè)屬性的值進(jìn)行分組 , 該未知樣本 ppp 被分到樣本最多的那個(gè)組 ;
III . K-NN 分類實(shí)例
為下面的紅色點(diǎn)進(jìn)行分類 : 有兩種分類 , 綠色點(diǎn)的分類是 AAA , 和 紫色點(diǎn)的分類是 BBB , 為紅點(diǎn)進(jìn)行分類 ;
1-NN 分類 : 此時(shí) AAA 類別有 111 個(gè) , BBB 類別有 000 個(gè) , 紅色點(diǎn)被分為 AAA 類別 ;
3-NN 分類 : 此時(shí) AAA 類別有 111 個(gè) , BBB 類別有 222 個(gè) , 紅色點(diǎn)被分為 BBB 類別 ;
9-NN 分類 : 此時(shí) AAA 類別有 555 個(gè) , BBB 類別有 222 個(gè) , 紅色點(diǎn)被分為 AAA 類別 ;
15-NN 分類 : 此時(shí) AAA 類別有 555 個(gè) , BBB 類別有 999 個(gè) , 紅色點(diǎn)被分為 BBB 類別 ;
K-NN 分類 準(zhǔn)確度 : 數(shù)據(jù)量越大 , 準(zhǔn)確度越高 ; K-NN 的思想是與周圍的大多數(shù)樣本保持一致 ;
IV . K-NN 分類 準(zhǔn)確性評(píng)估方法
K-NN 分類準(zhǔn)確性評(píng)估方法 : 保持法 , kkk-交叉確認(rèn)法 , 這兩種方法是常用的 K-NN 評(píng)估分類準(zhǔn)確率的方法 ;
V . 保持法
1 . 保持法 :
① 訓(xùn)練集測(cè)試集劃分 : 將數(shù)據(jù)集樣本隨機(jī)分成兩個(gè)獨(dú)立的數(shù)據(jù)集 , 分別是用于訓(xùn)練學(xué)習(xí)的訓(xùn)練集 , 和用于驗(yàn)證測(cè)試的測(cè)試集 ;
② 訓(xùn)練集測(cè)試集 樣本比例 : 數(shù)據(jù)集劃分比例 , 通常是 , 訓(xùn)練集 23\dfrac{2}{3}32? , 測(cè)試集 13\dfrac{1}{3}31? ;
③ 隨機(jī)劃分 : 劃分一定要保證隨機(jī)性 , 劃分時(shí)不能有任何偏好 ;
2 . 隨機(jī)選樣法 : 執(zhí)行 KKK 次保持法 , 得到 KKK 個(gè)準(zhǔn)確率 , 總體的準(zhǔn)確率取這 KKK 次準(zhǔn)確率的平均值 ;
3 . 隨機(jī)選樣法本質(zhì) : 保持法的另一種形式 , 相當(dāng)于使用多次保持法 ;
VI . kkk-交叉確認(rèn)法
1 . kkk-交叉確認(rèn)法 : 首先要?jiǎng)澐謹(jǐn)?shù)據(jù)集 , 然后進(jìn)行 kkk 次訓(xùn)練測(cè)試 , 最后計(jì)算出準(zhǔn)確率 ;
2 . 劃分?jǐn)?shù)據(jù)集 : 將數(shù)據(jù)集樣本劃分成 kkk 個(gè)獨(dú)立的子集 , 分別是 {S1,S2,?,Sk}\{ S_1 , S_2 , \cdots , S_k \}{S1?,S2?,?,Sk?} , 每個(gè)子集的樣本個(gè)數(shù)盡量相同 ;
3 . 訓(xùn)練測(cè)試 :
① 訓(xùn)練測(cè)試次數(shù) : 訓(xùn)練 kkk 次 , 測(cè)試 kkk 次 , 每次訓(xùn)練都要對(duì)應(yīng)一次測(cè)試 ;
② 訓(xùn)練測(cè)試過程 : 第 iii 次訓(xùn)練 , 使用 SiS_iSi? 作為測(cè)試集 , 其余 (k?1)(k-1)(k?1) 個(gè)子集作為訓(xùn)練集 ;
4 . 訓(xùn)練測(cè)試 示例 : 訓(xùn)練 kkk 次 ;
第 111 次訓(xùn)練 , 使用 S1S_1S1? 作為測(cè)試集 , 其余 (k?1)(k-1)(k?1) 個(gè)子集作為訓(xùn)練集 ;
第 222 次訓(xùn)練 , 使用 S2S_2S2? 作為測(cè)試集 , 其余 (k?1)(k-1)(k?1) 個(gè)子集作為訓(xùn)練集 ;
?\vdots?
第 kkk 次訓(xùn)練 , 使用 SkS_kSk? 作為測(cè)試集 , 其余 (k?1)(k-1)(k?1) 個(gè)子集作為訓(xùn)練集 ;
5 . 準(zhǔn)確率結(jié)果 :
① 單次訓(xùn)練測(cè)試結(jié)果 : kkk 次測(cè)試訓(xùn)練 , 每次使用 SiS_iSi? 作為測(cè)試集 , 測(cè)試的子集中有分類正確的 , 有分類錯(cuò)誤的 ;
② 總體準(zhǔn)確率 : kkk 次測(cè)試后 , 相當(dāng)于將整個(gè)數(shù)據(jù)集的子集 {S1,S2,?,Sk}\{ S_1 , S_2 , \cdots , S_k \}{S1?,S2?,?,Sk?} 都當(dāng)做測(cè)試集測(cè)試了一遍 , 將整體的數(shù)據(jù)集的樣本分類正確的樣本個(gè)數(shù) YYY , 除以整體的樣本個(gè)數(shù) TTT , 即可得到 kkk-交叉確認(rèn) 準(zhǔn)確率結(jié)果 YT\dfrac{Y}{T}TY? ;
VII . K-NN 分類結(jié)果評(píng)價(jià)指標(biāo)
K-NN 分類結(jié)果評(píng)價(jià)指標(biāo) : ① 準(zhǔn)確率 , ② 召回率 ;
VIII . 分類 判定 二維表
1 . 分類 判定二維表 : 這里引入二維表 , 這個(gè)二維表表示 人 和 機(jī)器 , 對(duì)樣本的判定情況 ;
| 機(jī)器判斷正確 | a | b |
| 機(jī)器判斷錯(cuò)誤 | c | d |
2 . 樣本分類正確性分析 :
① 樣本分類的三種認(rèn)知 : 樣本實(shí)際的分類 , 人認(rèn)為的分類 , 機(jī)器認(rèn)為的分類 ;
② 樣本的實(shí)際分類 : 樣本的實(shí)際分類是 AAA ;
③ 人的判斷 : 人認(rèn)為該樣本分類是 AAA , 說明人判定正確 , 人如果認(rèn)為該樣本分類為 BBB , 說明人判斷錯(cuò)誤 ;
④ 機(jī)器的判斷 : 機(jī)器認(rèn)為該樣本分類是 AAA , 說明機(jī)器判定正確 ; 機(jī)器如果認(rèn)為該樣本分類為 BBB , 說明機(jī)器判斷錯(cuò)誤 ;
3 . 表內(nèi)數(shù)據(jù)含義 : 表格中的 a,b,c,da , b , c , da,b,c,d 值表示樣本的個(gè)數(shù) ; :
① aaa 含義 : 表示 人判斷正確 , 機(jī)器判斷正確 的樣本個(gè)數(shù) ; 數(shù)據(jù)集中人和機(jī)器同時(shí)分類正確的樣本個(gè)數(shù) ;
② bbb 含義 : 表示 人判斷錯(cuò)誤 , 機(jī)器判斷正確 的樣本個(gè)數(shù) ; 數(shù)據(jù)集中人分類錯(cuò)誤 , 機(jī)器分類正確的樣本個(gè)數(shù) ;
③ ccc 含義 : 表示 人判斷正確 , 機(jī)器判斷錯(cuò)誤 的樣本個(gè)數(shù) ; 數(shù)據(jù)集中人分類正確 , 機(jī)器分類錯(cuò)誤的樣本個(gè)數(shù) ;
④ ddd 含義 : 表示 人判斷錯(cuò)誤 , 機(jī)器判斷錯(cuò)誤 的樣本個(gè)數(shù) ; 數(shù)據(jù)集中人和機(jī)器同時(shí)分類錯(cuò)誤的樣本個(gè)數(shù) ;
IX . 準(zhǔn)確率
1 . 準(zhǔn)確率計(jì)算公式 :
P=aa+bP = \frac{a}{a + b}P=a+ba?
(a+b)(a + b)(a+b) 是 機(jī)器 分類正確 的樣本的總數(shù) ;
aaa 是人和機(jī)器都認(rèn)為正確的樣本個(gè)數(shù);
2 . 準(zhǔn)確率理解 : 機(jī)器分類正確的樣本中 , 哪些是真正正確的樣本 ; (a+b)(a + b)(a+b) 是機(jī)器認(rèn)為正確的樣本 , 其中只有 aaa 個(gè)樣本是真正正確的 ;
X . 召回率
1 . 召回率計(jì)算公式 :
R=aa+cR = \frac{a}{a + c}R=a+ca?
(a+c)(a + c)(a+c) 是 人認(rèn)為 分類正確 的樣本的總數(shù) ;
aaa 是人和機(jī)器都認(rèn)為正確的樣本個(gè)數(shù);
2 . 召回率理解 : 人認(rèn)為分類正確的樣本中 , 哪些是機(jī)器判定正確的 ; (a+c)(a + c)(a+c) 是人認(rèn)為正確的樣本個(gè)數(shù) , 機(jī)器認(rèn)為正確的是 aaa 個(gè)樣本 ;
XI . 準(zhǔn)確率與召回率關(guān)聯(lián)
準(zhǔn)確率 與 召回率 關(guān)系 : 這兩個(gè)指標(biāo)互相矛盾 ;
準(zhǔn)確率 與 召回率 是互相影響的 , 準(zhǔn)確率很高時(shí) , 召回率很低 ;
準(zhǔn)確率 100% 時(shí) , 召回率很低 ; 召回率 100% 時(shí) , 準(zhǔn)確率很低 ;
XII . 準(zhǔn)確率 與 召回率 綜合考慮
1 . 準(zhǔn)確率 與 召回率 綜合考慮 :
F=1α1P+(1+α)1RF = \frac {1} { \alpha \dfrac{1}{P} + (1 + \alpha) \dfrac{1}{R} }F=αP1?+(1+α)R1?1?
將準(zhǔn)確率 與 召回率放在 上述公式中計(jì)算 , PPP 是準(zhǔn)確率 , RRR 是召回率 ;
α\alphaα 是一個(gè)系數(shù) , 通常 α\alphaα 取值 0.50.50.5 ;
2 . α\alphaα 取值 0.50.50.5 時(shí)公式為 : 此時(shí)的度量指標(biāo)叫做 F1F_1F1? 值 , 這個(gè)值經(jīng)常作為 K-NN分類結(jié)果的度量指標(biāo) , 即考慮了準(zhǔn)確率 , 又考慮了召回率 ;
F1=2PRP+RF_1 = \frac{2PR}{P + R}F1?=P+R2PR?
總結(jié)
以上是生活随笔為你收集整理的【数据挖掘】K-NN 分类 ( 简介 | 分类概念 | K-NN 分类实例 | K-NN 分类准确度评估 | K-NN 分类结果评价指标 | 准确率 | 召回率 )的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【Android 应用开发】Androi
- 下一篇: 【数据挖掘】聚类算法 简介 ( 基于划分