日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 >

【数据挖掘】K-NN 分类 ( 简介 | 分类概念 | K-NN 分类实例 | K-NN 分类准确度评估 | K-NN 分类结果评价指标 | 准确率 | 召回率 )

發(fā)布時(shí)間:2025/6/17 37 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【数据挖掘】K-NN 分类 ( 简介 | 分类概念 | K-NN 分类实例 | K-NN 分类准确度评估 | K-NN 分类结果评价指标 | 准确率 | 召回率 ) 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

文章目錄

        • I . K-NN 簡(jiǎn)介
        • II . K-NN 分類
        • III . K-NN 分類實(shí)例
        • IV . K-NN 分類 準(zhǔn)確性評(píng)估方法
        • V . 保持法
        • VI . kkk-交叉確認(rèn)法
        • VII . K-NN 分類結(jié)果評(píng)價(jià)指標(biāo)
        • VIII . 分類 判定 二維表
        • IX . 準(zhǔn)確率
        • X . 召回率
        • XI . 準(zhǔn)確率與召回率關(guān)聯(lián)
        • XII . 準(zhǔn)確率 與 召回率 綜合考慮



I . K-NN 簡(jiǎn)介



K-NN 簡(jiǎn)介 :


① 全稱 : K-NN 全稱是 K-Nearest Neighbors , 即 K 最近鄰 算法 ;

② 定義 : 給定查詢點(diǎn) ppp , 找出離ppp 最近的 KKK 個(gè)點(diǎn) , 找出所有的 qkq_kqk? 點(diǎn) , qkq_kqk? 點(diǎn)的要求是 點(diǎn)到 ppp 的距離 小于其第 kkk 個(gè)鄰居的距離 ;

③ 理解方式 : ppp 點(diǎn)為圓心畫圓 , 數(shù)一下圓內(nèi) , 和圓的邊上的點(diǎn)是由有 KKK 個(gè) , 如果個(gè)數(shù)不足 KKK 個(gè) , 擴(kuò)大半徑 , 直到圓邊上和園內(nèi)的點(diǎn)的個(gè)數(shù)大于等于 KKK 為止 ;

④ 圖示 : 紅色的點(diǎn)是 ppp 點(diǎn) , 綠色的點(diǎn)是 ppp 點(diǎn)的 999 個(gè)最近的鄰居 , 圓上的綠點(diǎn)是第 999 個(gè)最近的鄰居 ;





II . K-NN 分類



K-NN 分類 :


① 已知條件 : 假設(shè)給定查詢點(diǎn) ppp , 已經(jīng)直到其 KKK 個(gè)最近鄰居 ;

② 分類內(nèi)容 : K-NN 的目的是為了給查詢點(diǎn) ppp 進(jìn)行分類 ;

③ 數(shù)據(jù)集樣本抽象成點(diǎn) : 將訓(xùn)練集的數(shù)據(jù)樣本 , 當(dāng)做 nnn 維空間中的的點(diǎn) ;

④ 預(yù)測(cè)分類 : 給定一個(gè)未知樣本 ppp , 要給該位置樣本分類 , 首先以該未知樣本作為查詢點(diǎn) , 以 ppp 點(diǎn)為中心 , 找到該樣本的點(diǎn)在 nnn 維空間中的 KKK 個(gè)近鄰 , 將這 KKK 個(gè)近鄰按照某個(gè)屬性的值進(jìn)行分組 , 該未知樣本 ppp 被分到樣本最多的那個(gè)組 ;



III . K-NN 分類實(shí)例



為下面的紅色點(diǎn)進(jìn)行分類 : 有兩種分類 , 綠色點(diǎn)的分類是 AAA , 和 紫色點(diǎn)的分類是 BBB , 為紅點(diǎn)進(jìn)行分類 ;


1-NN 分類 : 此時(shí) AAA 類別有 111 個(gè) , BBB 類別有 000 個(gè) , 紅色點(diǎn)被分為 AAA 類別 ;


3-NN 分類 : 此時(shí) AAA 類別有 111 個(gè) , BBB 類別有 222 個(gè) , 紅色點(diǎn)被分為 BBB 類別 ;


9-NN 分類 : 此時(shí) AAA 類別有 555 個(gè) , BBB 類別有 222 個(gè) , 紅色點(diǎn)被分為 AAA 類別 ;


15-NN 分類 : 此時(shí) AAA 類別有 555 個(gè) , BBB 類別有 999 個(gè) , 紅色點(diǎn)被分為 BBB 類別 ;


K-NN 分類 準(zhǔn)確度 : 數(shù)據(jù)量越大 , 準(zhǔn)確度越高 ; K-NN 的思想是與周圍的大多數(shù)樣本保持一致 ;



IV . K-NN 分類 準(zhǔn)確性評(píng)估方法



K-NN 分類準(zhǔn)確性評(píng)估方法 : 保持法 , kkk-交叉確認(rèn)法 , 這兩種方法是常用的 K-NN 評(píng)估分類準(zhǔn)確率的方法 ;



V . 保持法



1 . 保持法 :


① 訓(xùn)練集測(cè)試集劃分 : 將數(shù)據(jù)集樣本隨機(jī)分成兩個(gè)獨(dú)立的數(shù)據(jù)集 , 分別是用于訓(xùn)練學(xué)習(xí)的訓(xùn)練集 , 和用于驗(yàn)證測(cè)試的測(cè)試集 ;

② 訓(xùn)練集測(cè)試集 樣本比例 : 數(shù)據(jù)集劃分比例 , 通常是 , 訓(xùn)練集 23\dfrac{2}{3}32? , 測(cè)試集 13\dfrac{1}{3}31? ;

③ 隨機(jī)劃分 : 劃分一定要保證隨機(jī)性 , 劃分時(shí)不能有任何偏好 ;


2 . 隨機(jī)選樣法 : 執(zhí)行 KKK 次保持法 , 得到 KKK 個(gè)準(zhǔn)確率 , 總體的準(zhǔn)確率取這 KKK 次準(zhǔn)確率的平均值 ;


3 . 隨機(jī)選樣法本質(zhì) : 保持法的另一種形式 , 相當(dāng)于使用多次保持法 ;



VI . kkk-交叉確認(rèn)法



1 . kkk-交叉確認(rèn)法 : 首先要?jiǎng)澐謹(jǐn)?shù)據(jù)集 , 然后進(jìn)行 kkk 次訓(xùn)練測(cè)試 , 最后計(jì)算出準(zhǔn)確率 ;


2 . 劃分?jǐn)?shù)據(jù)集 : 將數(shù)據(jù)集樣本劃分成 kkk 個(gè)獨(dú)立的子集 , 分別是 {S1,S2,?,Sk}\{ S_1 , S_2 , \cdots , S_k \}{S1?,S2?,?,Sk?} , 每個(gè)子集的樣本個(gè)數(shù)盡量相同 ;


3 . 訓(xùn)練測(cè)試 :


① 訓(xùn)練測(cè)試次數(shù) : 訓(xùn)練 kkk 次 , 測(cè)試 kkk 次 , 每次訓(xùn)練都要對(duì)應(yīng)一次測(cè)試 ;

② 訓(xùn)練測(cè)試過程 : iii 次訓(xùn)練 , 使用 SiS_iSi? 作為測(cè)試集 , 其余 (k?1)(k-1)(k?1) 個(gè)子集作為訓(xùn)練集 ;


4 . 訓(xùn)練測(cè)試 示例 : 訓(xùn)練 kkk 次 ;


111 次訓(xùn)練 , 使用 S1S_1S1? 作為測(cè)試集 , 其余 (k?1)(k-1)(k?1) 個(gè)子集作為訓(xùn)練集 ;
222 次訓(xùn)練 , 使用 S2S_2S2? 作為測(cè)試集 , 其余 (k?1)(k-1)(k?1) 個(gè)子集作為訓(xùn)練集 ;
?\vdots?
kkk 次訓(xùn)練 , 使用 SkS_kSk? 作為測(cè)試集 , 其余 (k?1)(k-1)(k?1) 個(gè)子集作為訓(xùn)練集 ;


5 . 準(zhǔn)確率結(jié)果 :


① 單次訓(xùn)練測(cè)試結(jié)果 : kkk 次測(cè)試訓(xùn)練 , 每次使用 SiS_iSi? 作為測(cè)試集 , 測(cè)試的子集中有分類正確的 , 有分類錯(cuò)誤的 ;

② 總體準(zhǔn)確率 : kkk 次測(cè)試后 , 相當(dāng)于將整個(gè)數(shù)據(jù)集的子集 {S1,S2,?,Sk}\{ S_1 , S_2 , \cdots , S_k \}{S1?,S2?,?,Sk?} 都當(dāng)做測(cè)試集測(cè)試了一遍 , 將整體的數(shù)據(jù)集的樣本分類正確的樣本個(gè)數(shù) YYY , 除以整體的樣本個(gè)數(shù) TTT , 即可得到 kkk-交叉確認(rèn) 準(zhǔn)確率結(jié)果 YT\dfrac{Y}{T}TY? ;



VII . K-NN 分類結(jié)果評(píng)價(jià)指標(biāo)



K-NN 分類結(jié)果評(píng)價(jià)指標(biāo) : ① 準(zhǔn)確率 , ② 召回率 ;



VIII . 分類 判定 二維表



1 . 分類 判定二維表 : 這里引入二維表 , 這個(gè)二維表表示 人 和 機(jī)器 , 對(duì)樣本的判定情況 ;


人判斷正確人判斷錯(cuò)誤
機(jī)器判斷正確ab
機(jī)器判斷錯(cuò)誤cd

2 . 樣本分類正確性分析 :


① 樣本分類的三種認(rèn)知 : 樣本實(shí)際的分類 , 人認(rèn)為的分類 , 機(jī)器認(rèn)為的分類 ;

② 樣本的實(shí)際分類 : 樣本的實(shí)際分類是 AAA ;

③ 人的判斷 : 人認(rèn)為該樣本分類是 AAA , 說明人判定正確 , 人如果認(rèn)為該樣本分類為 BBB , 說明人判斷錯(cuò)誤 ;

④ 機(jī)器的判斷 : 機(jī)器認(rèn)為該樣本分類是 AAA , 說明機(jī)器判定正確 ; 機(jī)器如果認(rèn)為該樣本分類為 BBB , 說明機(jī)器判斷錯(cuò)誤 ;


3 . 表內(nèi)數(shù)據(jù)含義 : 表格中的 a,b,c,da , b , c , da,b,c,d 值表示樣本的個(gè)數(shù) ; :


aaa 含義 : 表示 人判斷正確 , 機(jī)器判斷正確 的樣本個(gè)數(shù) ; 數(shù)據(jù)集中人和機(jī)器同時(shí)分類正確的樣本個(gè)數(shù) ;

bbb 含義 : 表示 人判斷錯(cuò)誤 , 機(jī)器判斷正確 的樣本個(gè)數(shù) ; 數(shù)據(jù)集中人分類錯(cuò)誤 , 機(jī)器分類正確的樣本個(gè)數(shù) ;

ccc 含義 : 表示 人判斷正確 , 機(jī)器判斷錯(cuò)誤 的樣本個(gè)數(shù) ; 數(shù)據(jù)集中人分類正確 , 機(jī)器分類錯(cuò)誤的樣本個(gè)數(shù) ;

ddd 含義 : 表示 人判斷錯(cuò)誤 , 機(jī)器判斷錯(cuò)誤 的樣本個(gè)數(shù) ; 數(shù)據(jù)集中人和機(jī)器同時(shí)分類錯(cuò)誤的樣本個(gè)數(shù) ;



IX . 準(zhǔn)確率



1 . 準(zhǔn)確率計(jì)算公式 :


P=aa+bP = \frac{a}{a + b}P=a+ba?


(a+b)(a + b)(a+b) 是 機(jī)器 分類正確 的樣本的總數(shù) ;

aaa 是人和機(jī)器都認(rèn)為正確的樣本個(gè)數(shù);


2 . 準(zhǔn)確率理解 : 機(jī)器分類正確的樣本中 , 哪些是真正正確的樣本 ; (a+b)(a + b)(a+b) 是機(jī)器認(rèn)為正確的樣本 , 其中只有 aaa 個(gè)樣本是真正正確的 ;



X . 召回率



1 . 召回率計(jì)算公式 :


R=aa+cR = \frac{a}{a + c}R=a+ca?


(a+c)(a + c)(a+c) 是 人認(rèn)為 分類正確 的樣本的總數(shù) ;

aaa 是人和機(jī)器都認(rèn)為正確的樣本個(gè)數(shù);


2 . 召回率理解 : 人認(rèn)為分類正確的樣本中 , 哪些是機(jī)器判定正確的 ; (a+c)(a + c)(a+c) 是人認(rèn)為正確的樣本個(gè)數(shù) , 機(jī)器認(rèn)為正確的是 aaa 個(gè)樣本 ;



XI . 準(zhǔn)確率與召回率關(guān)聯(lián)



準(zhǔn)確率 與 召回率 關(guān)系 : 這兩個(gè)指標(biāo)互相矛盾 ;


準(zhǔn)確率 與 召回率 是互相影響的 , 準(zhǔn)確率很高時(shí) , 召回率很低 ;

準(zhǔn)確率 100% 時(shí) , 召回率很低 ; 召回率 100% 時(shí) , 準(zhǔn)確率很低 ;



XII . 準(zhǔn)確率 與 召回率 綜合考慮



1 . 準(zhǔn)確率 與 召回率 綜合考慮 :


F=1α1P+(1+α)1RF = \frac {1} { \alpha \dfrac{1}{P} + (1 + \alpha) \dfrac{1}{R} }F=αP1?+(1+α)R1?1?


將準(zhǔn)確率 與 召回率放在 上述公式中計(jì)算 , PPP 是準(zhǔn)確率 , RRR 是召回率 ;

α\alphaα 是一個(gè)系數(shù) , 通常 α\alphaα 取值 0.50.50.5 ;



2 . α\alphaα 取值 0.50.50.5 時(shí)公式為 : 此時(shí)的度量指標(biāo)叫做 F1F_1F1? 值 , 這個(gè)值經(jīng)常作為 K-NN分類結(jié)果的度量指標(biāo) , 即考慮了準(zhǔn)確率 , 又考慮了召回率 ;


F1=2PRP+RF_1 = \frac{2PR}{P + R}F1?=P+R2PR?

總結(jié)

以上是生活随笔為你收集整理的【数据挖掘】K-NN 分类 ( 简介 | 分类概念 | K-NN 分类实例 | K-NN 分类准确度评估 | K-NN 分类结果评价指标 | 准确率 | 召回率 )的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。