日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

准确率 召回率_机器学习中F值(F-Measure)、准确率(Precision)、召回率(Recall)

發(fā)布時間:2025/3/15 编程问答 32 豆豆
生活随笔 收集整理的這篇文章主要介紹了 准确率 召回率_机器学习中F值(F-Measure)、准确率(Precision)、召回率(Recall) 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

在機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、推薦系統(tǒng)完成建模之后,需要對模型的效果做評價。

業(yè)內(nèi)目前常常采用的評價指標(biāo)有準(zhǔn)確率(Precision)、召回率(Recall)、F值(F-Measure)等,下圖是不同機(jī)器學(xué)習(xí)算法的評價指標(biāo)。下文講對其中某些指標(biāo)做簡要介紹。

本文針對二元分類器!

在介紹指標(biāo)前必須先了解“混淆矩陣”:

True Positive(真正,TP):將正類預(yù)測為正類數(shù)

True Negative(真負(fù),TN):將負(fù)類預(yù)測為負(fù)類數(shù)

False Positive(假正,FP):將負(fù)類預(yù)測為正類數(shù)誤報 (Type I error)

False Negative(假負(fù),FN):將正類預(yù)測為負(fù)類數(shù)→漏報 (Type II error)

注:準(zhǔn)確率是我們最常見的評價指標(biāo),而且很容易理解,就是被分對的樣本數(shù)除以所有的樣本數(shù),通常來說,正確率越高,分類器越好。

準(zhǔn)確率確實(shí)是一個很好很直觀的評價指標(biāo),但是有時候準(zhǔn)確率高并不能代表一個算法就好。比如某個地區(qū)某天地震的預(yù)測,假設(shè)我們有一堆的特征作為地震分類的屬性,類別只有兩個:0:不發(fā)生地震、1:發(fā)生地震。一個不加思考的分類器,對每一個測試用例都將類別劃分為0,那那么它就可能達(dá)到99%的準(zhǔn)確率,但真的地震來臨時,這個分類器毫無察覺,這個分類帶來的損失是巨大的。為什么99%的準(zhǔn)確率的分類器卻不是我們想要的,因為這里數(shù)據(jù)分布不均衡,類別1的數(shù)據(jù)太少,完全錯分類別1依然可以達(dá)到很高的準(zhǔn)確率卻忽視了我們關(guān)注的東西。再舉個例子說明下。在正負(fù)樣本不平衡的情況下,準(zhǔn)確率這個評價指標(biāo)有很大的缺陷。比如在互聯(lián)網(wǎng)廣告里面,點(diǎn)擊的數(shù)量是很少的,一般只有千分之幾,如果用acc,即使全部預(yù)測成負(fù)類(不點(diǎn)擊)acc也有 99% 以上,沒有意義。因此,單純靠準(zhǔn)確率來評價一個算法模型是遠(yuǎn)遠(yuǎn)不夠科學(xué)全面的。

2、錯誤率(Error rate)

錯誤率則與準(zhǔn)確率相反,描述被分類器錯分的比例,

error rate = (FP+FN)/(TP+TN+FP+FN),對某一個實(shí)例來說,分對與分錯是互斥事件,所以accuracy =1 - error rate。

3、靈敏度(sensitive)

sensitive = TP/P,表示的是所有正例中被分對的比例,衡量了分類器對正例的識別能力。

4、特效度(sensitive)

specificity = TN/N,表示的是所有負(fù)例中被分對的比例,衡量了分類器對負(fù)例的識別能力。

5、精確率、精度(Precision)

精確率(precision)定義為:

表示被分為正例的示例中實(shí)際為正例的比例。

6、召回率(recall)

召回率是覆蓋面的度量,度量有多個正例被分為正例,recall=TP/(TP+FN)=TP/P=sensitive,可以看到召回率與靈敏度是一樣的。

7、綜合評價指標(biāo)(F-Measure)

P和R指標(biāo)有時候會出現(xiàn)的矛盾的情況,這樣就需要綜合考慮他們,最常見的方法就是F-Measure(又稱為F-Score)。

F-Measure是Precision和Recall加權(quán)調(diào)和平均:

可知F1綜合了P和R的結(jié)果,當(dāng)F1較高時則能說明試驗方法比較有效。

8、其他評價指標(biāo)

計算速度:分類器訓(xùn)練和預(yù)測需要的時間;

魯棒性:處理缺失值和異常值的能力;

可擴(kuò)展性:處理大數(shù)據(jù)集的能力;

可解釋性:分類器的預(yù)測標(biāo)準(zhǔn)的可理解性,像決策樹產(chǎn)生的規(guī)則就是很容易理解的,而神經(jīng)網(wǎng)絡(luò)的一堆參數(shù)就不好理解,我們只好把它看成一個黑盒子。

下面來看一下ROC和PR曲線(以下內(nèi)容為自己總結(jié)):

1、ROC曲線:

ROC(Receiver Operating Characteristic)曲線是以假正率(FP_rate)和假負(fù)率(TP_rate)為軸的曲線,ROC曲線下面的面積我們叫做AUC,如下圖所示:

(1)曲線與FP_rate軸圍成的面積(記作AUC)越大,說明性能越好,即圖上L2曲線對應(yīng)的性能優(yōu)于曲線L1對應(yīng)的性能。即:曲線越靠近A點(diǎn)(左上方)性能越好,曲線越靠近B點(diǎn)(右下方)曲線性能越差。

(2)A點(diǎn)是最完美的performance點(diǎn),B處是性能最差點(diǎn)。

(3)位于C-D線上的點(diǎn)說明算法性能和random猜測是一樣的–如C、D、E點(diǎn)。位于C-D之上(即曲線位于白色的三角形內(nèi))說明算法性能優(yōu)于隨機(jī)猜測–如G點(diǎn),位于C-D之下(即曲線位于灰色的三角形內(nèi))說明算法性能差于隨機(jī)猜測–如F點(diǎn)。

(4)雖然ROC曲線相比較于Precision和Recall等衡量指標(biāo)更加合理,但是其在高不平衡數(shù)據(jù)條件下的的表現(xiàn)仍然過于理想,不能夠很好的展示實(shí)際情況。

2、PR曲線:

即,PR(Precision-Recall)曲線。

舉個例子(例子來自Paper:Learning from eImbalanced Data):

假設(shè)N_c>>P_c(即Negative的數(shù)量遠(yuǎn)遠(yuǎn)大于Positive的數(shù)量),若FP很大,即有很多N的sample被預(yù)測為P,因為

,因此FP_rate的值仍然很小(如果利用ROC曲線則會判斷其性能很好,但是實(shí)際上其性能并不好),但是如果利用PR,因為Precision綜合考慮了TP和FP的值,因此在極度不平衡的數(shù)據(jù)下(Positive的樣本較少),PR曲線可能比ROC曲線更實(shí)用。

來源網(wǎng)絡(luò),侵權(quán)刪除

總結(jié)

以上是生活随笔為你收集整理的准确率 召回率_机器学习中F值(F-Measure)、准确率(Precision)、召回率(Recall)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。