准确率 召回率_机器学习中F值(F-Measure)、准确率(Precision)、召回率(Recall)
在機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、推薦系統(tǒng)完成建模之后,需要對模型的效果做評價。
業(yè)內(nèi)目前常常采用的評價指標(biāo)有準(zhǔn)確率(Precision)、召回率(Recall)、F值(F-Measure)等,下圖是不同機(jī)器學(xué)習(xí)算法的評價指標(biāo)。下文講對其中某些指標(biāo)做簡要介紹。
本文針對二元分類器!
在介紹指標(biāo)前必須先了解“混淆矩陣”:
True Positive(真正,TP):將正類預(yù)測為正類數(shù)
True Negative(真負(fù),TN):將負(fù)類預(yù)測為負(fù)類數(shù)
False Positive(假正,FP):將負(fù)類預(yù)測為正類數(shù)誤報 (Type I error)
False Negative(假負(fù),FN):將正類預(yù)測為負(fù)類數(shù)→漏報 (Type II error)
注:準(zhǔn)確率是我們最常見的評價指標(biāo),而且很容易理解,就是被分對的樣本數(shù)除以所有的樣本數(shù),通常來說,正確率越高,分類器越好。
準(zhǔn)確率確實(shí)是一個很好很直觀的評價指標(biāo),但是有時候準(zhǔn)確率高并不能代表一個算法就好。比如某個地區(qū)某天地震的預(yù)測,假設(shè)我們有一堆的特征作為地震分類的屬性,類別只有兩個:0:不發(fā)生地震、1:發(fā)生地震。一個不加思考的分類器,對每一個測試用例都將類別劃分為0,那那么它就可能達(dá)到99%的準(zhǔn)確率,但真的地震來臨時,這個分類器毫無察覺,這個分類帶來的損失是巨大的。為什么99%的準(zhǔn)確率的分類器卻不是我們想要的,因為這里數(shù)據(jù)分布不均衡,類別1的數(shù)據(jù)太少,完全錯分類別1依然可以達(dá)到很高的準(zhǔn)確率卻忽視了我們關(guān)注的東西。再舉個例子說明下。在正負(fù)樣本不平衡的情況下,準(zhǔn)確率這個評價指標(biāo)有很大的缺陷。比如在互聯(lián)網(wǎng)廣告里面,點(diǎn)擊的數(shù)量是很少的,一般只有千分之幾,如果用acc,即使全部預(yù)測成負(fù)類(不點(diǎn)擊)acc也有 99% 以上,沒有意義。因此,單純靠準(zhǔn)確率來評價一個算法模型是遠(yuǎn)遠(yuǎn)不夠科學(xué)全面的。
2、錯誤率(Error rate)
錯誤率則與準(zhǔn)確率相反,描述被分類器錯分的比例,
error rate = (FP+FN)/(TP+TN+FP+FN),對某一個實(shí)例來說,分對與分錯是互斥事件,所以accuracy =1 - error rate。
3、靈敏度(sensitive)
sensitive = TP/P,表示的是所有正例中被分對的比例,衡量了分類器對正例的識別能力。
4、特效度(sensitive)
specificity = TN/N,表示的是所有負(fù)例中被分對的比例,衡量了分類器對負(fù)例的識別能力。
5、精確率、精度(Precision)
精確率(precision)定義為:
表示被分為正例的示例中實(shí)際為正例的比例。
6、召回率(recall)
召回率是覆蓋面的度量,度量有多個正例被分為正例,recall=TP/(TP+FN)=TP/P=sensitive,可以看到召回率與靈敏度是一樣的。
7、綜合評價指標(biāo)(F-Measure)
P和R指標(biāo)有時候會出現(xiàn)的矛盾的情況,這樣就需要綜合考慮他們,最常見的方法就是F-Measure(又稱為F-Score)。
F-Measure是Precision和Recall加權(quán)調(diào)和平均:
可知F1綜合了P和R的結(jié)果,當(dāng)F1較高時則能說明試驗方法比較有效。
8、其他評價指標(biāo)
計算速度:分類器訓(xùn)練和預(yù)測需要的時間;
魯棒性:處理缺失值和異常值的能力;
可擴(kuò)展性:處理大數(shù)據(jù)集的能力;
可解釋性:分類器的預(yù)測標(biāo)準(zhǔn)的可理解性,像決策樹產(chǎn)生的規(guī)則就是很容易理解的,而神經(jīng)網(wǎng)絡(luò)的一堆參數(shù)就不好理解,我們只好把它看成一個黑盒子。
下面來看一下ROC和PR曲線(以下內(nèi)容為自己總結(jié)):
1、ROC曲線:
ROC(Receiver Operating Characteristic)曲線是以假正率(FP_rate)和假負(fù)率(TP_rate)為軸的曲線,ROC曲線下面的面積我們叫做AUC,如下圖所示:
(1)曲線與FP_rate軸圍成的面積(記作AUC)越大,說明性能越好,即圖上L2曲線對應(yīng)的性能優(yōu)于曲線L1對應(yīng)的性能。即:曲線越靠近A點(diǎn)(左上方)性能越好,曲線越靠近B點(diǎn)(右下方)曲線性能越差。
(2)A點(diǎn)是最完美的performance點(diǎn),B處是性能最差點(diǎn)。
(3)位于C-D線上的點(diǎn)說明算法性能和random猜測是一樣的–如C、D、E點(diǎn)。位于C-D之上(即曲線位于白色的三角形內(nèi))說明算法性能優(yōu)于隨機(jī)猜測–如G點(diǎn),位于C-D之下(即曲線位于灰色的三角形內(nèi))說明算法性能差于隨機(jī)猜測–如F點(diǎn)。
(4)雖然ROC曲線相比較于Precision和Recall等衡量指標(biāo)更加合理,但是其在高不平衡數(shù)據(jù)條件下的的表現(xiàn)仍然過于理想,不能夠很好的展示實(shí)際情況。
2、PR曲線:
即,PR(Precision-Recall)曲線。
舉個例子(例子來自Paper:Learning from eImbalanced Data):
假設(shè)N_c>>P_c(即Negative的數(shù)量遠(yuǎn)遠(yuǎn)大于Positive的數(shù)量),若FP很大,即有很多N的sample被預(yù)測為P,因為
,因此FP_rate的值仍然很小(如果利用ROC曲線則會判斷其性能很好,但是實(shí)際上其性能并不好),但是如果利用PR,因為Precision綜合考慮了TP和FP的值,因此在極度不平衡的數(shù)據(jù)下(Positive的樣本較少),PR曲線可能比ROC曲線更實(shí)用。
來源網(wǎng)絡(luò),侵權(quán)刪除
總結(jié)
以上是生活随笔為你收集整理的准确率 召回率_机器学习中F值(F-Measure)、准确率(Precision)、召回率(Recall)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: spring boot 自动跳转登录页面
- 下一篇: oracle 取mac地址,java执行