當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

准确率召回率_机器学习中F值(F-Measure)、准确率(Precision)、召回率(Recall)

發布時間：2025/3/15 编程问答 48 豆豆

生活随笔收集整理的這篇文章主要介紹了准确率召回率_机器学习中F值(F-Measure)、准确率(Precision)、召回率(Recall) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

在機器學習、數據挖掘、推薦系統完成建模之后，需要對模型的效果做評價。

業內目前常常采用的評價指標有準確率(Precision)、召回率(Recall)、F值(F-Measure)等，下圖是不同機器學習算法的評價指標。下文講對其中某些指標做簡要介紹。

本文針對二元分類器！

在介紹指標前必須先了解“混淆矩陣”：

True Positive(真正，TP)：將正類預測為正類數

True Negative(真負，TN)：將負類預測為負類數

False Positive(假正，FP)：將負類預測為正類數誤報 (Type I error)

False Negative(假負，FN)：將正類預測為負類數→漏報 (Type II error)

注：準確率是我們最常見的評價指標，而且很容易理解，就是被分對的樣本數除以所有的樣本數，通常來說，正確率越高，分類器越好。

準確率確實是一個很好很直觀的評價指標，但是有時候準確率高并不能代表一個算法就好。比如某個地區某天地震的預測，假設我們有一堆的特征作為地震分類的屬性，類別只有兩個：0：不發生地震、1：發生地震。一個不加思考的分類器，對每一個測試用例都將類別劃分為0，那那么它就可能達到99%的準確率，但真的地震來臨時，這個分類器毫無察覺，這個分類帶來的損失是巨大的。為什么99%的準確率的分類器卻不是我們想要的，因為這里數據分布不均衡，類別1的數據太少，完全錯分類別1依然可以達到很高的準確率卻忽視了我們關注的東西。再舉個例子說明下。在正負樣本不平衡的情況下，準確率這個評價指標有很大的缺陷。比如在互聯網廣告里面，點擊的數量是很少的，一般只有千分之幾，如果用acc，即使全部預測成負類(不點擊)acc也有 99% 以上，沒有意義。因此，單純靠準確率來評價一個算法模型是遠遠不夠科學全面的。

2、錯誤率(Error rate)

錯誤率則與準確率相反，描述被分類器錯分的比例，

error rate = (FP+FN)/(TP+TN+FP+FN)，對某一個實例來說，分對與分錯是互斥事件，所以accuracy =1 - error rate。

3、靈敏度(sensitive)

sensitive = TP/P，表示的是所有正例中被分對的比例，衡量了分類器對正例的識別能力。

4、特效度(sensitive)

specificity = TN/N，表示的是所有負例中被分對的比例，衡量了分類器對負例的識別能力。

5、精確率、精度(Precision)

精確率(precision)定義為：

表示被分為正例的示例中實際為正例的比例。

6、召回率(recall)

召回率是覆蓋面的度量，度量有多個正例被分為正例，recall=TP/(TP+FN)=TP/P=sensitive，可以看到召回率與靈敏度是一樣的。

7、綜合評價指標(F-Measure)

P和R指標有時候會出現的矛盾的情況，這樣就需要綜合考慮他們，最常見的方法就是F-Measure(又稱為F-Score)。

F-Measure是Precision和Recall加權調和平均：

可知F1綜合了P和R的結果，當F1較高時則能說明試驗方法比較有效。

8、其他評價指標

計算速度：分類器訓練和預測需要的時間；

魯棒性：處理缺失值和異常值的能力；

可擴展性：處理大數據集的能力；

可解釋性：分類器的預測標準的可理解性，像決策樹產生的規則就是很容易理解的，而神經網絡的一堆參數就不好理解，我們只好把它看成一個黑盒子。

下面來看一下ROC和PR曲線(以下內容為自己總結)：

1、ROC曲線：

ROC(Receiver Operating Characteristic)曲線是以假正率(FP_rate)和假負率(TP_rate)為軸的曲線，ROC曲線下面的面積我們叫做AUC，如下圖所示：

(1)曲線與FP_rate軸圍成的面積(記作AUC)越大，說明性能越好，即圖上L2曲線對應的性能優于曲線L1對應的性能。即：曲線越靠近A點(左上方)性能越好，曲線越靠近B點(右下方)曲線性能越差。

(2)A點是最完美的performance點，B處是性能最差點。

(3)位于C-D線上的點說明算法性能和random猜測是一樣的–如C、D、E點。位于C-D之上(即曲線位于白色的三角形內)說明算法性能優于隨機猜測–如G點，位于C-D之下(即曲線位于灰色的三角形內)說明算法性能差于隨機猜測–如F點。

(4)雖然ROC曲線相比較于Precision和Recall等衡量指標更加合理，但是其在高不平衡數據條件下的的表現仍然過于理想，不能夠很好的展示實際情況。

2、PR曲線：

即，PR(Precision-Recall)曲線。

舉個例子(例子來自Paper：Learning from eImbalanced Data)：

假設N_c>>P_c(即Negative的數量遠遠大于Positive的數量)，若FP很大，即有很多N的sample被預測為P，因為

，因此FP_rate的值仍然很小(如果利用ROC曲線則會判斷其性能很好，但是實際上其性能并不好)，但是如果利用PR，因為Precision綜合考慮了TP和FP的值，因此在極度不平衡的數據下(Positive的樣本較少)，PR曲線可能比ROC曲線更實用。

來源網絡，侵權刪除

總結

以上是生活随笔為你收集整理的准确率召回率_机器学习中F值(F-Measure)、准确率(Precision)、召回率(Recall)的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： spring boot 自动跳转登录页面
下一篇： oracle 取mac地址,java执行

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

准确率 召回率_机器学习中F值(F-Measure)、准确率(Precision)、召回率(Recall)

總結

准确率召回率_机器学习中F值(F-Measure)、准确率(Precision)、召回率(Recall)