PR曲线详解(只要你用过PR)
PR曲線概念
PR曲線中的P代表的是precision(精準率),R代表的是recall(召回率),其代表的是精準率與召回率的關系,一般情況下,將recall設置為橫坐標,precision設置為縱坐標。
precision(精準率)和recall(召回率)
上述中介少了PR曲線的實質代表為precision(精準率)和recall(召回率),但是這二者是什么呢?下面咱們進行相關的講述。
首先,我們了解一下混淆矩陣,如下表。
其中,把正例正確地分類為正例,表示為TP(true positive),把正例錯誤地分類為負例,表示為FN(false negative)。把負例正確地分類為負例,表示為TN(true negative), 把負例錯誤地分類為正例,表示為FP(false positive)。
從混淆矩陣可以得出精準率與召回率:
precision = TP/(TP + FP)
recall = TP/(TP +FN)
PR曲線功能說明
一條PR曲線要對應一個閾值(統計學的概率)。通過選擇合適的閾值(比如K%)對樣本進行合理的劃分,概率大于K%的樣本為正例,小于K%的樣本為負例,樣本分類完成后計算相應的精準率和召回率,最后我們會得到對應關系,如下圖所示。
在眾多學習器對數據進行學習后,如果其中一個學習器的PR曲線A完全包住另一個學習器B的PR曲線,則可斷言A的性能優于B。但是A和B發生交叉,那性能該如何判斷呢?我們可以根據曲線下方的面積大小來進行比較,但更常用的是平衡點F1。平衡點(BEP)是P=R時的取值(斜率為1),F1值越大,我們可以認為該學習器的性能較好。F1的計算如下所示:
F1 = 2 * P * R /( P + R )
總結
以上是生活随笔為你收集整理的PR曲线详解(只要你用过PR)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: SAP ABAP实用技巧介绍系列之如何生
- 下一篇: 《风色幻想XX》赚钱的好方法