机器学习——模型测试与评估方法与指标
評(píng)估模型的方法與指標(biāo)
目錄
評(píng)估模型的方法與指標(biāo)
1.P-R曲線
2.ROC曲線
3.mAP
4.IOU
1.P-R曲線
查準(zhǔn)率(precision)-------P-R曲線的縱坐標(biāo)
查全率,召回率(recall)------------P-R曲線的橫坐標(biāo)
對(duì)于二分類問(wèn)題,可以將樣例根據(jù)其真實(shí)類別和學(xué)習(xí)器預(yù)測(cè)類別的組合劃分四種情況:
真正例(true positive)----TP
假正例(false positive)---FP
真反例(true negative)----TN
假反例(false negative)---FN
| 真實(shí)情況 | 預(yù)測(cè)結(jié)果 | 預(yù)測(cè)結(jié)果 |
|---|---|---|
| ? | 正例 | 反例 |
| 正例 | TP(正確的標(biāo)記為正)實(shí)際是人臉,你把它標(biāo)注為人臉,是對(duì)的 | FN(錯(cuò)誤的標(biāo)記為負(fù))實(shí)際是人臉,但你標(biāo)注他不是人臉,所以你標(biāo)錯(cuò)了,你錯(cuò)誤的把他標(biāo)注成不是人臉 |
| 反例 | FP(錯(cuò)誤的標(biāo)記為正)實(shí)際不是人臉,但是你把它標(biāo)為人臉,所以標(biāo)注錯(cuò)了,你錯(cuò)誤的把不是的標(biāo)為是了 | TN(正確的標(biāo)記為負(fù))實(shí)際不是人臉,然后你正確的把它標(biāo)注為不是人臉,標(biāo)對(duì)了 |
查準(zhǔn)率關(guān)心的是”預(yù)測(cè)出正例的正確率”即從正反例子中挑選出正例的問(wèn)題.
查全率關(guān)心的是”預(yù)測(cè)出正例的保證性”即從正例中挑選出正例的問(wèn)題。
?
準(zhǔn)確率P是評(píng)估你預(yù)測(cè)的準(zhǔn)不準(zhǔn)(看預(yù)測(cè)列),而召回率R是看你找的全不全(看實(shí)際行).
查準(zhǔn)率和查全率是相互矛盾的,一般來(lái)說(shuō),當(dāng)查準(zhǔn)率高時(shí),查全率往往會(huì)偏低,而查全率高時(shí),查準(zhǔn)率會(huì)偏低,魚(yú)與熊掌的關(guān)系
在進(jìn)行比較時(shí),若一個(gè)學(xué)習(xí)器的P-R曲線被另一個(gè)完全包住,則可斷言后者優(yōu)于前者,如圖,A優(yōu)于C;如果兩個(gè)學(xué)習(xí)器的P-R曲線發(fā)生了交叉,如A和B,則難以一般性的斷言兩者孰優(yōu)孰劣,只能在具體的P或R條件下進(jìn)行比較。然而,在很多情形下,人們往往仍希望把學(xué)習(xí)器A和B比個(gè)高低,這時(shí)一個(gè)比較合理的判斷依據(jù)是比較曲線下面積的大小,它在一定程度上表征了學(xué)習(xí)器在P和R上取得相對(duì)“雙高”的比例,但這個(gè)值不太容易估算,因此人們?cè)O(shè)計(jì)了一些綜合考慮P和R的度量。平衡點(diǎn)(brerak-even point,BEP)就是這樣一個(gè)度量,是P=R時(shí)的取值,基于BEP,可判斷A優(yōu)于B。
2.ROC曲線
ROC曲線(受試者工作特征曲線--receiver operating characteristic curve)
橫坐標(biāo)--假正例率(True Positive Rate)----TPR
縱坐標(biāo)--真正例率(False Positive Rate)---FPR
AUC (Area Under ROC Curve) 被定義為ROC曲線下的面積,顯然這個(gè)面積的數(shù)值不會(huì)大于1。又由于ROC曲線一般都處于y=x這條直線的上方,所以AUC的取值范圍一般在0.5和1之間。
從AUC判斷分類器(預(yù)測(cè)模型)優(yōu)劣的標(biāo)準(zhǔn)(AUC越大,分類效果就越好):
-
AUC = 1,是完美分類器,采用這個(gè)預(yù)測(cè)模型時(shí),存在至少一個(gè)閾值能得出完美預(yù)測(cè)。絕大多數(shù)預(yù)測(cè)的場(chǎng)合,不存在完美分類器。
-
0.5 < AUC < 1,優(yōu)于隨機(jī)猜測(cè)。這個(gè)分類器(模型)妥善設(shè)定閾值的話,能有預(yù)測(cè)價(jià)值。
-
AUC = 0.5,跟隨機(jī)猜測(cè)一樣,就像扔硬幣一樣,模型沒(méi)有預(yù)測(cè)價(jià)值。
-
AUC < 0.5,比隨機(jī)猜測(cè)還差;但只要總是反預(yù)測(cè)而行,就優(yōu)于隨機(jī)猜測(cè)。
3.mAP
mAP:mean Averge Precision,作為object detection中衡量檢測(cè)精度的指標(biāo)。
在目標(biāo)檢測(cè)中,每一類都可以根據(jù)recall和precision繪制P-R曲線,AP就是該曲線下的面積。而mAP就是所有類AP的平均值。
-
計(jì)算AP值,若use_07_metric=true,則用11個(gè)點(diǎn)采樣的方法,將rec從0-1分成11個(gè)點(diǎn),這些點(diǎn)prec值求平均近似表示AP
-
若use_07_metric=false,則采用更為精確的逐點(diǎn)積分方法
4.IOU
重疊度IOU--------Intersection over Union
物體檢測(cè)需要定位出物體的bounding box,對(duì)于bounding box的定位精度,有一個(gè)很重要的概念: 因?yàn)槲覀兯惴ú豢赡馨俜职俑斯?biāo)注的數(shù)據(jù)完全匹配,因此就存在一個(gè)定位精度評(píng)價(jià)公式:IOU。 它定義了兩個(gè)bounding box的重疊度,
一般來(lái)說(shuō),這個(gè)score > 0.5 就可以被認(rèn)為一個(gè)不錯(cuò)的結(jié)果了。
?
總結(jié)
以上是生活随笔為你收集整理的机器学习——模型测试与评估方法与指标的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 2018目标检测最新算法+经典目标检测算
- 下一篇: LeetCode刷题记录1——717.