當(dāng)前位置：首頁(yè) > 人文社科 > 生活经验 >内容正文

生活经验

机器学习——模型测试与评估方法与指标

發(fā)布時(shí)間：2023/11/27 生活经验 33 豆豆

生活随笔收集整理的這篇文章主要介紹了机器学习——模型测试与评估方法与指标小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

評(píng)估模型的方法與指標(biāo)

1.P-R曲線

2.ROC曲線

3.mAP

4.IOU

1.P-R曲線

查準(zhǔn)率(precision)-------P-R曲線的縱坐標(biāo)

查全率,召回率(recall)------------P-R曲線的橫坐標(biāo)

對(duì)于二分類問(wèn)題，可以將樣例根據(jù)其真實(shí)類別和學(xué)習(xí)器預(yù)測(cè)類別的組合劃分四種情況：

真正例(true positive)----TP
假正例(false positive)---FP
真反例(true negative)----TN
假反例(false negative)---FN

真實(shí)情況	預(yù)測(cè)結(jié)果	預(yù)測(cè)結(jié)果
?	正例	反例
正例	TP(正確的標(biāo)記為正)實(shí)際是人臉，你把它標(biāo)注為人臉，是對(duì)的	FN(錯(cuò)誤的標(biāo)記為負(fù))實(shí)際是人臉，但你標(biāo)注他不是人臉，所以你標(biāo)錯(cuò)了，你錯(cuò)誤的把他標(biāo)注成不是人臉
反例	FP(錯(cuò)誤的標(biāo)記為正)實(shí)際不是人臉，但是你把它標(biāo)為人臉，所以標(biāo)注錯(cuò)了，你錯(cuò)誤的把不是的標(biāo)為是了	TN(正確的標(biāo)記為負(fù))實(shí)際不是人臉，然后你正確的把它標(biāo)注為不是人臉，標(biāo)對(duì)了

查準(zhǔn)率關(guān)心的是”預(yù)測(cè)出正例的正確率”即從正反例子中挑選出正例的問(wèn)題.
查全率關(guān)心的是”預(yù)測(cè)出正例的保證性”即從正例中挑選出正例的問(wèn)題。
?
準(zhǔn)確率P是評(píng)估你預(yù)測(cè)的準(zhǔn)不準(zhǔn)（看預(yù)測(cè)列），而召回率R是看你找的全不全(看實(shí)際行)．
查準(zhǔn)率和查全率是相互矛盾的，一般來(lái)說(shuō)，當(dāng)查準(zhǔn)率高時(shí)，查全率往往會(huì)偏低，而查全率高時(shí)，查準(zhǔn)率會(huì)偏低,魚(yú)與熊掌的關(guān)系

在進(jìn)行比較時(shí)，若一個(gè)學(xué)習(xí)器的P-R曲線被另一個(gè)完全包住，則可斷言后者優(yōu)于前者，如圖，A優(yōu)于C；如果兩個(gè)學(xué)習(xí)器的P-R曲線發(fā)生了交叉，如A和B，則難以一般性的斷言兩者孰優(yōu)孰劣，只能在具體的P或R條件下進(jìn)行比較。然而，在很多情形下，人們往往仍希望把學(xué)習(xí)器A和B比個(gè)高低，這時(shí)一個(gè)比較合理的判斷依據(jù)是比較曲線下面積的大小，它在一定程度上表征了學(xué)習(xí)器在P和R上取得相對(duì)“雙高”的比例，但這個(gè)值不太容易估算，因此人們?cè)O(shè)計(jì)了一些綜合考慮P和R的度量。平衡點(diǎn)（brerak-even point,BEP）就是這樣一個(gè)度量，是P=R時(shí)的取值，基于BEP，可判斷A優(yōu)于B。

2.ROC曲線

ROC曲線(受試者工作特征曲線--receiver operating characteristic curve)

橫坐標(biāo)－－假正例率(True Positive Rate)----TPR

縱坐標(biāo)－－真正例率(False Positive Rate)---FPR

AUC (Area Under ROC Curve) 被定義為ROC曲線下的面積，顯然這個(gè)面積的數(shù)值不會(huì)大于1。又由于ROC曲線一般都處于y=x這條直線的上方，所以AUC的取值范圍一般在0.5和1之間。

從AUC判斷分類器（預(yù)測(cè)模型）優(yōu)劣的標(biāo)準(zhǔn)(AUC越大，分類效果就越好)：

AUC = 1，是完美分類器，采用這個(gè)預(yù)測(cè)模型時(shí)，存在至少一個(gè)閾值能得出完美預(yù)測(cè)。絕大多數(shù)預(yù)測(cè)的場(chǎng)合，不存在完美分類器。
0.5 < AUC < 1，優(yōu)于隨機(jī)猜測(cè)。這個(gè)分類器（模型）妥善設(shè)定閾值的話，能有預(yù)測(cè)價(jià)值。
AUC = 0.5，跟隨機(jī)猜測(cè)一樣，就像扔硬幣一樣，模型沒(méi)有預(yù)測(cè)價(jià)值。
AUC < 0.5，比隨機(jī)猜測(cè)還差；但只要總是反預(yù)測(cè)而行，就優(yōu)于隨機(jī)猜測(cè)。

3.mAP

mAP：mean Averge Precision，作為object detection中衡量檢測(cè)精度的指標(biāo)。

在目標(biāo)檢測(cè)中，每一類都可以根據(jù)recall和precision繪制P-R曲線，AP就是該曲線下的面積。而mAP就是所有類AP的平均值。

計(jì)算AP值，若use_07_metric=true,則用11個(gè)點(diǎn)采樣的方法，將rec從0-1分成11個(gè)點(diǎn)，這些點(diǎn)prec值求平均近似表示AP
若use_07_metric=false,則采用更為精確的逐點(diǎn)積分方法

4.IOU

重疊度IOU--------Intersection over Union

物體檢測(cè)需要定位出物體的bounding box，對(duì)于bounding box的定位精度，有一個(gè)很重要的概念：因?yàn)槲覀兯惴ú豢赡馨俜职俑斯?biāo)注的數(shù)據(jù)完全匹配，因此就存在一個(gè)定位精度評(píng)價(jià)公式：IOU。它定義了兩個(gè)bounding box的重疊度，

一般來(lái)說(shuō)，這個(gè)score ＞ 0.5 就可以被認(rèn)為一個(gè)不錯(cuò)的結(jié)果了。

總結(jié)

以上是生活随笔為你收集整理的机器学习——模型测试与评估方法与指标的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： 2018目标检测最新算法+经典目标检测算
下一篇： LeetCode刷题记录1——717.