机器学习()PR曲线绘制
目錄
P-R 曲線繪制
Ground Truth
P-R 曲線繪制
Precision-查準(zhǔn)率-預(yù)測出來的正例中正確的比例---找得對-(查準(zhǔn)率高-寧缺毋濫
Recall-查全率-衡量正例被預(yù)測出來的比例---找得全-(查全率高-寧可錯殺一百不能放過一個
? ? 在機器學(xué)習(xí)中分類器往往輸出的不是類別標(biāo)號,而是屬于某個類別的概率值,根據(jù)分類器的預(yù)測結(jié)果從大到小對樣例進行排序,逐個把樣例加入正例進行預(yù)測,算出此時的P、R值。
?
如下圖:?
Inst#是樣本序號,圖中有20個樣本,真實情況正例反例各有10個。
Class是ground truth(ground truth是什么?見文末!) 標(biāo)簽,p是positive樣本(正例),n當(dāng)然就是negative(負例)
score是我的分類器對于該樣本屬于正例的可能性的打分。因為一般模型輸出的不是0,1的標(biāo)注,而是小數(shù),相當(dāng)于置信度。
?
然后設(shè)置一個從高到低的閾值y,大于等于閾值y的被我正式標(biāo)注為正例,小于閾值y的被我正式標(biāo)注為負例。
顯然,我設(shè)置n個閾值,我就能得到n種標(biāo)注結(jié)果,評判我的模型好不好使,也就可能得到n個PR值對用來畫PR曲線。
?
?
先用分數(shù)(score):0.9作為閾值(大于等于1為正例,小于1為反例),此時TP=1,FP=0,FN=9,故P=1,R=0.1。?
用0.8作為閾值,P=1,R=0.2。?
用0.7作為閾值,P=0.67,R=0.2。?
用0.6作為閾值,P=0.75,R=0.3。?
以此類推。。。?
最后得到一系列P、R值序列,就畫出P-R曲線(示意圖,不對應(yīng)上面數(shù)據(jù)):?
?
Ground Truth
在看英文文獻的時候,經(jīng)常會看到Ground Truth這個詞匯,翻譯的意思是地面實況,放到機器學(xué)習(xí)里面,再抽象點可以把它理解為真值、真實的有效值或者是標(biāo)準(zhǔn)的答案。
維基百科對Ground Truth在機器學(xué)習(xí)領(lǐng)域的解釋是:
在機器學(xué)習(xí)中,“ground truth”一詞指的是訓(xùn)練集對監(jiān)督學(xué)習(xí)技術(shù)的分類的準(zhǔn)確性。這在統(tǒng)計模型中被用來證明或否定研究假設(shè)。“ground truth”這個術(shù)語指的是為這個測試收集適當(dāng)?shù)哪繕?biāo)(可證明的)數(shù)據(jù)的過程。
?
今天在看《Outlier Analysis》時,有句話: However, it is generally much harder to reduce bias in outlier ensembles because of the absence of ground truth.
放到對異常點的檢測方面來理解這個ground truth就好理解了。在對異常點進行檢測的時候,通過一些ensemble methods可以在一定程度上提高準(zhǔn)確性,從而減少bias,但是由于對于異常點的定義本身就是一個問題,所以在對這些數(shù)據(jù)進行l(wèi)abel的過程中,保證labeled data是正確的異常點也是個問題。
再舉個例子,在圖像識別中,一張圖片是貓還是狗這個沒有什么爭議性,但是如果在時間序列中讓你指出什么樣的數(shù)據(jù)是 normal,什么樣的數(shù)據(jù)是 abnormal,100個人可能會有100種回答,因為 normal 和 abnormal 之間沒有什么明確的界限,所以在研究時間序列中的 outlier analysis 時,Ground Truth 也是一個不可避免的問題。
————————————————
版權(quán)聲明:本文為CSDN博主「敲代碼的quant」的原創(chuàng)文章,遵循 CC 4.0 BY-SA 版權(quán)協(xié)議,轉(zhuǎn)載請附上原文出處鏈接及本聲明。
原文鏈接:https://blog.csdn.net/FrankieHello/article/details/80486167
?
P-R曲線
原文鏈接:https://blog.csdn.net/teminusign/article/details/51982877
原文鏈接:https://blog.csdn.net/u013249853/article/details/96132766
總結(jié)
以上是生活随笔為你收集整理的机器学习()PR曲线绘制的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 深信服上网行为管理开启snmp_深信服上
- 下一篇: Cell Reports : 人脑中的湍