为何选用F1值(调和平均数)衡量P与R?
二分類問(wèn)題的性能度量為何選用 F1F_1F1? 值?
已知混淆矩陣
| actuality positive | True Positive(TP) | False Negative(FN) |
| actuality negative | False Positive(FP) | True Negative(TN) |
其中:Precise(精確率/查準(zhǔn)率)= TPTP+FP\frac {TP} {TP+FP}TP+FPTP?,表示所有預(yù)測(cè)為positive的集合中實(shí)際為positive的頻率;
Recall(召回率/查全率)= TPTP+FN\frac {TP} {TP+FN}TP+FNTP?,表示所有實(shí)際為positive的集合中預(yù)測(cè)為positive的頻率。
1、“P-R”曲線
對(duì)我們來(lái)說(shuō),PPP 和 RRR 都為1的模型是最完美的,但實(shí)際情況卻并不像我們想的那樣,通過(guò)“ PPP-RRR”曲線,對(duì)模型判斷
圖片來(lái)源:http://shichaoxin.com/2018/12/03/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E5%9F%BA%E7%A1%80-%E7%AC%AC%E4%B8%89%E8%AF%BE-%E6%A8%A1%E5%9E%8B%E6%80%A7%E8%83%BD%E5%BA%A6%E9%87%8F/
為了防止極端小的 P和RP 和 RP和R 值影響我們對(duì)模型的判斷,一般通過(guò)曲線下面積或 P=RP=RP=R 的平衡點(diǎn)作為判別標(biāo)準(zhǔn)。以平衡點(diǎn)判別被認(rèn)為過(guò)于簡(jiǎn)單。
2、F1F_1F1?值(P和R的調(diào)和平均數(shù))
引如F1F_1F1?值作為二分類問(wèn)題的模型性能度量標(biāo)準(zhǔn)
F1=2PRP+RF_1=\frac{2PR}{P+R} F1?=P+R2PR?
這里F1F_1F1?是基于 PPP 和 RRR 的調(diào)和平均數(shù),即 F1F_1F1? 的倒數(shù)為 PPP 和 RRR 的倒數(shù)之和的二分之一1F1=(1P+1R)×12\frac{1}{F_1}=(\frac{1}{P}+\frac{1}{R})\times\frac{1}{2} F1?1?=(P1?+R1?)×21?
在統(tǒng)計(jì)學(xué)中,調(diào)和平均數(shù)(FFF)、幾何平均數(shù)(GGG)、算數(shù)平均數(shù)(X ̄\overline XX)
它們之間的關(guān)系用公式表示為
F≤G≤X ̄F\le G\le \overline X F≤G≤X
其中,F=2aba+bF=\frac{2ab}{a+b}F=a+b2ab?、G=abG=\sqrt{ab}G=ab?、X ̄=a+b2\overline X=\frac{a+b}{2}X=2a+b?,當(dāng)且僅當(dāng) a=ba=ba=b 時(shí)上面等式成立
證明如下:
假設(shè)存在 a,b>0a,b\gt 0a,b>0,則
(a+b)2?(2ab)2(a+b)^{2}-(2\sqrt{ab})^{2}(a+b)2?(2ab?)2
=a2+b2+2ab?4ab=a^{2}+b^{2}+2ab-4ab=a2+b2+2ab?4ab
=a2+b2?2ab=a^{2}+b^{2}-2ab=a2+b2?2ab
=(a?b)2≥0=(a-b)^{2}\ge 0=(a?b)2≥0,當(dāng)且僅當(dāng) a=ba=ba=b 時(shí)等式成立
即 (a+b)2≥(2ab)2(a+b)^{2}\ge (2\sqrt{ab})^{2}(a+b)2≥(2ab?)2
已知 a,b>0a,b\gt 0a,b>0,則a+b≥2aba+b\ge2\sqrt{ab}a+b≥2ab?
推出 2aba+b≤abab≤ab≤a+b2\frac{2ab}{a+b}\le\frac{ab}{\sqrt{ab}}\le\sqrt{ab} \le\frac{a+b}{2}a+b2ab?≤ab?ab?≤ab?≤2a+b?
當(dāng)且僅當(dāng) a=ba=ba=b 時(shí)等式成立
即證。
這三種平均數(shù)各有利弊,但調(diào)和平均數(shù)受極端值影響較大,更適合評(píng)價(jià)不平衡數(shù)據(jù)的分類問(wèn)題。
3、舉例
已知三種模型得到的 PPP 和 RRR 值如下,分別計(jì)算三種平均數(shù)
| algorithm 1 | 0.5 | 0.4 | 0.45 | 0.45 | 0.44 |
| algorithm 2 | 0.7 | 0.1 | 0.4 | 0.27 | 0.18 |
| algorithm 3 | 0.02 | 1.0 | 0.51 | 0.14 | 0.04 |
可以看出算法3的 PPP 值非常小,我們認(rèn)為此模型效果不好,但是利用算數(shù)平均數(shù)和幾何平均數(shù)來(lái)衡量并不能表現(xiàn)出來(lái),只有 F1F_1F1? 對(duì)極端值比較重視,能夠感受到這種變化。
參考
[1]統(tǒng)計(jì)學(xué)
[2]機(jī)器學(xué)習(xí)基礎(chǔ)-模型性能度量
總結(jié)
以上是生活随笔為你收集整理的为何选用F1值(调和平均数)衡量P与R?的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 玩游戏显示计算机内存不足怎么办,电脑魔兽
- 下一篇: 超级玛丽制作揭秘8跟踪打印 类FILER