當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

为何选用F1值（调和平均数）衡量P与R？

發(fā)布時(shí)間：2023/12/14 编程问答 36 豆豆

生活随笔收集整理的這篇文章主要介紹了为何选用F1值（调和平均数）衡量P与R？小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

二分類問(wèn)題的性能度量為何選用 $F_1$ 值？

已知混淆矩陣

prediction positiveprediction negative

actuality positive	True Positive(TP)	False Negative(FN)
actuality negative	False Positive(FP)	True Negative(TN)

其中：Precise（精確率/查準(zhǔn)率）= $TPTP+FP\frac {TP} {TP+FP}$ ，表示所有預(yù)測(cè)為positive的集合中實(shí)際為positive的頻率；
Recall（召回率/查全率）= $TPTP+FN\frac {TP} {TP+FN}$ ，表示所有實(shí)際為positive的集合中預(yù)測(cè)為positive的頻率。

1、“P-R”曲線

對(duì)我們來(lái)說(shuō)， $P$ 和 $R$ 都為1的模型是最完美的，但實(shí)際情況卻并不像我們想的那樣，通過(guò)“ $P$ - $R$ ”曲線，對(duì)模型判斷

圖片來(lái)源：http://shichaoxin.com/2018/12/03/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E5%9F%BA%E7%A1%80-%E7%AC%AC%E4%B8%89%E8%AF%BE-%E6%A8%A1%E5%9E%8B%E6%80%A7%E8%83%BD%E5%BA%A6%E9%87%8F/

為了防止極端小的 $P 和 R$ 值影響我們對(duì)模型的判斷，一般通過(guò)曲線下面積或 $P = R$ 的平衡點(diǎn)作為判別標(biāo)準(zhǔn)。以平衡點(diǎn)判別被認(rèn)為過(guò)于簡(jiǎn)單。

2、 $F_1$ 值（P和R的調(diào)和平均數(shù)）

引如 $F_1$ 值作為二分類問(wèn)題的模型性能度量標(biāo)準(zhǔn)
$F1=2PRP+RF_1=\frac{2PR}{P+R}$
這里 $F_1$ 是基于 $P$ 和 $R$ 的調(diào)和平均數(shù)，即 $F_1$ 的倒數(shù)為 $P$ 和 $R$ 的倒數(shù)之和的二分之一 $1F1=(1P+1R)×12\frac{1}{F_1}=(\frac{1}{P}+\frac{1}{R})\times\frac{1}{2}$
在統(tǒng)計(jì)學(xué)中，調(diào)和平均數(shù)( $F$ )、幾何平均數(shù)( $G$ )、算數(shù)平均數(shù)( $X￣\overline X$ )
它們之間的關(guān)系用公式表示為
$F≤G≤X￣F\le G\le \overline X$
其中， $F=2aba+bF=\frac{2ab}{a+b}$ 、 $G=abG=\sqrt{ab}$ 、 $X￣=a+b2\overline X=\frac{a+b}{2}$ ，當(dāng)且僅當(dāng) $a = b$ 時(shí)上面等式成立

證明如下：

假設(shè)存在 $a,b>0a,b\gt 0$ ，則

$(a+b)2?(2ab)2(a+b)^{2}-(2\sqrt{ab})^{2}$
$a^{2}+b^{2}+2ab-4ab$
$a^{2}+b^{2}-2ab$
$=(a?b)2≥0=(a-b)^{2}\ge 0$ ，當(dāng)且僅當(dāng) $a = b$ 時(shí)等式成立
即 $(a+b)2≥(2ab)2(a+b)^{2}\ge (2\sqrt{ab})^{2}$
已知 $a,b>0a,b\gt 0$ ，則 $a+b≥2aba+b\ge2\sqrt{ab}$

推出 $2aba+b≤abab≤ab≤a+b2\frac{2ab}{a+b}\le\frac{ab}{\sqrt{ab}}\le\sqrt{ab} \le\frac{a+b}{2}$
當(dāng)且僅當(dāng) $a = b$ 時(shí)等式成立

即證。

這三種平均數(shù)各有利弊，但調(diào)和平均數(shù)受極端值影響較大，更適合評(píng)價(jià)不平衡數(shù)據(jù)的分類問(wèn)題。

3、舉例

已知三種模型得到的 $P$ 和 $R$ 值如下，分別計(jì)算三種平均數(shù)

P

R

X￣\overline X

G

F_1

algorithm 1	0.5	0.4	0.45	0.45	0.44
algorithm 2	0.7	0.1	0.4	0.27	0.18
algorithm 3	0.02	1.0	0.51	0.14	0.04

可以看出算法3的 $P$ 值非常小，我們認(rèn)為此模型效果不好，但是利用算數(shù)平均數(shù)和幾何平均數(shù)來(lái)衡量并不能表現(xiàn)出來(lái)，只有 $F_1$ 對(duì)極端值比較重視，能夠感受到這種變化。

參考
[1]統(tǒng)計(jì)學(xué)
[2]機(jī)器學(xué)習(xí)基礎(chǔ)-模型性能度量

總結(jié)

以上是生活随笔為你收集整理的为何选用F1值（调和平均数）衡量P与R？的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

平均数

上一篇：玩游戏显示计算机内存不足怎么办,电脑魔兽
下一篇：超级玛丽制作揭秘8跟踪打印类FILER