日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 综合教程 >内容正文

综合教程

F1值

發布時間:2024/8/5 综合教程 43 生活家
生活随笔 收集整理的這篇文章主要介紹了 F1值 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

為了能夠評價不同算法的優劣,在Precision和Recall的基礎上提出了F1值的概念,來對Precision和Recall進行整體評價。F1的定義如下: F1值 = 正確率 * 召回率 * 2 / (正確率 + 召回率)

簡介

為了能夠評價不同算法的優劣,在Precision和Recall的基礎上提出了F1值的概念,來對Precision和Recall進行整體評價。F1的定義如下:

F1值 = 正確率 * 召回率 * 2 / (正確率 + 召回率)

F_1={(frac{recall^{-1}+precision^{-1}}{2})}^{-1}=2cdot frac{precision cdot recall}{precision+recall}

正實β的通式為:

F_eta=(1+eta^2)cdot frac{precision cdot recall}{(eta^2 cdot precision)+recall}

類型I和類型II錯誤的公式:

F_eta=frac{(1+eta^2) cdot true positive}{(1+eta^2) cdot true positive +eta^2 cdot false negative +false positive}

另外兩個常用的F度量是 F_ {2}度量,其重量高于精度(通過強調假陰性)和 F_ {0.5}測量,其重量低于精確度(通過減弱假陰性的影響)。

推導出F-度量,以便 F _ { beta}“衡量檢索的有效性,相對于那些將β倍重要性重新調整為精確度的用戶而言”。 它基于Van Rijsbergen的有效性衡量標準

E = 1- (frac{alpha}{p}+frac{1-alpha}{r})

他們的關系是 F _ { beta} = 1-E,這里alpha = frac{1}{(1+eta^2)}。

F1得分也稱為S?rensen-Dice系數或Dice相似系數Dice similarity coefficient (DSC)。

考慮一個二分問題,即將實例分成正類(positive)或負類(negative)。對一個二分問題來說,會出現四種情況。如果一個實例是正類并且也被預測成正類,即為真正類(True positive),如果實例是負類被預測成正類,稱之為假正類(False positive)。相應地,如果實例是負類被預測成負類,稱之為真負類(True negative),正類被預測成負類則為假負類(false negative)。

TP:正確肯定的數目;

FN:漏報,沒有正確找到的匹配的數目;

FP:誤報,給出的匹配是不正確的;

TN:正確拒絕的非匹配對數;

列聯表如下表所示,1代表正類,0代表負類:

算法|事實 預測1 預測0
實際1 True Positive(TP) False Negative(FN)
實際0 False Positive(FP) True Negative(TN)

Precision和Recall指標有時候會出現的矛盾的情況,這樣就需要綜合考慮他們,最常見的方法就是F-Measure(又稱為F-Score)。

傳統的F-measure或平衡F-score(F1得分)是準確率和召回率的調和平均值:

【來源:WIKI;https://en.wikipedia.org/wiki/F1_score】

不妨舉這樣一個例子:

某池塘有1400條鯉魚,300只蝦,300只鱉。現在以捕鯉魚為目的。撒一大網,逮著了700條鯉魚,200只蝦,100只鱉。那么,這些指標分別如下:

正確率 = 700 / (700 + 200 + 100) = 70%

召回率 = 700 / 1400 = 50%

F1值 = 70% * 50% * 2 / (70% + 50%) = 58.3%

不妨看看如果把池子里的所有的鯉魚、蝦和鱉都一網打盡,這些指標又有何變化:

正確率 = 1400 / (1400 + 300 + 300) = 70%

召回率 = 1400 / 1400 = 100%

F1值 = 70% * 100% * 2 / (70% + 100%) = 82.35%

由此可見,正確率是評估捕獲的成果中目標成果所占得比例;召回率,顧名思義,就是從關注領域中,召回目標類別的比例;而F值,則是綜合這二者指標的評估指標,用于綜合反映整體的指標。

當然希望檢索結果Precision越高越好,同時Recall也越高越好,但事實上這兩者在某些情況下有矛盾的。比如極端情況下,我們只搜索出了一個結果,且是準確的,那么Precision就是100%,但是Recall就很低;而如果我們把所有結果都返回,那么比如Recall是100%,但是Precision就會很低。因此在不同的場合中需要自己判斷希望Precision比較高或是Recall比較高。如果是做實驗研究,可以繪制Precision-Recall曲線來幫助分析。

【來源:機器之心;【干貨】機器學習算法常用指標總結】

發展歷史

描述

二分問題有很多指標可以進行評價:ROC ; F1 socorede;Matthews相關系數等。

ROC曲線在第二次世界大戰期間首次用于雷達信號分析,然后才用于信號檢測理論。1941年襲擊珍珠港后,美國軍隊開始進行新的研究,以增加對正確探測到的日本飛機雷達信號的預測。為了這些目的,他們測量了雷達接收機操作員進行這些重要區分的能力,這被稱為接收機操作特性。

在20世紀50年代,ROC曲線被用于心理物理學,以評估人體(有時是非人類動物)對弱信號的檢測。在醫學中,ROC分析已廣泛用于診斷測試的評估。 ROC曲線也廣泛用于流行病學和醫學研究,并經常與循證醫學一起提及。usted于1971年首次描述了它在醫學中用于評估診斷性能的性能。在放射學中,ROC分析是評估新放射學技術的常用技術。在社會科學中,ROC分析通常被稱為ROC準確率,這是一種判斷默認概率模型準確性的常用技術。 ROC曲線廣泛用于實驗室醫學,以評估測試的診斷準確性,選擇測試的最佳截止值并比較多個測試的診斷準確性。

ROC曲線也證明可用于評估機器學習技術。 ROC在機器學習中的首次應用是1989年Spackman的工作中《Signal detection theory: Valuable tools for evaluating inductive learning》,他在比較和評估不同的分類算法時證明了ROC曲線的價值

ROC(receiveroperatingcharacteristic)曲線最初是由電氣工程師和雷達工程師在第二次世界大戰期間開發的,用于探測戰場中的敵方物體,并很快被引入心理學以解釋刺激的感知檢測。 自那時起,ROC分析已用于醫學,放射學,生物測定學,自然災害預測,氣象學,模型性能評估,和其他領域數十年,并越來越多地用于機器學習和數據挖掘研究。

ROC也被稱為相對運行特性曲線,因為它是兩個運行特性(TPR和FPR)的比較,隨著標準的變化。

Matthews相關系數用于機器學習,生物化學家Brian W. Matthews在1975年引入的二元(兩類)分類質量的量度。

F-measure這個名字被認為是在Van Rijsbergen的書中以不同的F函數命名的,當時它被引入MUC-4(Fourth Message Understanding Conference )。

在《The truth of the F-measure》中,Yutaka Sasaki提到:”有一件事仍然沒有解決,那就是為什么F度量被稱為F。幾年前他與David D. Lewis的一次個人交流表明,當F度量被引入MUC-4時,這個名字是偶然選擇的,van Rijsbergen的書中定義為“F測度”,考慮不同的F函數的結果。”

F分數通常用于信息檢索領域,用于測量搜索,文檔分類和查詢分類性能。 早期的作品主要集中在F1得分上,但隨著大型搜索引擎的激增,性能目標發生了變化,更加強調精確度或召回率,這從廣泛的應用中可以看到。

F-score也用于機器學習。然而,請注意,F-度量不考慮真實的負面因素,并且諸如Matthews correlation coefficient,Informedness或Cohen's kappa之類的度量可能更適合評估二元分類器的性能。F-score已經廣泛應用于自然語言處理文獻中,例如命名實體識別和分詞的評估。

雖然F-measure是Recall和Precision的調和平均值,但G-measure是幾何平均值。

主要事件

年份 事件 相關論文/Reference
1975 Brian W. Matthews在1975年引入的二元(兩類)分類質量的量度 Matthews, B. W. (1975). Comparison of the predicted and observed secondary structure of T4 phage lysozyme.Biochimica et Biophysica Acta (BBA)-Protein Structure,405(2), 442-451.
1979 van Rijsbergen的圖書定義為“F測度” Van Rijsbergen, C. J. (1979). Information retrieval. dept. of computer science, university of glasgow.URL: citeseer. ist. psu. edu/vanrijsbergen79information. html,14.
1989 Spackman, K. A.將F度量用于信號測量 Spackman, K. A. (1989). Signal detection theory: Valuable tools for evaluating inductive learning. InProceedings of the sixth international workshop on Machine learning(pp. 160-163).
1992 F度量被引入MUC-4 Chinchor, N. (1992, June). MUC-4 evaluation metrics. InProceedings of the 4th conference on Message understanding(pp. 22-29). Association for Computational Linguistics.
2008 Li, X., Wang, Y. Y., & Acero, A.將度量使用到文本搜索中 Li, X., Wang, Y. Y., & Acero, A. (2008, July). Learning query intent from regularized click graphs. InProceedings of the 31st annual international ACM SIGIR conference on Research and development in information retrieval(pp. 339-346). ACM.

發展分析

瓶頸

Chen 和 Lin (2006) : "Combining SVMs with Various Feature Selection Strategies" 的論文中提出了一個問題:

“這些數據的兩個特征都具有較低的F分數,因為分母(正負集的方差之和)遠大于分子。”

換句話說,F-score 獨立于其他特征揭示了每個特征的辨別力。 針對第一特征計算一個分數,針對第二特征計算另一個分數。 但它并沒有展現兩種功能(互信息)組合的信息。 這是 F-score 的主要弱點。

Contributor: Ruiying Cai

轉載自:機器之心——F1值

總結

以上是生活随笔為你收集整理的F1值的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。