日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【机器学习基础】机器学习模型的度量选择(下)

發(fā)布時間:2025/3/8 编程问答 12 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【机器学习基础】机器学习模型的度量选择(下) 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

作者 | Alvira Swalin?

編譯 | VK?

來源 | Medium

本系列的第二部分主要討論分類度量

在第一篇中,我們討論了回歸中使用的一些重要指標(biāo)、它們的優(yōu)缺點(diǎn)以及用例。這一部分將集中討論分類中常用的度量,以及在具體的背景中應(yīng)該選擇哪種。

定義

在討論每種方法的優(yōu)缺點(diǎn)之前,我們先了解一下分類問題中使用的基本術(shù)語。如果你已經(jīng)熟悉這個術(shù)語,可以跳過這個部分。

  • 「召回率或TPR(真正例率)」:所有正例中正確識別為正例的項(xiàng)目數(shù)=TP/(TP+FN)

  • 「特異性或TNR(真反例率)」:所有反例中正確識別為反例的項(xiàng)目數(shù)=TN/(TN+FP)

  • 「精確度」:在確定為正例的項(xiàng)目中,正確確定為正例的項(xiàng)目數(shù)=TP/(TP+FP)

  • 「假正例率或I型錯誤」:所有反例中被錯誤識別為正例的項(xiàng)目數(shù)=FP/(FP+TN)

  • 「假反例率或II型錯誤」:所有正例中被錯誤識別為反例的項(xiàng)目數(shù)=FN/(FN+TP)

  • 「混淆矩陣」

  • 「F1度量」:精確性和召回率的調(diào)和平均值。F1 = 2*Precision*Recall/(Precision + Recall)

  • 「準(zhǔn)確率」:正確分類的項(xiàng)目總數(shù)百分比 ?(TP+TN)/(N+P)

ROC-AUC評分

ROC-AUC得分的概率解釋是,如果隨機(jī)選擇一個正案例和一個負(fù)案例,根據(jù)分類器,正案例高于負(fù)案例的概率由AUC給出。

從數(shù)學(xué)上講,它是由靈敏度曲線(TPR)下的面積計(jì)算的。

FPR(1-特異性)。理想情況下,我們希望具有高靈敏度和高特異度,但在實(shí)際情況下,敏感性和特異度之間始終存在權(quán)衡。

ROC-AUC的一些重要特征是

  • 該值的范圍可以是0到1。然而,平衡數(shù)據(jù)的隨機(jī)分類器的auc得分是0.5

  • ROC-AUC評分與分類閾值集無關(guān)。F1分?jǐn)?shù)不一樣,在概率輸出的情況下,F1分?jǐn)?shù)需要一個閾值確定

Log損失

對數(shù)損失是一種精度測量,它結(jié)合了以下二進(jìn)制類表達(dá)式給出的概率置信度的概念:

它考慮了你的預(yù)測的不確定性,基于它與實(shí)際標(biāo)簽的差異。在最壞的情況下,假設(shè)你預(yù)測的概率都是0.5。因此,對數(shù)損失將變成-log(0.5)=0.69。

因此,我們可以說,考慮到實(shí)際的概率,任何高于0.6的都是一個非常糟糕的模型。

案例1

Log損失與ROC和F1度量的比較

以案例1為例,模型1在預(yù)測絕對概率方面做得更好,而模型2預(yù)測的概率值是有序遞增的。讓我們用實(shí)際分?jǐn)?shù)來驗(yàn)證一下:

如果考慮到log丟失,模型2給出的log損失最高,因?yàn)榻^對概率與實(shí)際標(biāo)簽有很大差異。但這與F1和AUC評分完全不一致,根據(jù)該評分模型2具有100%的精確率。

此外,你可以注意,對于不同的閾值,F1得分會變化,在默認(rèn)閾值為0.5時,F1更喜歡模型1而不是模型2。

從上述示例得出的推論:

  • 如果你關(guān)心絕對概率差,就用對數(shù)損失

  • 如果你只關(guān)心某一個類的預(yù)測,而不想調(diào)整閾值,那么使用AUC score

  • F1分?jǐn)?shù)對閾值敏感,在比較模型之前,你需要先調(diào)整它

案例2

他們?nèi)绾翁幚眍悇e不平衡的情況?

這兩個模型的唯一不同之處是它們對觀測13和14的預(yù)測。模型1在對觀測值13(標(biāo)簽0)進(jìn)行分類方面做得更好,而模型2在對觀測值14(標(biāo)簽1)進(jìn)行分類方面做得更好。

我們的目標(biāo)是看哪個模型能更好地捕捉到不平衡類分類的差異(標(biāo)簽1數(shù)據(jù)量少)。在欺詐檢測/垃圾郵件檢測這樣的問題中,正例的標(biāo)簽總是很少,我們希望我們的模型能夠正確地預(yù)測正例,因此我們有時會更喜歡那些能夠?qū)@些正例進(jìn)行正確分類的模型

?

顯然,在這種情況下,log損失是失敗的,因?yàn)楦鶕?jù)log丟失,兩個模型的性能是相同的。這是因?yàn)閘og損失函數(shù)是對稱的,并且不區(qū)分類。

?

F1度量和ROC-AUC評分在選擇模型2方面均優(yōu)于模型1。所以我們可以使用這兩種方法來處理類不平衡。但我們必須進(jìn)一步挖掘,看看他們對待類別不平衡的方式有哪些不同。

在第一個例子中,我們看到很少有正標(biāo)簽。在第二個例子中,幾乎沒有負(fù)標(biāo)簽。讓我們看看F1度量和ROC-AUC如何區(qū)分這兩種情況。

ROC-AUC評分處理少數(shù)負(fù)標(biāo)簽的情況與處理少數(shù)正標(biāo)簽的情況相同。這里需要注意的一件有趣的事情是,F1的分?jǐn)?shù)在模型3和模型4中幾乎是一樣的,因?yàn)檎龢?biāo)簽的數(shù)量很大,它只關(guān)心正標(biāo)簽的錯誤分類。

從以上例子得出的推論:

  • 如果你關(guān)心的是一個數(shù)量較少的類,并且不需要管它是正是負(fù)的,那么選擇ROC-AUC分?jǐn)?shù)。

你什么時候會選擇F1度量而不是ROC-AUC?

當(dāng)你有一個數(shù)量小的正類,那么F1的得分更有意義。這是欺詐檢測中的常見問題,因?yàn)檎龢?biāo)簽很少。我們可以通過下面的例子來理解這個陳述。

例如,在大小為10K的數(shù)據(jù)集中,模型(1)預(yù)測100個真正例數(shù)據(jù)中有5個正例數(shù)據(jù),而另一個模型(2)預(yù)測100個真正例數(shù)據(jù)中的90個正例數(shù)據(jù)。顯然,在這種情況下,模型(2)比模型(1)做得更好。讓我們看看F1得分和ROC-AUC得分是否都能捕捉到這種差異

  • 模型(1)的F1得分=2*(1)*(0.1)/1.1 = 0.095

  • 模型(2)的F1得分= 2*(1)*(0.9)/1.9 = 0.947

是的,F1成績的差異反映了模型的表現(xiàn)。

  • 模型(1)的ROC-AUC=0.5

  • 模型(2)的ROC-AUC=0.93

ROC-AUC也給模型1打了一個不錯的分?jǐn)?shù),這并不是一個很好的性能指標(biāo)。因此,對于不平衡的數(shù)據(jù)集,在選擇roc-auc時要小心。

你應(yīng)該使用哪種度量來進(jìn)行多重分類?

我們還有三種類型的非二分類:

  • 「多類」:具有兩個以上類的分類任務(wù)。示例:將一組水果圖像分為以下任一類別:蘋果、香蕉和桔子。

  • 「多標(biāo)簽」:將樣本分類為一組目標(biāo)標(biāo)簽。示例:將博客標(biāo)記為一個或多個主題,如技術(shù)、宗教、政治等。標(biāo)簽是獨(dú)立的,它們之間的關(guān)系并不重要。

  • 「層次結(jié)構(gòu)」:每個類別都可以與類似的類別組合在一起,從而創(chuàng)建元類,這些元類又可以再次組合,直到我們到達(dá)根級別(包含所有數(shù)據(jù)的集合)。例子包括文本分類和物種分類。

在這個博客里,我們只討論第一類。

正如你在上表中看到的,我們有兩種類型的指標(biāo)-微平均和宏平均,我們將討論每種指標(biāo)的利弊。多個類最常用的度量是F1度量、平均精度、log損失。目前還沒有成熟的ROC-AUC多類評分。

多類的log損失定義為:

  • 在微平均法中,將系統(tǒng)中不同集合的真正例、假正例和假反例進(jìn)行匯總,然后應(yīng)用它們得到統(tǒng)計(jì)數(shù)據(jù)。

  • 在宏平均法中,取不同集合上系統(tǒng)的精度和召回率的平均值

「如果存在類別不平衡問題,則采用微平均法。」


參考:

  • https://classeval.wordpress.com/simulation-analysis/roc-and-precision-recall-with-imbalanced-datasets/

  • https://en.wikipedia.org/wiki/Precision_and_recall

  • https://www.sciencedirect.com/science/article/pii/S0306457309000259

  • https://stats.stackexchange.com/questions/11859/what-is-the-difference-between-multiclass-and-multilabel-problem

  • https://datascience.stackexchange.com/questions/15989/micro-average-vs-macro-average-performance-in-a-multiclass-classification-settin/16001

  • 原文鏈接:https://medium.com/usf-msds/choosing-the-right-metric-for-evaluating-machine-learning-models-part-2-86d5649a5428

    往期精彩回顧適合初學(xué)者入門人工智能的路線及資料下載機(jī)器學(xué)習(xí)及深度學(xué)習(xí)筆記等資料打印機(jī)器學(xué)習(xí)在線手冊深度學(xué)習(xí)筆記專輯《統(tǒng)計(jì)學(xué)習(xí)方法》的代碼復(fù)現(xiàn)專輯 AI基礎(chǔ)下載機(jī)器學(xué)習(xí)的數(shù)學(xué)基礎(chǔ)專輯獲取一折本站知識星球優(yōu)惠券,復(fù)制鏈接直接打開:https://t.zsxq.com/yFQV7am本站qq群1003271085。加入微信群請掃碼進(jìn)群:

    總結(jié)

    以上是生活随笔為你收集整理的【机器学习基础】机器学习模型的度量选择(下)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。

    主站蜘蛛池模板: 性xxxx另类xxⅹ | 成人午夜黄色 | 精东av在线 | 天天草天天射 | 18岁禁黄网站 | 国产欧美在线一区 | 91www| 免费精品视频一区二区三区 | 高清av免费观看 | 午夜在线视频免费 | 人人草在线 | 国产免费视屏 | 米奇7777狠狠狠狠视频 | 青青青手机视频 | av高清在线免费观看 | 久久精品国产一区二区 | 欧美精品videos | 久久一精品 | www..com色| 一级坐爱片 | 久久久久久综合网 | 伊人久久香 | 91视频麻豆| 国产特黄| 青青草网站 | 亚洲精品中文无码AV在线播放 | 97人妻精品一区二区三区动漫 | 丰满大肥婆肥奶大屁股 | 日韩在线视频网址 | 91小视频在线观看 | 国产高清视频免费观看 | 麻豆changesxxx国产| 国产成人综合视频 | 一本色道久久88综合日韩精品 | 日韩欧美三级视频 | 狠狠精品干练久久久无码中文字幕 | 久久久久久久黄色片 | aaa在线播放| 五月婷婷狠狠 | 久久精品一日日躁夜夜躁 | 影音av在线 | 色播在线视频 | 特级西西人体 | 无码国产精品96久久久久 | 性高潮影院 | 69国产精品视频免费观看 | 日韩福利在线视频 | 久久首页| 最新国产视频 | 久久综合色88 | 久久久国际精品 | 日韩精品在线电影 | 午夜久久久久久久 | 成人av电影在线播放 | 香蕉人妻av久久久久天天 | 五月天丁香激情 | 国产情侣在线视频 | 中文在线最新版天堂8 | 女人喷潮完整视频 | 成人免费黄色片 | 黄色片免费播放 | a级黄色小说 | 黄色影音| 国内性爱视频 | 国产日韩欧美在线观看 | 超碰人人国产 | 91精品视频在线 | 日韩 欧美 自拍 | 日本黄色视 | 谁有毛片网址 | 黄色小视频免费网站 | 91精品国产一区二区在线观看 | 欧美另类69 | 丁香花五月天 | 青青视频在线播放 | 最好看的2019中文大全在线观看 | 国产区在线观看 | 夜夜夜网站 | 超碰97国产在线 | 欧美精品123区 | 久久接色| 国产精品porn| 天堂素人约啪 | 中文字幕 欧美激情 | 亚洲精品国产综合 | 久久国产精品久久久 | 久久亚洲精品小早川怜子 | 男生插女生视频 | 精品一区二区三区免费毛片 | 变态另类一区 | 麻豆视频一区 | av影音先锋 | 香蕉婷婷| 亚洲国产精品一区二区久久hs | 日韩精品片 | 少妇爽 | 无码乱人伦一区二区亚洲 | 天堂av免费 | 亚洲骚图 |