日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

模型的评估与选择

發(fā)布時(shí)間:2024/1/23 编程问答 41 豆豆
生活随笔 收集整理的這篇文章主要介紹了 模型的评估与选择 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

文章目錄

    • 1、樣本的劃分方式
      • 1.1 留出法(hold-out)
      • 1.2 交叉驗(yàn)證法(cross validation)
      • 1.3 自助法(bootstrapping)
    • 2、泛化能力的度量
      • 2.1 回歸問題的的性能度量
      • 2.2 分類問題的性能度量
        • 2.2.1 錯(cuò)誤率與精度
        • 2.2.2 準(zhǔn)確率與召回率
        • 2.2.3 ROC曲線

【本文部分內(nèi)容參考周志華《機(jī)器學(xué)習(xí)》韓家燁《數(shù)據(jù)挖掘:概念與技術(shù)》】

我們?cè)诟鶕?jù)同一個(gè)數(shù)據(jù)集通過不同的的算法,或者是同一個(gè)算法的不同參數(shù),會(huì)得到不同的模型。那我們?cè)趺礇Q定最終選擇使用哪個(gè)模型呢?
我們知道,我們是要選擇泛化誤差最小的那個(gè)模型。但泛化誤差無法直接計(jì)算,我們根據(jù)訓(xùn)練數(shù)據(jù)集得到的只是訓(xùn)練誤差,那我們應(yīng)該怎么評(píng)估一個(gè)模型的泛化誤差?最簡單直觀的方法就是將訓(xùn)練數(shù)據(jù)集中的一部分用作訓(xùn)練,另一部分用作驗(yàn)證,它們之前沒有交集,這樣就可以近似得到所需要的泛化誤差了。
下面我們第一部分先介紹如何將訓(xùn)練數(shù)據(jù)集分為訓(xùn)練與驗(yàn)證2部分。
將數(shù)據(jù)分成了2部分以后,通過不同的的算法,或者是同一個(gè)算法的不同參數(shù)得到了各種各樣的模型,怎么衡量這些模型的好壞呢?泛化誤差是一個(gè)最終的目標(biāo),但同時(shí)他并不適用于所有的情況,或者說各種應(yīng)用場景會(huì)有不同的側(cè)重點(diǎn)。比如,醫(yī)療問題中,我們希望不要錯(cuò)過發(fā)現(xiàn)任何一個(gè)病例,但可以接受部分沒病的人被誤判為有病,這個(gè)示例中的正樣本的泛化誤差代價(jià)就遠(yuǎn)高于負(fù)樣本了。但另一些示例中,則可以只是希望盡量的提升精度,減少錯(cuò)誤率。
因此,在第二部分我們介紹了各種詳細(xì)的指標(biāo),說明如何衡量一個(gè)算法的好壞。

簡單的說:
(1)為了得到盡量準(zhǔn)確的泛化能力,我們將樣本集分為訓(xùn)練樣本集和驗(yàn)證樣本集—樣本的劃分方式。
(2)用各種各樣的方法表示泛化誤差,以適應(yīng)不同的應(yīng)用場景----泛化能力的衡量。

1、樣本的劃分方式

樣本的劃分方式主要是指如何將樣本集劃分為訓(xùn)練樣本集和驗(yàn)證樣本集。

1.1 留出法(hold-out)

留出法是指直接將數(shù)據(jù)集D劃分為2個(gè)互斥的集合(訓(xùn)練集S和驗(yàn)證集T)。但要注意以下幾個(gè)細(xì)節(jié):
(1)訓(xùn)練/測(cè)試數(shù)據(jù)集的劃分要盡可能的保持一致性,避免由于數(shù)據(jù)劃分的差異而對(duì)最終結(jié)果產(chǎn)生影響。比如對(duì)于分類來說,要保持各個(gè)類別的比例在訓(xùn)練/測(cè)試數(shù)據(jù)集中保持一致,這種方式一般稱為“分層采樣”。舉個(gè)例子,如果數(shù)據(jù)集中的正負(fù)樣本比例是1:3,則在訓(xùn)練/測(cè)試數(shù)據(jù)集中都應(yīng)該近似為1:3。
(2)即使使用了分層采樣,仍存在多種劃分方法對(duì)數(shù)據(jù)集進(jìn)行劃分。比如選前70%數(shù)據(jù)作訓(xùn)練,或者是后70%作訓(xùn)練,會(huì)得到不同的結(jié)果。所以,如果數(shù)據(jù)集并非十分龐大時(shí),一般要會(huì)進(jìn)行若干次隨機(jī)劃分、重復(fù)進(jìn)行計(jì)算評(píng)估后以平均值作為最終的模型評(píng)估值。
(3)如果S包含了大部分樣本,則由于T的數(shù)據(jù)過少,會(huì)導(dǎo)致評(píng)估結(jié)果不夠穩(wěn)定準(zhǔn)確;而如果S過少,則與D相差太大,降低了保真性。一般的做法是將大約2/3~4/5的數(shù)據(jù)用于訓(xùn)練,其余用于驗(yàn)證。

1.2 交叉驗(yàn)證法(cross validation)

交叉驗(yàn)證法將數(shù)據(jù)集D按照分層采樣分為k個(gè)子集,然后每次訓(xùn)練選擇其中一個(gè)作為驗(yàn)證數(shù)據(jù)集,其余k-1個(gè)子集作為訓(xùn)練數(shù)據(jù)集。通常把交叉驗(yàn)證法稱為“k折交叉驗(yàn)證法”。k最常用的是10,此時(shí)稱為10折交叉驗(yàn)證法。
與留出法類似,如何將數(shù)據(jù)集D劃分為k個(gè)子集同樣存在多種劃分方式。為減少因樣本劃分不同而引入差別,k折交叉驗(yàn)證法通常隨機(jī)使用不同的劃分p重復(fù)p次,最終的評(píng)估結(jié)果就是p次k折交叉驗(yàn)證結(jié)果的均值,例如常見的“10次10折交叉驗(yàn)證”。
極端情況下,令k=m(m為D中的樣本數(shù)量),即是交叉驗(yàn)證法的特例:留一法。留一法有以下特點(diǎn):
(1)不受樣本隨機(jī)劃分方式的影響,因?yàn)槊總€(gè)樣本都會(huì)一次且唯一一次充當(dāng)驗(yàn)證數(shù)據(jù)。
(2)訓(xùn)練數(shù)據(jù)集S僅比D少了一個(gè)樣本,因此其得到的模型與使用D極為類似,一般認(rèn)為其結(jié)果比較準(zhǔn)確。
(3)問題:在數(shù)據(jù)集比較大時(shí),訓(xùn)練m個(gè)模型的開銷難以接受。

1.3 自助法(bootstrapping)

自助法的做法是每次從數(shù)據(jù)集D中隨機(jī)取出一個(gè)樣本,然后將樣本重新放加D中,接著開始下一輪的抽取。。。這個(gè)過程重復(fù)m次。
自助法抽樣得到的樣本數(shù)與D中的樣本數(shù)相同,但D中的部分樣本在S中出現(xiàn)了多次,部分樣本從未在S中出現(xiàn),這些樣本將作為驗(yàn)證集T。一個(gè)樣本不被放入S的概率為(1-1/m)^m,當(dāng)m無窮大時(shí),概率趨向于1/e=0.368。也就是說大約36.8%的樣本將作為測(cè)試集。
優(yōu)點(diǎn):(1)當(dāng)數(shù)據(jù)集較小,難以劃分訓(xùn)練/測(cè)試數(shù)據(jù)集時(shí)很有效。(2)能從初始數(shù)據(jù)集中產(chǎn)生多個(gè)不同的訓(xùn)練集,對(duì)于集成學(xué)習(xí)等很有好處。
缺點(diǎn):(1)改變了初始數(shù)據(jù)集的分布,這會(huì)引入偏差。
在數(shù)據(jù)量充足時(shí),盡量不要使用自助法。

2、泛化能力的度量

通過合適的方法對(duì)數(shù)據(jù)集進(jìn)行劃分,并計(jì)算后可以得到一個(gè)模型,那么如何衡量這個(gè)模型的泛化能力呢?正如上面所言,衡量不同模型的泛化能力時(shí),使用不同的度量有可能得到不同的評(píng)判結(jié)果。這意味著沒有絕對(duì)好壞的模型,模型的好壞不僅取決于數(shù)據(jù)和算法,還取決于任務(wù)的需求。

2.1 回歸問題的的性能度量

在回歸任務(wù)中,一般會(huì)使用均方誤差作度量:
E(f:D)=1m∑i=1m(f(xi)?yi)2E(f:D)=\frac{1}{m}\sum_{i=1}^m(f(x_i)-y_i)^2 E(f:D)=m1?i=1m?(f(xi?)?yi?)2

而一般的,對(duì)于概率密度為p(x)的數(shù)據(jù)而言,均方誤差可以表示為:
E(f:D)=∫x~D(f(x)?y)2p(x)dxE(f:D)= \int_{x\thicksim D}(f(x)-y)^2p(x)dx E(f:D)=xD?(f(x)?y)2p(x)dx

2.2 分類問題的性能度量

2.2.1 錯(cuò)誤率與精度

錯(cuò)誤率即被錯(cuò)誤分類的樣本占總樣本數(shù)量的比例,而精度則是分類正確的樣本占總樣本數(shù)量的比例。很明顯:1-錯(cuò)誤率=精度。

2.2.2 準(zhǔn)確率與召回率

我們先定義幾個(gè)符號(hào):
TP:本身為正,分類結(jié)果也為正的樣本數(shù)量。
TN:本身為負(fù),分類結(jié)果也為負(fù)的樣本數(shù)量。
FP:本身為負(fù),但分類結(jié)果為正的樣本數(shù)量,也就是假的正樣本。
FN:本身為正,但分類結(jié)果為負(fù)的樣本數(shù)量,也就是假的負(fù)樣本。
P:正樣本的數(shù)量。
N:負(fù)樣本的數(shù)量。

很明顯,我們有以下關(guān)系:
TP+FN=PTN+FP=NTP+FN+TN+FP=P+N=m\begin{aligned} TP+FN=P \\ TN+FP=N \\ TP+FN+TN+FP=P+N=m \\ \end{aligned} TP+FN=PTN+FP=NTP+FN+TN+FP=P+N=m?

準(zhǔn)確率的定義為:
P=TP/(TP+FP)P=TP/(TP+FP) P=TP/(TP+FP)

召回率的定義為:
R=TP/(TP+FN)=TP/PR=TP/(TP+FN)=TP/P R=TP/(TP+FN)=TP/P

準(zhǔn)確率的含義為:被分類為正的樣本中,有多少是真實(shí)的正樣本。比如在信息檢索中,我們要考慮搜索出來的結(jié)果有多少是用戶真正感興趣的。
召回率的含義為:所有正樣本中,有多少被分類為了正樣本。

一般而言,準(zhǔn)確率高則召回率低,召回率高則準(zhǔn)確率低。把二者的數(shù)值畫成一條曲線,則是PR曲線。根據(jù)PR曲線,如何比較不同模型的好示呢:
(1)如果一個(gè)模型的PR曲線完全包住另一個(gè)模型,則可以認(rèn)為前者更優(yōu)。
(2)比較PR曲線下的面積,面積越大,模型越優(yōu)。
(3)平衡點(diǎn)(BEP),即準(zhǔn)確率=召回率時(shí)的值,越大越好。
(4)F1和Fbeta。見周志華《機(jī)器學(xué)習(xí)》P31

2.2.3 ROC曲線

ROC曲線的縱坐標(biāo)為真正例率(TPR),橫坐標(biāo)為假正例率(FPR),定義為:

TPR=TP/(TP+FN)FPR=FP/(FP+TN)\begin{aligned} TPR=TP/(TP+FN) \\ FPR=FP/(FP+TN) \end{aligned} TPR=TP/(TP+FN)FPR=FP/(FP+TN)?
ROC曲線下的面積可以用于衡量模型的效果。
一個(gè)典型的ROC曲線如下圖:

2.2.4 代價(jià)敏感錯(cuò)誤率與代價(jià)曲線
正如上面所言,不同類別的分類錯(cuò)誤會(huì)有不同的損失,可以為錯(cuò)誤賦予非均等代價(jià)。詳見周志華《機(jī)器學(xué)習(xí)》P35

2.3 比較檢驗(yàn)
使用上面某種評(píng)估方法計(jì)算得到算法的性能度量,然后對(duì)這些性能度量作比較,從而找到更好的模型。那怎么比較?直接比大小嗎?實(shí)際上比這個(gè)復(fù)雜。

簡單的說,假設(shè)在測(cè)試集上觀察到模型A比模型B好,則A的泛化能力是否在統(tǒng)計(jì)意義上好于B,這個(gè)結(jié)論的把握有多大?比較檢驗(yàn)理論就是分析這些內(nèi)容。這里不再細(xì)說,有興趣可以參考周志華《機(jī)器學(xué)習(xí)》P37。

創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎(jiǎng)勵(lì)來咯,堅(jiān)持創(chuàng)作打卡瓜分現(xiàn)金大獎(jiǎng)

總結(jié)

以上是生活随笔為你收集整理的模型的评估与选择的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。