當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

模型的评估与选择

發(fā)布時(shí)間：2024/1/23 编程问答 41 豆豆

生活随笔收集整理的這篇文章主要介紹了模型的评估与选择小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

文章目錄

- 1、樣本的劃分方式
- - 1.1 留出法(hold-out)
  - 1.2 交叉驗(yàn)證法(cross validation)
  - 1.3 自助法(bootstrapping)
- 2、泛化能力的度量
- - 2.1 回歸問題的的性能度量
  - 2.2 分類問題的性能度量
  - - 2.2.1 錯(cuò)誤率與精度
    - 2.2.2 準(zhǔn)確率與召回率
    - 2.2.3 ROC曲線

【本文部分內(nèi)容參考周志華《機(jī)器學(xué)習(xí)》韓家燁《數(shù)據(jù)挖掘：概念與技術(shù)》】

我們?cè)诟鶕?jù)同一個(gè)數(shù)據(jù)集通過不同的的算法，或者是同一個(gè)算法的不同參數(shù)，會(huì)得到不同的模型。那我們?cè)趺礇Q定最終選擇使用哪個(gè)模型呢？
我們知道，我們是要選擇泛化誤差最小的那個(gè)模型。但泛化誤差無法直接計(jì)算，我們根據(jù)訓(xùn)練數(shù)據(jù)集得到的只是訓(xùn)練誤差，那我們應(yīng)該怎么評(píng)估一個(gè)模型的泛化誤差？最簡單直觀的方法就是將訓(xùn)練數(shù)據(jù)集中的一部分用作訓(xùn)練，另一部分用作驗(yàn)證，它們之前沒有交集，這樣就可以近似得到所需要的泛化誤差了。
下面我們第一部分先介紹如何將訓(xùn)練數(shù)據(jù)集分為訓(xùn)練與驗(yàn)證2部分。
將數(shù)據(jù)分成了2部分以后，通過不同的的算法，或者是同一個(gè)算法的不同參數(shù)得到了各種各樣的模型，怎么衡量這些模型的好壞呢？泛化誤差是一個(gè)最終的目標(biāo)，但同時(shí)他并不適用于所有的情況，或者說各種應(yīng)用場景會(huì)有不同的側(cè)重點(diǎn)。比如，醫(yī)療問題中，我們希望不要錯(cuò)過發(fā)現(xiàn)任何一個(gè)病例，但可以接受部分沒病的人被誤判為有病，這個(gè)示例中的正樣本的泛化誤差代價(jià)就遠(yuǎn)高于負(fù)樣本了。但另一些示例中，則可以只是希望盡量的提升精度，減少錯(cuò)誤率。
因此，在第二部分我們介紹了各種詳細(xì)的指標(biāo)，說明如何衡量一個(gè)算法的好壞。

簡單的說：
（1）為了得到盡量準(zhǔn)確的泛化能力，我們將樣本集分為訓(xùn)練樣本集和驗(yàn)證樣本集—樣本的劃分方式。
（2）用各種各樣的方法表示泛化誤差，以適應(yīng)不同的應(yīng)用場景----泛化能力的衡量。

1、樣本的劃分方式

樣本的劃分方式主要是指如何將樣本集劃分為訓(xùn)練樣本集和驗(yàn)證樣本集。

1.1 留出法(hold-out)

留出法是指直接將數(shù)據(jù)集D劃分為2個(gè)互斥的集合（訓(xùn)練集S和驗(yàn)證集T）。但要注意以下幾個(gè)細(xì)節(jié)：
（1）訓(xùn)練/測(cè)試數(shù)據(jù)集的劃分要盡可能的保持一致性，避免由于數(shù)據(jù)劃分的差異而對(duì)最終結(jié)果產(chǎn)生影響。比如對(duì)于分類來說，要保持各個(gè)類別的比例在訓(xùn)練/測(cè)試數(shù)據(jù)集中保持一致，這種方式一般稱為“分層采樣”。舉個(gè)例子，如果數(shù)據(jù)集中的正負(fù)樣本比例是1:3，則在訓(xùn)練/測(cè)試數(shù)據(jù)集中都應(yīng)該近似為1:3。
（2）即使使用了分層采樣，仍存在多種劃分方法對(duì)數(shù)據(jù)集進(jìn)行劃分。比如選前70%數(shù)據(jù)作訓(xùn)練，或者是后70%作訓(xùn)練，會(huì)得到不同的結(jié)果。所以，如果數(shù)據(jù)集并非十分龐大時(shí)，一般要會(huì)進(jìn)行若干次隨機(jī)劃分、重復(fù)進(jìn)行計(jì)算評(píng)估后以平均值作為最終的模型評(píng)估值。
（3）如果S包含了大部分樣本，則由于T的數(shù)據(jù)過少，會(huì)導(dǎo)致評(píng)估結(jié)果不夠穩(wěn)定準(zhǔn)確；而如果S過少，則與D相差太大，降低了保真性。一般的做法是將大約2/3~4/5的數(shù)據(jù)用于訓(xùn)練，其余用于驗(yàn)證。

1.2 交叉驗(yàn)證法(cross validation)

交叉驗(yàn)證法將數(shù)據(jù)集D按照分層采樣分為k個(gè)子集，然后每次訓(xùn)練選擇其中一個(gè)作為驗(yàn)證數(shù)據(jù)集，其余k-1個(gè)子集作為訓(xùn)練數(shù)據(jù)集。通常把交叉驗(yàn)證法稱為“k折交叉驗(yàn)證法”。k最常用的是10，此時(shí)稱為10折交叉驗(yàn)證法。
與留出法類似，如何將數(shù)據(jù)集D劃分為k個(gè)子集同樣存在多種劃分方式。為減少因樣本劃分不同而引入差別，k折交叉驗(yàn)證法通常隨機(jī)使用不同的劃分p重復(fù)p次，最終的評(píng)估結(jié)果就是p次k折交叉驗(yàn)證結(jié)果的均值，例如常見的“10次10折交叉驗(yàn)證”。
極端情況下，令k=m（m為D中的樣本數(shù)量），即是交叉驗(yàn)證法的特例：留一法。留一法有以下特點(diǎn)：
（1）不受樣本隨機(jī)劃分方式的影響，因?yàn)槊總€(gè)樣本都會(huì)一次且唯一一次充當(dāng)驗(yàn)證數(shù)據(jù)。
（2）訓(xùn)練數(shù)據(jù)集S僅比D少了一個(gè)樣本，因此其得到的模型與使用D極為類似，一般認(rèn)為其結(jié)果比較準(zhǔn)確。
（3）問題：在數(shù)據(jù)集比較大時(shí)，訓(xùn)練m個(gè)模型的開銷難以接受。

1.3 自助法(bootstrapping)

自助法的做法是每次從數(shù)據(jù)集D中隨機(jī)取出一個(gè)樣本，然后將樣本重新放加D中，接著開始下一輪的抽取。。。這個(gè)過程重復(fù)m次。
自助法抽樣得到的樣本數(shù)與D中的樣本數(shù)相同，但D中的部分樣本在S中出現(xiàn)了多次，部分樣本從未在S中出現(xiàn)，這些樣本將作為驗(yàn)證集T。一個(gè)樣本不被放入S的概率為(1-1/m)^m，當(dāng)m無窮大時(shí)，概率趨向于1/e=0.368。也就是說大約36.8%的樣本將作為測(cè)試集。
優(yōu)點(diǎn)：（1）當(dāng)數(shù)據(jù)集較小，難以劃分訓(xùn)練/測(cè)試數(shù)據(jù)集時(shí)很有效。（2）能從初始數(shù)據(jù)集中產(chǎn)生多個(gè)不同的訓(xùn)練集，對(duì)于集成學(xué)習(xí)等很有好處。
缺點(diǎn)：（1）改變了初始數(shù)據(jù)集的分布，這會(huì)引入偏差。
在數(shù)據(jù)量充足時(shí)，盡量不要使用自助法。

2、泛化能力的度量

通過合適的方法對(duì)數(shù)據(jù)集進(jìn)行劃分，并計(jì)算后可以得到一個(gè)模型，那么如何衡量這個(gè)模型的泛化能力呢？正如上面所言，衡量不同模型的泛化能力時(shí)，使用不同的度量有可能得到不同的評(píng)判結(jié)果。這意味著沒有絕對(duì)好壞的模型，模型的好壞不僅取決于數(shù)據(jù)和算法，還取決于任務(wù)的需求。

2.1 回歸問題的的性能度量

在回歸任務(wù)中，一般會(huì)使用均方誤差作度量：
$E(f:D)=1m∑i=1m(f(xi)?yi)2E(f:D)=\frac{1}{m}\sum_{i=1}^m(f(x_i)-y_i)^2$

而一般的，對(duì)于概率密度為p(x)的數(shù)據(jù)而言，均方誤差可以表示為：
$\int_{x\thicksim D}(f(x)-y)^2p(x)dx$

2.2 分類問題的性能度量

2.2.1 錯(cuò)誤率與精度

錯(cuò)誤率即被錯(cuò)誤分類的樣本占總樣本數(shù)量的比例，而精度則是分類正確的樣本占總樣本數(shù)量的比例。很明顯：1-錯(cuò)誤率＝精度。

2.2.2 準(zhǔn)確率與召回率

我們先定義幾個(gè)符號(hào)：
TP：本身為正，分類結(jié)果也為正的樣本數(shù)量。
TN：本身為負(fù)，分類結(jié)果也為負(fù)的樣本數(shù)量。
FP：本身為負(fù)，但分類結(jié)果為正的樣本數(shù)量，也就是假的正樣本。
FN：本身為正，但分類結(jié)果為負(fù)的樣本數(shù)量，也就是假的負(fù)樣本。
P：正樣本的數(shù)量。
N：負(fù)樣本的數(shù)量。

很明顯，我們有以下關(guān)系：
$TP+FN=PTN+FP=NTP+FN+TN+FP=P+N=m\begin{aligned} TP+FN=P \\ TN+FP=N \\ TP+FN+TN+FP=P+N=m \\ \end{aligned}$

準(zhǔn)確率的定義為：
$P = T P / (T P + F P)$

召回率的定義為：
$R = T P / (T P + F N) = T P / P$

準(zhǔn)確率的含義為：被分類為正的樣本中，有多少是真實(shí)的正樣本。比如在信息檢索中，我們要考慮搜索出來的結(jié)果有多少是用戶真正感興趣的。
召回率的含義為：所有正樣本中，有多少被分類為了正樣本。

一般而言，準(zhǔn)確率高則召回率低，召回率高則準(zhǔn)確率低。把二者的數(shù)值畫成一條曲線，則是PR曲線。根據(jù)PR曲線，如何比較不同模型的好示呢：
（1）如果一個(gè)模型的PR曲線完全包住另一個(gè)模型，則可以認(rèn)為前者更優(yōu)。
（2）比較PR曲線下的面積，面積越大，模型越優(yōu)。
（3）平衡點(diǎn)(BEP)，即準(zhǔn)確率＝召回率時(shí)的值，越大越好。
（4）F1和Fbeta。見周志華《機(jī)器學(xué)習(xí)》P31

2.2.3 ROC曲線

ROC曲線的縱坐標(biāo)為真正例率（TPR），橫坐標(biāo)為假正例率（FPR），定義為：

$TPR=TP/(TP+FN)FPR=FP/(FP+TN)\begin{aligned} TPR=TP/(TP+FN) \\ FPR=FP/(FP+TN) \end{aligned}$
ROC曲線下的面積可以用于衡量模型的效果。
一個(gè)典型的ROC曲線如下圖：

2.2.4 代價(jià)敏感錯(cuò)誤率與代價(jià)曲線
正如上面所言，不同類別的分類錯(cuò)誤會(huì)有不同的損失，可以為錯(cuò)誤賦予非均等代價(jià)。詳見周志華《機(jī)器學(xué)習(xí)》P35

2.3 比較檢驗(yàn)
使用上面某種評(píng)估方法計(jì)算得到算法的性能度量，然后對(duì)這些性能度量作比較，從而找到更好的模型。那怎么比較？直接比大小嗎？實(shí)際上比這個(gè)復(fù)雜。

簡單的說，假設(shè)在測(cè)試集上觀察到模型A比模型B好，則A的泛化能力是否在統(tǒng)計(jì)意義上好于B，這個(gè)結(jié)論的把握有多大？比較檢驗(yàn)理論就是分析這些內(nèi)容。這里不再細(xì)說，有興趣可以參考周志華《機(jī)器學(xué)習(xí)》P37。

創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎(jiǎng)勵(lì)來咯，堅(jiān)持創(chuàng)作打卡瓜分現(xiàn)金大獎(jiǎng)

總結(jié)

以上是生活随笔為你收集整理的模型的评估与选择的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

模型

上一篇：最大似然估计与损失函数
下一篇：使用sklearn加载公共数据集、内存数