當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

交差验证

發(fā)布時(shí)間：2023/12/15 编程问答 67 豆豆

生活随笔收集整理的這篇文章主要介紹了交差验证小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

交叉驗(yàn)證(Cross-Validation)一般要滿足：
1）訓(xùn)練集的比例要足夠多，一般大于一半
2）訓(xùn)練集和測(cè)試集要均勻抽樣

1、訓(xùn)練數(shù)據(jù)集，交叉驗(yàn)證數(shù)據(jù)集，測(cè)試數(shù)據(jù)集的作用
參考：http://blog.csdn.net/wu_nan_nan/article/details/70169836
在Andrew Ng的機(jī)器學(xué)習(xí)教程里，會(huì)將給定的數(shù)據(jù)集分為三部分：訓(xùn)練數(shù)據(jù)集（training set）、交叉驗(yàn)證數(shù)據(jù)集（cross validation set）、測(cè)試數(shù)據(jù)集（test set）。三者分別占總數(shù)據(jù)集的60%、20%、20%。
那么這些數(shù)據(jù)集分別是什么作用呢？
假設(shè)我們訓(xùn)練一個(gè)數(shù)據(jù)集，有下面10中模型可以選擇：

我們想知道兩件事：
1）這10中模型中哪種最好（決定多項(xiàng)式的階數(shù)d）；
2）最好的模型的θ參數(shù)是什么。
為此，我們需要，
使用訓(xùn)練數(shù)據(jù)集分別訓(xùn)練這10個(gè)模型；
用訓(xùn)練好的這10個(gè)模型，分別處理交叉驗(yàn)證數(shù)據(jù)集，統(tǒng)計(jì)它們的誤差，取誤差最小的模型為最終模型（這步就叫做Model Selection）。
用測(cè)試數(shù)據(jù)集測(cè)試其準(zhǔn)確性。
這里有個(gè)問(wèn)題要回答：為什么不直接使用測(cè)試數(shù)據(jù)集（test set）來(lái)執(zhí)行上面的第2步？
答：如果數(shù)據(jù)集只分成訓(xùn)練數(shù)據(jù)集（training set）和測(cè)試數(shù)據(jù)集（test set），且訓(xùn)練數(shù)據(jù)集用于訓(xùn)練θ，測(cè)試數(shù)據(jù)集用于選擇模型，那么就缺少能夠公平的評(píng)判最終模型優(yōu)劣的數(shù)據(jù)集，因?yàn)樽罱K的模型就是根據(jù)訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集訓(xùn)練得到的，肯定在這兩個(gè)數(shù)據(jù)集上表現(xiàn)良好，但不一定在其它數(shù)據(jù)集上也如此。

但是，當(dāng)樣本總量少的時(shí)候，上面的劃分就不合適了。常用的是留少部分做測(cè)試集。然后用以下方法進(jìn)行交叉（cv）驗(yàn)證
2、三大CV的方法
參考：http://blog.sina.com.cn/s/blog_688077cf0100zqpj.html
1).Hold-Out Method
方法：將原始數(shù)據(jù)隨機(jī)分為兩組,一組做為訓(xùn)練集,一組做為驗(yàn)證集,利用訓(xùn)練集訓(xùn)練分類器,然后利用驗(yàn)證集驗(yàn)證模型,記錄最后的分類準(zhǔn)確率為此Hold-OutMethod下分類器的性能指標(biāo).。Hold-OutMethod相對(duì)于K-fold Cross Validation 又稱Double cross-validation ，或相對(duì)K-CV稱 2-fold cross-validation(2-CV)
優(yōu)點(diǎn)：好處的處理簡(jiǎn)單,只需隨機(jī)把原始數(shù)據(jù)分為兩組即可
缺點(diǎn)：嚴(yán)格意義來(lái)說(shuō)Hold-Out Method并不能算是CV,因?yàn)檫@種方法沒(méi)有達(dá)到交叉的思想,由于是隨機(jī)的將原始數(shù)據(jù)分組,所以最后驗(yàn)證集分類準(zhǔn)確率的高低與原始數(shù)據(jù)的分組有很大的關(guān)系,所以這種方法得到的結(jié)果其實(shí)并不具有說(shuō)服性.(主要原因是訓(xùn)練集樣本數(shù)太少，通常不足以代表母體樣本的分布，導(dǎo)致 test 階段辨識(shí)率容易出現(xiàn)明顯落差。此外，2-CV 中一分為二的分子集方法的變異度大，往往無(wú)法達(dá)到「實(shí)驗(yàn)過(guò)程必須可以被復(fù)制」的要求。)

2).K-fold Cross Validation(記為K-CV)
參考：http://sofasofa.io/forum_main_post.php?postid=1000354&
一般來(lái)說(shuō)，交叉驗(yàn)證會(huì)特地說(shuō)明是用的多少fold。中文一般翻譯為折。
一個(gè)k-fold cross validation是把訓(xùn)練集隨機(jī)的分成等數(shù)量的k份，每一份數(shù)據(jù)集輪流當(dāng)驗(yàn)證集，剩下的k-1的數(shù)據(jù)集當(dāng)訓(xùn)練集。因?yàn)橐还灿衚個(gè)數(shù)據(jù)集，所以我們就有可以驗(yàn)證k次。我們把這k次的預(yù)測(cè)精度的平均值當(dāng)作模型的預(yù)測(cè)精度。
K一般大于等于2,實(shí)際操作時(shí)一般從3開(kāi)始取,只有在原始數(shù)據(jù)集合數(shù)據(jù)量小的時(shí)候才會(huì)嘗試取2. 而K-CV 的實(shí)驗(yàn)共需要建立 k 個(gè)models，并計(jì)算 k 次 test sets 的平均辨識(shí)率。在實(shí)作上，k 要夠大才能使各回合中的訓(xùn)練樣本數(shù)夠多，一般而言 k=10 (作為一個(gè)經(jīng)驗(yàn)參數(shù))算是相當(dāng)足夠了。
下圖就是一個(gè)4-fold cross validation。我們先把數(shù)據(jù)隨機(jī)分成四等份（如果不能被k整除，我們就大概近似k等份）。

下面進(jìn)行交叉驗(yàn)證。首先是把第1個(gè)數(shù)據(jù)集當(dāng)作測(cè)試集，用2，3，4當(dāng)作訓(xùn)練集來(lái)訓(xùn)練模型，再用訓(xùn)練好的模型來(lái)預(yù)測(cè)數(shù)據(jù)集1，對(duì)比其真實(shí)值，得到了一個(gè)預(yù)測(cè)精度。然后再把數(shù)據(jù)集2當(dāng)作測(cè)試集，用1，3，4訓(xùn)練出一個(gè)新的模型，在數(shù)據(jù)集2上測(cè)試，又得到一個(gè)預(yù)測(cè)精度。依此類推，我們就可以得到4個(gè)預(yù)測(cè)精度。將它們?nèi)∑骄?#xff0c;就得到了模型的4-fold cross validation的預(yù)測(cè)精度。
優(yōu)點(diǎn)：K-CV可以有效的避免過(guò)學(xué)習(xí)以及欠學(xué)習(xí)狀態(tài)的發(fā)生,最后得到的結(jié)果也比較具有說(shuō)服性.
缺點(diǎn)：K值選取上

3).Leave-One-Out Cross Validation(記為L(zhǎng)OO-CV)
方法：如果設(shè)原始數(shù)據(jù)有N個(gè)樣本,那么LOO-CV就是N-CV,即每個(gè)樣本單獨(dú)作為驗(yàn)證集,其余的N-1個(gè)樣本作為訓(xùn)練集,所以LOO-CV會(huì)得到N個(gè)模型,用這N個(gè)模型最終的驗(yàn)證集的分類準(zhǔn)確率的平均數(shù)作為此下LOO-CV分類器的性能指標(biāo).
優(yōu)點(diǎn)：相比于前面的K-CV,LOO-CV有兩個(gè)明顯的優(yōu)點(diǎn)：a.每一回合中幾乎所有的樣本皆用于訓(xùn)練模型,因此最接近原始樣本的分布,這樣評(píng)估所得的結(jié)果比較可靠。 b. 實(shí)驗(yàn)過(guò)程中沒(méi)有隨機(jī)因素會(huì)影響實(shí)驗(yàn)數(shù)據(jù),確保實(shí)驗(yàn)過(guò)程是可以被復(fù)制的.
缺點(diǎn)：計(jì)算成本高,因?yàn)樾枰⒌哪Ｐ蛿?shù)量與原始數(shù)據(jù)樣本數(shù)量相同,當(dāng)原始數(shù)據(jù)樣本數(shù)量相當(dāng)多時(shí),LOO-CV在實(shí)作上便有困難幾乎就是不顯示,除非每次訓(xùn)練分類器得到模型的速度很快,或是可以用并行化計(jì)算減少計(jì)算所需的時(shí)間.

在模式識(shí)別與機(jī)器學(xué)習(xí)的相關(guān)研究中，經(jīng)常會(huì)將數(shù)據(jù)集分為訓(xùn)練集與測(cè)試集這兩個(gè)子集，前者用以建立模式，后者則用來(lái)評(píng)估該模式對(duì)未知樣本進(jìn)行預(yù)測(cè)時(shí)的精確度，正規(guī)的說(shuō)法是 generalization ability(泛化能力)

創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎(jiǎng)勵(lì)來(lái)咯，堅(jiān)持創(chuàng)作打卡瓜分現(xiàn)金大獎(jiǎng)

總結(jié)

以上是生活随笔為你收集整理的交差验证的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：这家硬核企业喊话“流浪地球”：尽管想象
下一篇：特征提取——HOG方向梯直方图

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

交差验证

總結(jié)