交叉验证(Cross Validation)方法思想简介
交叉驗(yàn)證(CrossValidation)方法思想
以下簡稱交叉驗(yàn)證(Cross Validation)為CV.CV是用來驗(yàn)證分類器的性能一種統(tǒng)計(jì)分析方法,基本思想是把在某種意義下將原始數(shù)據(jù)(dataset)進(jìn)行分組,一部分做為訓(xùn)練集(train set),另一部分做為驗(yàn)證集(validation set),首先用訓(xùn)練集對分類器進(jìn)行訓(xùn)練,在利用驗(yàn)證集來測試訓(xùn)練得到的模型(model),以此來做為評價(jià)分類器的性能指標(biāo).常見CV的方法如下:
1).Hold-Out Method
將原始數(shù)據(jù)隨機(jī)分為兩組,一組做為訓(xùn)練集,一組做為驗(yàn)證集,利用訓(xùn)練集訓(xùn)練分類器,然后利用驗(yàn)證集驗(yàn)證模型,記錄最后的分類準(zhǔn)確率為此Hold-OutMethod下分類器的性能指標(biāo).此種方法的好處的處理簡單,只需隨機(jī)把原始數(shù)據(jù)分為兩組即可,其實(shí)嚴(yán)格意義來說Hold-Out Method并不能算是CV,因?yàn)檫@種方法沒有達(dá)到交叉的思想,由于是隨機(jī)的將原始數(shù)據(jù)分組,所以最后驗(yàn)證集分類準(zhǔn)確率的高低與原始數(shù)據(jù)的分組有很大的關(guān)系,所以這種方法得到的結(jié)果其實(shí)并不具有說服性.
?
2).K-fold Cross Validation(記為K-CV)
將原始數(shù)據(jù)分成K組(一般是均分),將每個(gè)子集數(shù)據(jù)分別做一次驗(yàn)證集,其余的K-1組子集數(shù)據(jù)作為訓(xùn)練集,這樣會(huì)得到K個(gè)模型,用這K個(gè)模型最終的驗(yàn)證集的分類準(zhǔn)確率的平均數(shù)作為此K-CV下分類器的性能指標(biāo).K一般大于等于2,實(shí)際操作時(shí)一般從3開始取,只有在原始數(shù)據(jù)集合數(shù)據(jù)量小的時(shí)候才會(huì)嘗試取2.K-CV可以有效的避免過學(xué)習(xí)以及欠學(xué)習(xí)狀態(tài)的發(fā)生,最后得到的結(jié)果也比較具有說服性.
?
3).Leave-One-Out Cross Validation(記為LOO-CV)
如果設(shè)原始數(shù)據(jù)有N個(gè)樣本,那么LOO-CV就是N-CV,即每個(gè)樣本單獨(dú)作為驗(yàn)證集,其余的N-1個(gè)樣本作為訓(xùn)練集,所以LOO-CV會(huì)得到N個(gè)模型,用這N個(gè)模型最終的驗(yàn)證集的分類準(zhǔn)確率的平均數(shù)作為此下LOO-CV分類器的性能指標(biāo).相比于前面的K-CV,LOO-CV有兩個(gè)明顯的優(yōu)點(diǎn):
①a.每一回合中幾乎所有的樣本皆用于訓(xùn)練模型,因此最接近原始樣本的分布,這樣評估所得的結(jié)果比較可靠。
②b.實(shí)驗(yàn)過程中沒有隨機(jī)因素會(huì)影響實(shí)驗(yàn)數(shù)據(jù),確保實(shí)驗(yàn)過程是可以被復(fù)制的。
但LOO-CV的缺點(diǎn)則是計(jì)算成本高,因?yàn)樾枰⒌哪P蛿?shù)量與原始數(shù)據(jù)樣本數(shù)量相同,當(dāng)原始數(shù)據(jù)樣本數(shù)量相當(dāng)多時(shí),LOO-CV在實(shí)作上便有困難幾乎就是不顯示,除非每次訓(xùn)練分類器得到模型的速度很快,或是可以用并行化計(jì)算減少計(jì)算所需的時(shí)間.
?
from:http://www.ilovematlab.cn/viewthread.php?tid=49143
總結(jié)
以上是生活随笔為你收集整理的交叉验证(Cross Validation)方法思想简介的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: What are training se
- 下一篇: 粒子群(PSO)算法简介