随机森林之oob error 估计
摘要:在隨機(jī)森林之Bagging法中可以發(fā)現(xiàn)Bootstrap每次約有1/3的樣本不會(huì)出現(xiàn)在Bootstrap所采集的樣本集合中,當(dāng)然也就沒有參加決策樹的建立,那是不是意味著就沒有用了呢,答案是否定的。我們把這1/3的數(shù)據(jù)稱為袋外數(shù)據(jù)oob(out of bag),它可以用于取代測(cè)試集誤差估計(jì)方法.
在論文:
1:Bias,variance and prediction error for classification rules.<Robert Tibshiranni>
2: An Efficient Method To Estimate Baggin’s Generalization Error.<David H.Wolpert and William G.Macready>
3:Bagging Predictors,Machine Learning (1996)<Breiman>
中,作者都建議利用OOB error 估計(jì)作為泛化誤差估計(jì)的一個(gè)組成部分,并且Breiman在論文中給出了經(jīng)驗(yàn)性實(shí)例表明袋外數(shù)據(jù)誤差估計(jì)與同訓(xùn)練集一樣大小的測(cè)試集得到的精度一樣,這樣也就表明袋外數(shù)據(jù)(oob)誤差估計(jì)是一種可以取代測(cè)試集的誤差估計(jì)方法。
袋外數(shù)據(jù)(oob)誤差的計(jì)算方法如下:
對(duì)于已經(jīng)生成的隨機(jī)森林,用袋外數(shù)據(jù)測(cè)試其性能,假設(shè)袋外數(shù)據(jù)總數(shù)為O,用這O個(gè)袋外數(shù)據(jù)作為輸入,帶進(jìn)之前已經(jīng)生成的隨機(jī)森林分類器,分類器會(huì)給出O個(gè)數(shù)據(jù)相應(yīng)的分類,因?yàn)檫@O條數(shù)據(jù)的類型是已知的,則用正確的分類與隨機(jī)森林分類器的結(jié)果進(jìn)行比較,統(tǒng)計(jì)隨機(jī)森林分類器分類錯(cuò)誤的數(shù)目,設(shè)為X,則袋外數(shù)據(jù)誤差大小=X/O;這已經(jīng)經(jīng)過證明是無偏估計(jì)的,所以在隨機(jī)森林算法中不需要再進(jìn)行交叉驗(yàn)證或者單獨(dú)的測(cè)試集來獲取測(cè)試集誤差的無偏估計(jì)。
轉(zhuǎn)載于:https://www.cnblogs.com/justcxtoworld/p/3434266.html
總結(jié)
以上是生活随笔為你收集整理的随机森林之oob error 估计的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 路由器简介与IOS介绍
- 下一篇: js 获取表格数据(表单变量值)