ID3的REP(Reduced Error Pruning)剪枝代码详细解释+周志华《机器学习》决策树图4.5、图4.6、图4.7绘制
處理數(shù)據(jù)對(duì)象:離散型數(shù)據(jù)
信息計(jì)算方式:熵
數(shù)據(jù)集:西瓜數(shù)據(jù)集2.0共17條數(shù)據(jù)
訓(xùn)練集(用來(lái)建立決策樹(shù)):西瓜數(shù)據(jù)集2.0中的第1,2,3,6,7,10,14,15,16,17,4
請(qǐng)注意,書上說(shuō)是10條,其實(shí)是上面列出的11條。
驗(yàn)證集(用來(lái)對(duì)決策樹(shù)剪枝):西瓜數(shù)據(jù)集2.0中的5,8,9,11,12,13
注意:
上述訓(xùn)練集和驗(yàn)證集由書上特指,
不可自己隨意更改建造決策樹(shù)的訓(xùn)練集或剪枝用的驗(yàn)證集,否則出不來(lái)書上的效果
詳細(xì)的代碼解釋可以直接看代碼中的注釋,本文不再贅述。
代碼鏈接是:
https://github.com/appleyuchi/Decision_Tree_Prune/tree/master/ID3-REP-post_prune-Python-draw
效果如下:
未剪枝書上效果(周志華《機(jī)器學(xué)習(xí)》第81頁(yè)):
代碼運(yùn)行效果(mode=prev)
預(yù)剪枝書上效果(周志華《機(jī)器學(xué)習(xí)》第81頁(yè)):
代碼運(yùn)行效果(mode=prev):
后剪枝書上效果(周志華《機(jī)器學(xué)習(xí)》第83頁(yè))
代碼運(yùn)行結(jié)果(mode=post)
以上后剪枝類型為REP(Reduced Error Pruning),
后剪枝的目的:
提高對(duì)驗(yàn)證集的accuracy以及precision
運(yùn)行代碼可知:
剪枝前:accuracy=0.33
剪枝后:accuracy=0.66
總結(jié)
以上是生活随笔為你收集整理的ID3的REP(Reduced Error Pruning)剪枝代码详细解释+周志华《机器学习》决策树图4.5、图4.6、图4.7绘制的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: python2与python3代码互相转
- 下一篇: 通俗讲清楚为什么使用信息熵增益比而不是信