决策树之C4.5算法
C4.5算法是機器學(xué)習(xí)中的一個重要的決策樹算法,它是對ID3算法的改進,相對于ID3算法主要有以下幾個改進
?
? (1)用信息增益率來選擇屬性
??(2)在決策樹的構(gòu)造過程中對樹進行剪枝
? (3)對非離散數(shù)據(jù)也能處理
? (4)能夠?qū)Σ煌暾麛?shù)據(jù)進行處理
?
接下來分別詳細講述這幾點的改進方案
?
(1)用信息增益率來選擇屬性
?
??? 在ID3算法中,我們知道是用信息增益來選擇屬性的,而信息增益的缺點是比較偏向選擇取值較多的屬性,
??? 在C4.5算法中,除了一項分裂信息來懲罰取值更多的屬性,所以得到如下公式
?
????????????????????????
?
????其中表示信息增益,而表示分裂信息,它的計算公式如下
?
????????????????????????
????表示當(dāng)前屬性的所有取值。
?
?
(2)在決策樹的構(gòu)造過程中對樹進行剪枝
?
????在C4.5算法中,采用了悲觀剪枝的方法,它使用訓(xùn)練集生成決策樹,又用訓(xùn)練集來進行剪枝。
?
????悲觀剪枝法的基本原理參考:http://www.cnblogs.com/zhangchaoyang/articles/2842490.html
?
?
(3)對非離散數(shù)據(jù)也能處理
?
??? 其實C4.5算法對連續(xù)性數(shù)據(jù)的處理也是當(dāng)作離散數(shù)據(jù)處理的,具體可以參考上面的鏈接。
?
?
最后介紹一個機器學(xué)習(xí)軟件weka,weka中C4.5算法的使用參考:http://www.docin.com/p-27992090.html
?
總結(jié)
以上是生活随笔為你收集整理的决策树之C4.5算法的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。