當(dāng)前位置:
首頁 >
R语言-决策树-party包
發(fā)布時(shí)間:2025/4/5
30
豆豆
生活随笔
收集整理的這篇文章主要介紹了
R语言-决策树-party包
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
1、首先解釋下熵和吉尼系數(shù)在決策樹的功用
?????? 決策樹學(xué)習(xí)的關(guān)鍵是如何選擇最優(yōu)的劃分屬性。通常,隨著劃分過程的不斷進(jìn)行,我們希望決策樹的內(nèi)部分支節(jié)點(diǎn)所包含的樣本盡可能屬于同一類別,即節(jié)點(diǎn)的“純度”越來越高。
?????? “熵”是衡量樣本數(shù)據(jù)集純度最常用的一種指標(biāo)。熵值越小,則樣本的純度越高,或者說樣本的雜亂程度越小。
?????? “吉尼系數(shù)”也可以用來衡量樣本數(shù)據(jù)集的純度。吉尼系數(shù)越小,則表示該節(jié)點(diǎn)可以有效的把同一類聚集在一起。反之,分割后的類別越雜亂,則吉尼系數(shù)會越大。在決策樹生成時(shí),當(dāng)用到吉尼系數(shù)這個(gè)方法時(shí),通常會計(jì)算每一個(gè)特征的吉尼系數(shù),接著比較各個(gè)特征下的吉尼系數(shù),系數(shù)越小的特征越適合先作為內(nèi)部節(jié)點(diǎn)。
2、party包,readingskills數(shù)據(jù),建立nativespeaker決策樹
直接放R語言代碼
#install.packages(“rpart”) #安裝party包,只需在首次運(yùn)行改腳本時(shí)安裝 library("party") #調(diào)出party包 mydata <- readingSkills #將readingSkills數(shù)據(jù)存儲在mydata里頭 names(mydata) #查看mydata中有幾個(gè)變量 str(mydata) #查看每個(gè)變量的數(shù)據(jù)結(jié)構(gòu) summary(mydata) #計(jì)算各變量的基本描述性統(tǒng)計(jì)量plot(x = mydata$shoeSize, y = mydata$score, xlab = "shoeSize",ylab = "score",main = "shoeSize VS score") #畫shoeSize和score散點(diǎn)圖,X軸是shoeSize,Y軸是score,圖名是"shoeSize VS score"library(rpart) #調(diào)出rpart包 my.tree <- rpart(formula=nativeSpeaker ~ age + shoeSize + score, method="class",minsplit =20, cp=0.05, data=mydata) #決策樹結(jié)果存在my.tree對象中printcp(my.tree) #顯示不同cp值下的錯誤率#install.packages("rpart.plot") #安裝rpart.plot包,只需在首次運(yùn)行改腳本時(shí)安裝 library(rpart.plot) #調(diào)出rpart.plot包 rpart.plot(my.tree, type=2) #type是圖形表示的類型,有1、2、3、4四種,差異不大總結(jié)
以上是生活随笔為你收集整理的R语言-决策树-party包的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 本地Python连接服务器中的Mysql
- 下一篇: R语言-时间序列-arima模型-for