當(dāng)前位置：首頁 >

R语言-决策树-party包

發(fā)布時(shí)間：2025/4/5 30 豆豆

生活随笔收集整理的這篇文章主要介紹了 R语言-决策树-party包小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

1、首先解釋下熵和吉尼系數(shù)在決策樹的功用

?????? 決策樹學(xué)習(xí)的關(guān)鍵是如何選擇最優(yōu)的劃分屬性。通常，隨著劃分過程的不斷進(jìn)行，我們希望決策樹的內(nèi)部分支節(jié)點(diǎn)所包含的樣本盡可能屬于同一類別，即節(jié)點(diǎn)的“純度”越來越高。

?????? “熵”是衡量樣本數(shù)據(jù)集純度最常用的一種指標(biāo)。熵值越小，則樣本的純度越高，或者說樣本的雜亂程度越小。

?????? “吉尼系數(shù)”也可以用來衡量樣本數(shù)據(jù)集的純度。吉尼系數(shù)越小，則表示該節(jié)點(diǎn)可以有效的把同一類聚集在一起。反之，分割后的類別越雜亂，則吉尼系數(shù)會越大。在決策樹生成時(shí)，當(dāng)用到吉尼系數(shù)這個(gè)方法時(shí)，通常會計(jì)算每一個(gè)特征的吉尼系數(shù)，接著比較各個(gè)特征下的吉尼系數(shù)，系數(shù)越小的特征越適合先作為內(nèi)部節(jié)點(diǎn)。

2、party包，readingskills數(shù)據(jù)，建立nativespeaker決策樹

直接放R語言代碼

#install.packages(“rpart”) #安裝party包，只需在首次運(yùn)行改腳本時(shí)安裝 library("party") #調(diào)出party包 mydata <- readingSkills #將readingSkills數(shù)據(jù)存儲在mydata里頭 names(mydata) #查看mydata中有幾個(gè)變量 str(mydata) #查看每個(gè)變量的數(shù)據(jù)結(jié)構(gòu) summary(mydata) #計(jì)算各變量的基本描述性統(tǒng)計(jì)量plot(x = mydata$shoeSize, y = mydata$score, xlab = "shoeSize",ylab = "score",main = "shoeSize VS score") #畫shoeSize和score散點(diǎn)圖，X軸是shoeSize，Y軸是score，圖名是"shoeSize VS score"library(rpart) #調(diào)出rpart包 my.tree <- rpart(formula=nativeSpeaker ~ age + shoeSize + score, method="class",minsplit =20, cp=0.05, data=mydata) #決策樹結(jié)果存在my.tree對象中printcp(my.tree) #顯示不同cp值下的錯誤率#install.packages("rpart.plot") #安裝rpart.plot包，只需在首次運(yùn)行改腳本時(shí)安裝 library(rpart.plot) #調(diào)出rpart.plot包 rpart.plot(my.tree, type=2) #type是圖形表示的類型，有1、2、3、4四種，差異不大

總結(jié)

以上是生活随笔為你收集整理的R语言-决策树-party包的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：本地Python连接服务器中的Mysql
下一篇： R语言-时间序列-arima模型-for

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

R语言-决策树-party包

總結(jié)