當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

集成学习（一)—预备知识：分类树和回归树

發(fā)布時(shí)間：2025/4/5 编程问答 13 豆豆

生活随笔收集整理的這篇文章主要介紹了集成学习（一)—预备知识：分类树和回归树小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

分類樹(shù)：

就是使用決策樹(shù)來(lái)完成分類，
決策的依據(jù)主要有：

1.信息熵

通過(guò)下面的例子我們很快就可以理解了，這個(gè)東西反映的就是當(dāng)前情況下的不確定性，如果當(dāng)前情況下大概率是某種結(jié)果那么計(jì)算出的結(jié)果就更加的接近0
如果您想理解信息熵的具體來(lái)源，那么請(qǐng)移步：

條件熵的問(wèn)題，這個(gè)我們來(lái)理解一下就是在某種確定的條件下，不確定性是不是還是很高的問(wèn)題。

信息增益，也就是說(shuō)我們得到了某個(gè)條件之后，確定性增加了多少的問(wèn)題。

接下來(lái)就是如何考慮信息增益的情況了，我們?cè)黾右粋€(gè)條件其實(shí)就是，對(duì)原來(lái)的內(nèi)容進(jìn)行再次劃分，如下圖所示：增加條件是一種再次劃分：

我們可以看到這個(gè)劃分的兩個(gè)內(nèi)容的結(jié)果的信息熵是很難一樣的，這時(shí)候?yàn)榱烁玫睾饬窟@次劃分，我們就需要將信息熵計(jì)算一個(gè)加權(quán)平均來(lái)處理。

我們來(lái)一個(gè)例子理解一下情況：可以看到這是一個(gè)高爾夫球的情況

我們先進(jìn)行第一層的劃分，我們現(xiàn)在可以用溫度、濕度、天氣三種判斷因素來(lái)進(jìn)行劃分，該選哪個(gè)我們就使用信息增益來(lái)進(jìn)行判斷，誰(shuí)的信息增益比較好，我們就選擇誰(shuí)。

這樣我們就可以逐漸的得到下面的劃分，這里什么時(shí)候結(jié)束是取決于我們的劃分什么時(shí)候信息熵已經(jīng)比較小了，低于我們?cè)O(shè)定的數(shù)值了，我們就停止進(jìn)一步的劃分。

注意：

1.這里的概率其實(shí)并不是準(zhǔn)確意義上的概率，其實(shí)是一個(gè)頻率。

2.基尼系數(shù)（Gini）

籠統(tǒng)的說(shuō)這里的基尼指數(shù)是不純的概率：
這里只是籠統(tǒng)的說(shuō)了一下這個(gè)是錯(cuò)分的概率，其實(shí)錯(cuò)分為兩種情況：
1.不是我的分給我了；
2.是我的分給別人了。
這里其實(shí)我們基尼系數(shù)只是衡量了第一個(gè)而已
我們其實(shí)可以換個(gè)角度來(lái)想，分正確的情況有哪些，這樣的話我們用1再減一下不就完成了嗎？也就是直接理解出來(lái)了后面那個(gè)式子。

那么自然而然就出現(xiàn)了基尼不純度，通過(guò)衡量基尼不純度就可以完成評(píng)價(jià)分割的效果好不好的問(wèn)題。如果效果很好，那么就將單獨(dú)的這個(gè)類別保存出來(lái)，剩下的規(guī)劃成下一個(gè)待分割的類別（繼續(xù)遞歸就可以了），這個(gè)和上面的其實(shí)不太一樣。我們這里最后產(chǎn)生的其實(shí)是一個(gè)二叉樹(shù)。

總結(jié)

以上是生活随笔為你收集整理的集成学习（一)—预备知识：分类树和回归树的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

知识

上一篇： conda下用prefix创建虚拟环境会
下一篇： vscode和anaconda结合的环境