集成学习(一)—预备知识:分类树和回归树
分類樹(shù):
就是使用決策樹(shù)來(lái)完成分類,
決策的依據(jù)主要有:
1.信息熵
通過(guò)下面的例子我們很快就可以理解了,這個(gè)東西反映的就是當(dāng)前情況下的不確定性,如果當(dāng)前情況下大概率是某種結(jié)果那么計(jì)算出的結(jié)果就更加的接近0
如果您想理解信息熵的具體來(lái)源,那么請(qǐng)移步:
條件熵的問(wèn)題,這個(gè)我們來(lái)理解一下就是在某種確定的條件下,不確定性是不是還是很高的問(wèn)題。
信息增益,也就是說(shuō)我們得到了某個(gè)條件之后,確定性增加了多少的問(wèn)題。
接下來(lái)就是如何考慮信息增益的情況了,我們?cè)黾右粋€(gè)條件其實(shí)就是,對(duì)原來(lái)的內(nèi)容進(jìn)行再次劃分,如下圖所示:增加條件是一種再次劃分:
我們可以看到這個(gè)劃分的兩個(gè)內(nèi)容的結(jié)果的信息熵是很難一樣的,這時(shí)候?yàn)榱烁玫睾饬窟@次劃分,我們就需要將信息熵計(jì)算一個(gè)加權(quán)平均來(lái)處理。
我們來(lái)一個(gè)例子理解一下情況:可以看到這是一個(gè)高爾夫球的情況
我們先進(jìn)行第一層的劃分,我們現(xiàn)在可以用溫度、濕度、天氣三種判斷因素來(lái)進(jìn)行劃分,該選哪個(gè)我們就使用信息增益來(lái)進(jìn)行判斷,誰(shuí)的信息增益比較好,我們就選擇誰(shuí)。
這樣我們就可以逐漸的得到下面的劃分,這里什么時(shí)候結(jié)束是取決于我們的劃分什么時(shí)候信息熵已經(jīng)比較小了,低于我們?cè)O(shè)定的數(shù)值了,我們就停止進(jìn)一步的劃分。
注意:
1.這里的概率其實(shí)并不是準(zhǔn)確意義上的概率,其實(shí)是一個(gè)頻率。
2.基尼系數(shù)(Gini)
籠統(tǒng)的說(shuō)這里的基尼指數(shù)是不純的概率:
這里只是籠統(tǒng)的說(shuō)了一下這個(gè)是錯(cuò)分的概率,其實(shí)錯(cuò)分為兩種情況:
1.不是我的分給我了;
2.是我的分給別人了。
這里其實(shí)我們基尼系數(shù)只是衡量了第一個(gè)而已
我們其實(shí)可以換個(gè)角度來(lái)想,分正確的情況有哪些,這樣的話我們用1再減一下不就完成了嗎?也就是直接理解出來(lái)了后面那個(gè)式子。
那么自然而然就出現(xiàn)了基尼不純度,通過(guò)衡量基尼不純度就可以完成評(píng)價(jià)分割的效果好不好的問(wèn)題。如果效果很好,那么就將單獨(dú)的這個(gè)類別保存出來(lái),剩下的規(guī)劃成下一個(gè)待分割的類別(繼續(xù)遞歸就可以了),這個(gè)和上面的其實(shí)不太一樣。我們這里最后產(chǎn)生的其實(shí)是一個(gè)二叉樹(shù)。
總結(jié)
以上是生活随笔為你收集整理的集成学习(一)—预备知识:分类树和回归树的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: conda下用prefix创建虚拟环境会
- 下一篇: vscode和anaconda结合的环境