日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 >

集成学习(一)—预备知识:分类树和回归树

發(fā)布時(shí)間:2025/4/5 24 豆豆
生活随笔 收集整理的這篇文章主要介紹了 集成学习(一)—预备知识:分类树和回归树 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

分類樹:

就是使用決策樹來完成分類,
決策的依據(jù)主要有:

1.信息熵

通過下面的例子我們很快就可以理解了,這個(gè)東西反映的就是當(dāng)前情況下的不確定性,如果當(dāng)前情況下大概率是某種結(jié)果那么計(jì)算出的結(jié)果就更加的接近0
如果您想理解信息熵的具體來源,那么請移步:

條件熵的問題,這個(gè)我們來理解一下就是在某種確定的條件下,不確定性是不是還是很高的問題。


信息增益,也就是說我們得到了某個(gè)條件之后,確定性增加了多少的問題。

接下來就是如何考慮信息增益的情況了,我們增加一個(gè)條件其實(shí)就是,對原來的內(nèi)容進(jìn)行再次劃分,如下圖所示:增加條件是一種再次劃分:

我們可以看到這個(gè)劃分的兩個(gè)內(nèi)容的結(jié)果的信息熵是很難一樣的,這時(shí)候?yàn)榱烁玫睾饬窟@次劃分,我們就需要將信息熵計(jì)算一個(gè)加權(quán)平均來處理。

我們來一個(gè)例子理解一下情況:可以看到這是一個(gè)高爾夫球的情況

我們先進(jìn)行第一層的劃分,我們現(xiàn)在可以用溫度、濕度、天氣三種判斷因素來進(jìn)行劃分,該選哪個(gè)我們就使用信息增益來進(jìn)行判斷,誰的信息增益比較好,我們就選擇誰。

這樣我們就可以逐漸的得到下面的劃分,這里什么時(shí)候結(jié)束是取決于我們的劃分什么時(shí)候信息熵已經(jīng)比較小了,低于我們設(shè)定的數(shù)值了,我們就停止進(jìn)一步的劃分。

注意:

1.這里的概率其實(shí)并不是準(zhǔn)確意義上的概率,其實(shí)是一個(gè)頻率。

2.基尼系數(shù)(Gini)

籠統(tǒng)的說這里的基尼指數(shù)是不純的概率:
這里只是籠統(tǒng)的說了一下這個(gè)是錯(cuò)分的概率,其實(shí)錯(cuò)分為兩種情況:
1.不是我的分給我了;
2.是我的分給別人了。
這里其實(shí)我們基尼系數(shù)只是衡量了第一個(gè)而已
我們其實(shí)可以換個(gè)角度來想,分正確的情況有哪些,這樣的話我們用1再減一下不就完成了嗎?也就是直接理解出來了后面那個(gè)式子。

那么自然而然就出現(xiàn)了基尼不純度,通過衡量基尼不純度就可以完成評價(jià)分割的效果好不好的問題。如果效果很好,那么就將單獨(dú)的這個(gè)類別保存出來,剩下的規(guī)劃成下一個(gè)待分割的類別(繼續(xù)遞歸就可以了),這個(gè)和上面的其實(shí)不太一樣。我們這里最后產(chǎn)生的其實(shí)是一個(gè)二叉樹。

總結(jié)

以上是生活随笔為你收集整理的集成学习(一)—预备知识:分类树和回归树的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。