日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

通俗理解决策树算法中信息增益的

發布時間:2023/12/3 编程问答 32 豆豆
生活随笔 收集整理的這篇文章主要介紹了 通俗理解决策树算法中信息增益的 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

轉載自? ?通俗理解決策樹算法中信息增益的

通俗理解決策樹算法中的信息增益

在決策樹算法的學習過程中,信息增益是特征選擇的一個重要指標,它定義為一個特征能夠為分類系統帶來多少信息,帶來的信息越多,說明該特征越重要,相應的信息增益也就越大。

1、概念

我們前面說了,信息熵是代表隨機變量的復雜度(不確定度)通俗理解信息熵,條件熵代表在某一個條件下,隨機變量的復雜度(不確定度)通俗理解條件熵

而我們的信息增益恰好是:信息熵-條件熵。

換句話說,信息增益代表了在一個條件下,信息復雜度(不確定性)減少的程度。

那么我們現在也很好理解了,在決策樹算法中,我們的關鍵就是每次選擇一個特征,特征有多個,那么到底按照什么標準來選擇哪一個特征。

這個問題就可以用信息增益來度量。如果選擇一個特征后,信息增益最大(信息不確定性減少的程度最大),那么我們就選取這個特征。

?

2、例子

我們有如下數據:

可以求得隨機變量X(嫁與不嫁)的信息熵為:

嫁的個數為6個,占1/2,那么信息熵為-1/2log1/2-1/2log1/2 = -log1/2=0.301

現在假如我知道了一個男生的身高信息。

身高有三個可能的取值{矮,中,高}

矮包括{1,2,3,5,6,11,12},嫁的個數為1個,不嫁的個數為6個

中包括{8,9} ,嫁的個數為2個,不嫁的個數為0個

高包括{4,7,10},嫁的個數為3個,不嫁的個數為0個

先回憶一下條件熵的公式如下:

我們先求出公式對應的:

H(Y|X = 矮) = -1/7log1/7-6/7log6/7=0.178

H(Y|X=中) = -1log1-0 = 0

H(Y|X=高) = -1log1-0=0

p(X = 矮) = 7/12,p(X =中) = 2/12,p(X=高) = 3/12

則可以得出條件熵為:

7/12*0.178+2/12*0+3/12*0 = 0.103

那么我們知道信息熵與條件熵相減就是我們的信息增益,為

0.301-0.103=0.198

所以我們可以得出我們在知道了身高這個信息之后,信息增益是0.198

?

3、結論

我們可以知道,本來如果我對一個男生什么都不知道的話,作為他的女朋友決定是否嫁給他的不確定性有0.301這么大。

當我們知道男朋友的身高信息后,不確定度減少了0.198,不確定度只有0.103這么大了,(果不確定是0就最好了,我肯定嫁給他,因為他好的沒有懸念,哈哈).也就是說,身高這個特征對于我們廣大女生同學來說,決定嫁不嫁給自己的男朋友是很重要的。

至少我們知道了身高特征后,我們原來沒有底的心里(0.301)已經明朗一半多了,減少0.198了(大于原來的一半了)。

那么這就類似于非誠勿擾節目里面的橋段了,請問女嘉賓,你只能知道男生的一個特征。請問你想知道哪個特征。

假如其它特征我也全算了,信息增益是身高這個特征最大。那么我就可以說,孟非哥哥,我想知道男嘉賓的一個特征是身高特征。因為它在這些特征中,對于我挑夫君是最重要的,信息增益是最大的,知道了這個特征,嫁與不嫁的不確定度減少的是最多的。

?

哈哈,希望能對理解信息增益有所幫助。

總結

以上是生活随笔為你收集整理的通俗理解决策树算法中信息增益的的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。