通俗理解条件熵-数学
就是決策樹里面選劃分屬性用到的計(jì)算
條件熵越小表示劃分之后各個(gè)集合越純凈
前面我們總結(jié)了信息熵的概念通俗理解信息熵 - 知乎專欄,這次我們來理解一下條件熵。
我們首先知道信息熵是考慮該隨機(jī)變量的所有可能取值,即所有可能發(fā)生事件所帶來的信息量的期望。公式如下:
我們的條件熵的定義是:定義為X給定條件下,Y的條件概率分布的熵對(duì)X的數(shù)學(xué)期望
這個(gè)還是比較抽象,下面我們解釋一下:
設(shè)有隨機(jī)變量(X,Y),其聯(lián)合概率分布為
條件熵H(Y|X)表示在已知隨機(jī)變量X的條件下隨機(jī)變量Y的不確定性。隨機(jī)變量X給定的條件下隨機(jī)變量Y的條件熵H(Y|X)
公式
下面推導(dǎo)一下條件熵的公式:
注意
注意,這個(gè)條件熵,是指在給定某個(gè)數(shù)(某個(gè)變量為某個(gè)值)的情況下,另一個(gè)變量的熵是多少,變量的不確定性是多少?
因?yàn)闂l件熵中X也是一個(gè)變量,意思是在一個(gè)變量X的條件下(變量X的每個(gè)值都會(huì)取),另一個(gè)變量Y熵對(duì)X的期望。
這是最容易錯(cuò)的!
例子
下面通過例子來解釋一下:
假如我們有上面數(shù)據(jù):
設(shè)隨機(jī)變量Y={嫁,不嫁}
我們可以統(tǒng)計(jì)出,嫁的個(gè)數(shù)為6/12 = 1/2
不嫁的個(gè)數(shù)為6/12 = 1/2
那么Y的熵,根據(jù)熵的公式來算,可以得到H(Y) = -1/2log1/2 -1/2log1/2
為了引出條件熵,我們現(xiàn)在還有一個(gè)變量X,代表長相是帥還是不帥,當(dāng)長相是不帥的時(shí)候,統(tǒng)計(jì)如下紅色所示:
可以得出,當(dāng)已知不帥的條件下,滿足條件的只有4個(gè)數(shù)據(jù)了,這四個(gè)數(shù)據(jù)中,不嫁的個(gè)數(shù)為1個(gè),占1/4
嫁的個(gè)數(shù)為3個(gè),占3/4
那么此時(shí)的H(Y|X = 不帥) = -1/4log1/4-3/4log3/4
p(X = 不帥) = 4/12 = 1/3
同理我們可以得到:
當(dāng)已知帥的條件下,滿足條件的有8個(gè)數(shù)據(jù)了,這八個(gè)數(shù)據(jù)中,不嫁的個(gè)數(shù)為5個(gè),占5/8
嫁的個(gè)數(shù)為3個(gè),占3/8
那么此時(shí)的H(Y|X = 帥) = -5/8log5/8-3/8log3/8
p(X = 帥) = 8/12 = 2/3
計(jì)算結(jié)果
有了上面的鋪墊之后,我們終于可以計(jì)算我們的條件熵了,我們現(xiàn)在需要求:
H(Y|X = 長相)
也就是說,我們想要求出當(dāng)已知長相的條件下的條件熵。
根據(jù)公式我們可以知道,長相可以取帥與不帥倆種
條件熵是另一個(gè)變量Y熵對(duì)X(條件)的期望。
公式為:
H(Y|X=長相) = p(X =帥)*H(Y|X=帥)+p(X =不帥)*H(Y|X=不帥)
然后將上面已經(jīng)求得的答案帶入即可求出條件熵!
這里比較容易錯(cuò)誤就是忽略了X也是可以取多個(gè)值,然后對(duì)其求期望!!
總結(jié)
其實(shí)條件熵意思是按一個(gè)新的變量的每個(gè)值對(duì)原變量進(jìn)行分類,比如上面這個(gè)題把嫁與不嫁按帥,不帥分成了倆類。
然后在每一個(gè)小類里面,都計(jì)算一個(gè)小熵,然后每一個(gè)小熵乘以各個(gè)類別的概率,然后求和。
我們用另一個(gè)變量對(duì)原變量分類后,原變量的不確定性就會(huì)減小了,因?yàn)樾略隽薠的信息,可以感受一下。不確定程度減少了多少就是信息的增益。
后面會(huì)講信息增益的概念,信息增益也是決策樹算法的關(guān)鍵。
致謝:
德川,皓宇,繼豪,施琦
總結(jié)
以上是生活随笔為你收集整理的通俗理解条件熵-数学的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 预见未来丨机器学习:未来十年研究热点
- 下一篇: 群论中的拉格朗日定理(子群的阶必然能整除