當(dāng)前位置：首頁 > 编程资源 > 综合教程 >内容正文

综合教程

关于信息论中熵的定义与含义：

發(fā)布時(shí)間：2024/6/21 综合教程 32 生活家

生活随笔收集整理的這篇文章主要介紹了关于信息论中熵的定义与含义：小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

信息熵：

1. 熱力學(xué)中的熱熵是表示分子狀態(tài)混亂程度的物理量。香農(nóng)用信息熵的概念來描述信源的不確定度。

2. ；兩個(gè)獨(dú)立符號(hào)所產(chǎn)生的不確定性應(yīng)等于各自不確定性之和

3. 在信源中，考慮的不是某一單個(gè)符號(hào)發(fā)生的不確定性，而是要考慮這個(gè)信源所有可能發(fā)生情況的平均不確定性。

對(duì)于當(dāng)個(gè)符號(hào)，它的概率為p時(shí)，用這個(gè)公式衡量它的不確定性：

而信源的平均不確定性，稱為信息熵，用下面的公式表示：

注意：1. 當(dāng)式中的對(duì)數(shù)的底為2時(shí)，信息熵的單位為比特。它底數(shù)為其它時(shí)，它對(duì)應(yīng)的單位也不一樣。

2. 信息熵是信息論中用于度量信息量的一個(gè)概念。一個(gè)系統(tǒng)越是有序，信息熵就越低；反之，一個(gè)系統(tǒng)越是混亂，信息熵就越高。所以，信息熵也可以說是系統(tǒng)有序化程度的一個(gè)度量。

以上內(nèi)容來自：http://baike.baidu.com/link?url=eX6fx7VJkYByHdKxKo_TF7mQL86IdokHni2lUGu46k_iL_AoQY_aOY_AQG3ZWFfmx64a9GengJkyLS8w79SEBrFlUhqYlzXdIKTK1e7wQ1L28ctUBfa4m6IXtZyHxsq0

條件熵：

設(shè)X,Y是兩個(gè)離散型隨機(jī)變量，隨機(jī)變量X給定的條件下隨機(jī)變量Y的條件熵H（Y|X）表示在已知隨機(jī)變量X的條件下隨機(jī)變量Y的不確定性。公式推導(dǎo)如下：

注意：

注意：1. 這個(gè)條件熵，不是指在給定某個(gè)數(shù)（某個(gè)變量為某個(gè)值）的情況下，另一個(gè)變量的熵是多少，而是期望！因?yàn)闂l件熵中X也是一個(gè)變量，意思是在一個(gè)變量X的條件下（變量X的每個(gè)值都會(huì)取），另一個(gè)變量Y熵對(duì)X的期望。

2. 在計(jì)算信息增益的時(shí)候，經(jīng)常需要用到條件熵。信息增益（information gain）是指期望信息或者信息熵的有效減少量（通常用“字節(jié)”衡量）。通常表示為：信息熵 - 條件熵；在決策樹中就是根據(jù)信息增益選擇特征的；

以上內(nèi)容參考：https://mp.weixin.qq.com/s/v7-hhDVJUQKgNECcgab1qg

相對(duì)熵或 K-L散度

設(shè)p(x)和q(x)是 X 取值的兩個(gè)概率分布，則 p 對(duì)于 q 的相對(duì)熵為：

它其實(shí)吧，有點(diǎn)意思的，卡式可以寫成這樣子：

KL散度是兩個(gè)概率分布P和Q差別的非對(duì)稱性的度量。KL散度是用來度量使用基于Q的編碼來編碼來自P的樣本平均所需的額外的位元數(shù)。典型情況下，P表示數(shù)據(jù)的真實(shí)分布，Q 表示數(shù)據(jù)的理論分布，模型分布，或P的近似分布。

注意：1. KL散度不是對(duì)稱的，即：

2. 相對(duì)熵的值為非負(fù)值。可以從一個(gè)很重要的不等式中推論出來，即吉布斯不等式：

以上內(nèi)容參考：http://blog.csdn.net/acdreamers/article/details/44657745

交叉熵：

它的公式如下：

它的本質(zhì)含義為：編碼方案不一定完美時(shí)，平均編碼的長(zhǎng)度是多少。

通過公式很好理解。。。。再結(jié)合相對(duì)熵更容易明白什么含義了。

另外，我自己補(bǔ)充一點(diǎn)：

在人工神經(jīng)網(wǎng)絡(luò)中，我們有時(shí)候會(huì)作用交叉熵作為代價(jià)函數(shù)，此時(shí)吧，我們實(shí)際上是把輸出看作為一個(gè)貝努力分布的的。論文 Extracting and composing robust features with denoising autoencoders里有說明。

上面三者的區(qū)別：

下面是一個(gè)總結(jié)，我在知乎上看到的，我的理解也是這個(gè)意思，這里引用過來：

1）信息熵：編碼方案完美時(shí)，最短平均編碼長(zhǎng)度的是多少。
2）交叉熵：編碼方案不一定完美時(shí)（由于對(duì)概率分布的估計(jì)不一定正確），平均編碼長(zhǎng)度的是多少。
平均編碼長(zhǎng)度 = 最短平均編碼長(zhǎng)度 + 一個(gè)增量
3）相對(duì)熵：編碼方案不一定完美時(shí)，平均編碼長(zhǎng)度相對(duì)于最小值的增加值。（即上面那個(gè)增量）

作者：張一山
鏈接：https://www.zhihu.com/question/41252833/answer/140950659
來源：知乎

互信息：

先說點(diǎn)其它的：有兩個(gè)變量，分別為X與Y, 則X的信息熵為H（X)， Y的信息熵為H（Y)，然后呢，

問： x與y的聯(lián)合分布的信息熵，就可以表示為H（X,Y) 。如果 X與Y獨(dú)立的話，則有 H（X，Y） = H（X) + H（Y）。如果不獨(dú)立的話，則有：H（X，Y） = H（X) + H（Y|X） = H（Y) + H（X|Y）。

現(xiàn)在呢，互信息就可以表示為：

I(X,Y) = H(X) + H(Y) – H(X,Y)

這個(gè)公式，對(duì)應(yīng)的含義就是：它可以看成是一個(gè)隨機(jī)變量中包含的關(guān)于另一個(gè)隨機(jī)變量的信息量。

另外，我們還可以把互信息寫為： I(X,Y) = H(X) – H(X|Y) = H(Y) – H(Y|X)

此時(shí)，互信息可以說成一個(gè)隨機(jī)變量由于已知另一個(gè)隨機(jī)變量而減少的不肯定性。

是不是有點(diǎn)意思？？很好理解吧。

總結(jié)

以上是生活随笔為你收集整理的关于信息论中熵的定义与含义：的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： Facets:一款Google开源机器学
下一篇：收购交易失败，英特尔将向高塔半导体提供代