當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

信息熵和交叉熵的细节理解

發(fā)布時(shí)間：2025/4/5 编程问答 34 豆豆

生活随笔收集整理的這篇文章主要介紹了信息熵和交叉熵的细节理解小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

先陳述我這里說(shuō)了半天的信息熵是個(gè)什么東西？

這里說(shuō)的信息熵是什么東西？

信息熵主要是應(yīng)用在集成學(xué)習(xí)作為評(píng)價(jià)指標(biāo)，判定我們某次的分類是不是效果足夠好。

這里說(shuō)的交叉熵是什么東西？

雖然之前還有其他應(yīng)用，但是這個(gè)東西目前最主要的應(yīng)用還是深度學(xué)習(xí)當(dāng)中作為損失函數(shù)來(lái)支撐反向傳播的優(yōu)化。

1.什么是信息量？從信號(hào)量理解信息熵

先看百度百科怎么說(shuō)：信息量是指信息多少的量度。1928年R.V.L.哈特萊首先提出信息定量化的初步設(shè)想，他將消息數(shù)的對(duì)數(shù)定義為信息量。若信源有m種消息，且每個(gè)消息是以相等可能產(chǎn)生的，則該信源的信息量可表示為I=log2m。

自己理解一下這個(gè)事情：這個(gè)東西的就是反映一個(gè)信號(hào)具有多少信息的問(wèn)題。

那么接下來(lái)我們要思考我們平時(shí)生活當(dāng)中的一句話到底怎么對(duì)應(yīng)一個(gè)信號(hào)個(gè)數(shù)，例如我們中國(guó)乒乓男團(tuán)獲得了冠軍，這個(gè)獲得冠軍到底包含了多少信息？（也就是其信息量應(yīng)該定義為多少？）

剛好看《數(shù)學(xué)之美》中有一個(gè)非常直觀的例子：

假設(shè)我們沒(méi)有看世界杯的比賽，但是想知道哪支球隊(duì)會(huì)是冠軍，只能去問(wèn)已經(jīng)看過(guò)比賽的觀眾，但是我們只能猜測(cè)某支球隊(duì)是或不是冠軍，然后觀眾用對(duì)或不對(duì)來(lái)回答，我們想要猜測(cè)次數(shù)盡可能少，所用的方法就是二分法。假如有 16 支球隊(duì)，分別編號(hào)，先問(wèn)是否在 1-8 之間，如果是就繼續(xù)問(wèn)是否在 1-4 之間，以此類推，直到最后判斷出冠軍球隊(duì)是哪只。如果球隊(duì)數(shù)量是 16，我們需要問(wèn) 4 次來(lái)得到最后的答案。那么世界冠軍這條消息的信息量就是 4。在計(jì)算機(jī)中，這條信息的信息量就是 4 比特，如果一共是 32 支球隊(duì)參賽，那么世界冠軍的信息量就是 5 比特，可以看到信息量跟可能情況的對(duì)數(shù) log （以 2 為底）有關(guān)（這里大概有點(diǎn)知道為什么求熵的公式里會(huì)有一個(gè) log 了）。

這里我們細(xì)致的理解一下為什么選擇log2？這個(gè)問(wèn)題其實(shí)可以轉(zhuǎn)化成了：為什么使用二分法？這個(gè)問(wèn)題。為什么使用二分法？其實(shí)就很好回答了，這是我們最有效的直接獲得最終結(jié)果的方法。
其他的方法：

1.平均效果不理想，例如我們直接詢問(wèn)是不是3隊(duì)獲得了冠軍，可能直接就猜中了，也有可能我們猜了半天都是巧妙的躲避了正確答案。
2.需要特殊的前提，例如由于某次比賽的分組具有特殊性，對(duì)4同余的隊(duì)伍不可能同時(shí)獲得冠軍，這里我們可能就有更好的方式了，但是這就引入了特殊的條件。

但是以往經(jīng)驗(yàn)表示，如果世界杯有 32 支球隊(duì)參賽，有些球隊(duì)實(shí)力很強(qiáng)，拿到冠軍的可能性更大，而有些隊(duì)伍拿冠軍的概率就很小。我們?cè)谥坝枚址ㄓ?jì)算的時(shí)候其實(shí)是看做每個(gè)球隊(duì)奪冠的概率都相等，因此我們從最可能奪冠的幾支球隊(duì)中猜測(cè)冠軍球隊(duì)，實(shí)際需要的信息量是小于我們之前方法計(jì)算的信息量的。

這里我們就得思考：某個(gè)球隊(duì)的概率發(fā)生變化的時(shí)候，這個(gè)球隊(duì)奪冠的信息量是怎么變化的？

這里例如某個(gè)球隊(duì)奪冠的概率為八分之一，其實(shí)就相當(dāng)于在八種可能性當(dāng)中選擇了這個(gè)隊(duì)伍的可能性，所以我們得到這個(gè)隊(duì)伍贏得冠軍的局部信息量其實(shí)就是log2（1/p）（其中的p是這個(gè)隊(duì)伍獲得冠軍的概率）所以想要得到總體的信息量均值，其實(shí)就是把每個(gè)局部的信息量的值，都加上相應(yīng)的權(quán)重就完事了。
將負(fù)號(hào)提出來(lái)某個(gè)隊(duì)伍奪得冠軍的信號(hào)量就是下面的表達(dá)式了：

這樣也就出現(xiàn)了信息量的均值是(Σp[log2(1/p)])/n
其實(shí)這就是我們平常獲得所說(shuō)的信息熵，只是我們信息熵將這個(gè)1/p提取了一個(gè)負(fù)號(hào)出來(lái)，也就得到了下面的內(nèi)容：

然后這里我們理解一下。為什么這個(gè)東西越接近0越說(shuō)明這是同一個(gè)類別，信息量（獲得這些種類的需要的信息的個(gè)數(shù)）為0的時(shí)候我們其實(shí)獲得的分類數(shù)就是2的0次方個(gè)分類，也就是1個(gè)分類。

也就是說(shuō)信息熵越接近0那么這里的內(nèi)容的種類也就越統(tǒng)一，也就是我們集成學(xué)習(xí)的分類效果越好，這也是集成學(xué)習(xí)的一個(gè)依據(jù)。

2.想要順利理解交叉熵我們得從KL散度開(kāi)始理解

KL散度

如果對(duì)于同一個(gè)隨機(jī)變量X有兩個(gè)單獨(dú)的概率分布P ( x ) 和Q ( x ) ，則我們可以使用KL散度來(lái)衡量這兩個(gè)概率分布之間的差異。

這個(gè)是Kullback-Leible提出來(lái)的，我并不能理解為什么這個(gè)可以反映兩個(gè)分布的相似程度，我只能籠統(tǒng)的理解一下這個(gè)東西是：每個(gè)概率計(jì)算相似度，計(jì)算某個(gè)位置的相似度的方式是：
大約我們理解其為，比例為1，也就是完全相同的時(shí)候恰好為0也就是最像的時(shí)候就是0，所以可以大致表示一個(gè)兩者的相似度。

總結(jié)

以上是生活随笔為你收集整理的信息熵和交叉熵的细节理解的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：什么是pretext tasks？
下一篇：暴力解决：InvocationExcep