信息熵和交叉熵的细节理解
先陳述我這里說(shuō)了半天的信息熵是個(gè)什么東西?
這里說(shuō)的信息熵是什么東西?
信息熵主要是應(yīng)用在集成學(xué)習(xí)作為評(píng)價(jià)指標(biāo),判定我們某次的分類是不是效果足夠好。
這里說(shuō)的交叉熵是什么東西?
雖然之前還有其他應(yīng)用,但是這個(gè)東西目前最主要的應(yīng)用還是深度學(xué)習(xí)當(dāng)中作為損失函數(shù)來(lái)支撐反向傳播的優(yōu)化。
1.什么是信息量?從信號(hào)量理解信息熵
先看百度百科怎么說(shuō):信息量是指信息多少的量度。1928年R.V.L.哈特萊首先提出信息定量化的初步設(shè)想,他將消息數(shù)的對(duì)數(shù)定義為信息量。若信源有m種消息,且每個(gè)消息是以相等可能產(chǎn)生的,則該信源的信息量可表示為I=log2m。
自己理解一下這個(gè)事情:這個(gè)東西的就是反映一個(gè)信號(hào)具有多少信息的問(wèn)題。
那么接下來(lái)我們要思考我們平時(shí)生活當(dāng)中的一句話到底怎么對(duì)應(yīng)一個(gè)信號(hào)個(gè)數(shù),例如我們中國(guó)乒乓男團(tuán)獲得了冠軍,這個(gè)獲得冠軍到底包含了多少信息?(也就是其信息量應(yīng)該定義為多少?)
剛好看《數(shù)學(xué)之美》中有一個(gè)非常直觀的例子:
假設(shè)我們沒(méi)有看世界杯的比賽,但是想知道哪支球隊(duì)會(huì)是冠軍,只能去問(wèn)已經(jīng)看過(guò)比賽的觀眾,但是我們只能猜測(cè)某支球隊(duì)是或不是冠軍,然后觀眾用對(duì)或不對(duì)來(lái)回答,我們想要猜測(cè)次數(shù)盡可能少,所用的方法就是二分法。假如有 16 支球隊(duì),分別編號(hào),先問(wèn)是否在 1-8 之間,如果是就繼續(xù)問(wèn)是否在 1-4 之間,以此類推,直到最后判斷出冠軍球隊(duì)是哪只。如果球隊(duì)數(shù)量是 16,我們需要問(wèn) 4 次來(lái)得到最后的答案。那么世界冠軍這條消息的信息量就是 4。在計(jì)算機(jī)中,這條信息的信息量就是 4 比特,如果一共是 32 支球隊(duì)參賽,那么世界冠軍的信息量就是 5 比特,可以看到信息量跟可能情況的對(duì)數(shù) log (以 2 為底)有關(guān)(這里大概有點(diǎn)知道為什么求熵的公式里會(huì)有一個(gè) log 了)。
這里我們細(xì)致的理解一下為什么選擇log2?這個(gè)問(wèn)題其實(shí)可以轉(zhuǎn)化成了:為什么使用二分法?這個(gè)問(wèn)題。為什么使用二分法?其實(shí)就很好回答了,這是我們最有效的直接獲得最終結(jié)果的方法。
其他的方法:
- 1.平均效果不理想,例如我們直接詢問(wèn)是不是3隊(duì)獲得了冠軍,可能直接就猜中了,也有可能我們猜了半天都是巧妙的躲避了正確答案。
- 2.需要特殊的前提,例如由于某次比賽的分組具有特殊性,對(duì)4同余的隊(duì)伍不可能同時(shí)獲得冠軍,這里我們可能就有更好的方式了,但是這就引入了特殊的條件。
但是以往經(jīng)驗(yàn)表示,如果世界杯有 32 支球隊(duì)參賽,有些球隊(duì)實(shí)力很強(qiáng),拿到冠軍的可能性更大,而有些隊(duì)伍拿冠軍的概率就很小。我們?cè)谥坝枚址ㄓ?jì)算的時(shí)候其實(shí)是看做每個(gè)球隊(duì)奪冠的概率都相等,因此我們從最可能奪冠的幾支球隊(duì)中猜測(cè)冠軍球隊(duì),實(shí)際需要的信息量是小于我們之前方法計(jì)算的信息量的。
這里我們就得思考:某個(gè)球隊(duì)的概率發(fā)生變化的時(shí)候,這個(gè)球隊(duì)奪冠的信息量是怎么變化的?
這里例如某個(gè)球隊(duì)奪冠的概率為八分之一,其實(shí)就相當(dāng)于在八種可能性當(dāng)中選擇了這個(gè)隊(duì)伍的可能性,所以我們得到這個(gè)隊(duì)伍贏得冠軍的局部信息量其實(shí)就是log2(1/p)(其中的p是這個(gè)隊(duì)伍獲得冠軍的概率)所以想要得到總體的信息量均值,其實(shí)就是把每個(gè)局部的信息量的值,都加上相應(yīng)的權(quán)重就完事了。
將負(fù)號(hào)提出來(lái)某個(gè)隊(duì)伍奪得冠軍的信號(hào)量就是下面的表達(dá)式了:
這樣也就出現(xiàn)了 信息量的均值是(Σp[log2(1/p)])/n
其實(shí)這就是我們平常獲得所說(shuō)的信息熵,只是我們信息熵將這個(gè)1/p提取了一個(gè)負(fù)號(hào)出來(lái),也就得到了下面的內(nèi)容:
然后這里我們理解一下。為什么這個(gè)東西越接近0越說(shuō)明這是同一個(gè)類別,信息量(獲得這些種類的需要的信息的個(gè)數(shù))為0的時(shí)候我們其實(shí)獲得的分類數(shù)就是2的0次方個(gè)分類,也就是1個(gè)分類。
也就是說(shuō)信息熵越接近0那么這里的內(nèi)容的種類也就越統(tǒng)一,也就是我們集成學(xué)習(xí)的分類效果越好,這也是集成學(xué)習(xí)的一個(gè)依據(jù)。
2.想要順利理解交叉熵我們得從KL散度開(kāi)始理解
KL散度
如果對(duì)于同一個(gè)隨機(jī)變量X有兩個(gè)單獨(dú)的概率分布P ( x ) 和Q ( x ) ,則我們可以使用KL散度來(lái)衡量這兩個(gè)概率分布之間的差異。
這個(gè)是Kullback-Leible提出來(lái)的,我并不能理解為什么這個(gè)可以反映兩個(gè)分布的相似程度,我只能籠統(tǒng)的理解一下這個(gè)東西是:每個(gè)概率計(jì)算相似度,計(jì)算某個(gè)位置的相似度的方式是:
大約我們理解其為,比例為1,也就是完全相同的時(shí)候恰好為0也就是最像的時(shí)候就是0,所以可以大致表示一個(gè)兩者的相似度。
總結(jié)
以上是生活随笔為你收集整理的信息熵和交叉熵的细节理解的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 什么是pretext tasks?
- 下一篇: 暴力解决:InvocationExcep