日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

信息熵和交叉熵的细节理解

發(fā)布時(shí)間:2025/4/5 编程问答 34 豆豆
生活随笔 收集整理的這篇文章主要介紹了 信息熵和交叉熵的细节理解 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

先陳述我這里說(shuō)了半天的信息熵是個(gè)什么東西?

這里說(shuō)的信息熵是什么東西?

信息熵主要是應(yīng)用在集成學(xué)習(xí)作為評(píng)價(jià)指標(biāo),判定我們某次的分類是不是效果足夠好。

這里說(shuō)的交叉熵是什么東西?

雖然之前還有其他應(yīng)用,但是這個(gè)東西目前最主要的應(yīng)用還是深度學(xué)習(xí)當(dāng)中作為損失函數(shù)來(lái)支撐反向傳播的優(yōu)化。

1.什么是信息量?從信號(hào)量理解信息熵

先看百度百科怎么說(shuō):信息量是指信息多少的量度。1928年R.V.L.哈特萊首先提出信息定量化的初步設(shè)想,他將消息數(shù)的對(duì)數(shù)定義為信息量。若信源有m種消息,且每個(gè)消息是以相等可能產(chǎn)生的,則該信源的信息量可表示為I=log2m。

自己理解一下這個(gè)事情:這個(gè)東西的就是反映一個(gè)信號(hào)具有多少信息的問(wèn)題。

那么接下來(lái)我們要思考我們平時(shí)生活當(dāng)中的一句話到底怎么對(duì)應(yīng)一個(gè)信號(hào)個(gè)數(shù),例如我們中國(guó)乒乓男團(tuán)獲得了冠軍,這個(gè)獲得冠軍到底包含了多少信息?(也就是其信息量應(yīng)該定義為多少?)

剛好看《數(shù)學(xué)之美》中有一個(gè)非常直觀的例子:

假設(shè)我們沒(méi)有看世界杯的比賽,但是想知道哪支球隊(duì)會(huì)是冠軍,只能去問(wèn)已經(jīng)看過(guò)比賽的觀眾,但是我們只能猜測(cè)某支球隊(duì)是或不是冠軍,然后觀眾用對(duì)或不對(duì)來(lái)回答,我們想要猜測(cè)次數(shù)盡可能少,所用的方法就是二分法。假如有 16 支球隊(duì),分別編號(hào),先問(wèn)是否在 1-8 之間,如果是就繼續(xù)問(wèn)是否在 1-4 之間,以此類推,直到最后判斷出冠軍球隊(duì)是哪只。如果球隊(duì)數(shù)量是 16,我們需要問(wèn) 4 次來(lái)得到最后的答案。那么世界冠軍這條消息的信息量就是 4。在計(jì)算機(jī)中,這條信息的信息量就是 4 比特,如果一共是 32 支球隊(duì)參賽,那么世界冠軍的信息量就是 5 比特,可以看到信息量跟可能情況的對(duì)數(shù) log (以 2 為底)有關(guān)(這里大概有點(diǎn)知道為什么求熵的公式里會(huì)有一個(gè) log 了)。

這里我們細(xì)致的理解一下為什么選擇log2?這個(gè)問(wèn)題其實(shí)可以轉(zhuǎn)化成了:為什么使用二分法?這個(gè)問(wèn)題。為什么使用二分法?其實(shí)就很好回答了,這是我們最有效的直接獲得最終結(jié)果的方法。
其他的方法:

  • 1.平均效果不理想,例如我們直接詢問(wèn)是不是3隊(duì)獲得了冠軍,可能直接就猜中了,也有可能我們猜了半天都是巧妙的躲避了正確答案。
  • 2.需要特殊的前提,例如由于某次比賽的分組具有特殊性,對(duì)4同余的隊(duì)伍不可能同時(shí)獲得冠軍,這里我們可能就有更好的方式了,但是這就引入了特殊的條件。

但是以往經(jīng)驗(yàn)表示,如果世界杯有 32 支球隊(duì)參賽,有些球隊(duì)實(shí)力很強(qiáng),拿到冠軍的可能性更大,而有些隊(duì)伍拿冠軍的概率就很小。我們?cè)谥坝枚址ㄓ?jì)算的時(shí)候其實(shí)是看做每個(gè)球隊(duì)奪冠的概率都相等,因此我們從最可能奪冠的幾支球隊(duì)中猜測(cè)冠軍球隊(duì),實(shí)際需要的信息量是小于我們之前方法計(jì)算的信息量的。

這里我們就得思考:某個(gè)球隊(duì)的概率發(fā)生變化的時(shí)候,這個(gè)球隊(duì)奪冠的信息量是怎么變化的?

這里例如某個(gè)球隊(duì)奪冠的概率為八分之一,其實(shí)就相當(dāng)于在八種可能性當(dāng)中選擇了這個(gè)隊(duì)伍的可能性,所以我們得到這個(gè)隊(duì)伍贏得冠軍的局部信息量其實(shí)就是log2(1/p)(其中的p是這個(gè)隊(duì)伍獲得冠軍的概率)所以想要得到總體的信息量均值,其實(shí)就是把每個(gè)局部的信息量的值,都加上相應(yīng)的權(quán)重就完事了。
將負(fù)號(hào)提出來(lái)某個(gè)隊(duì)伍奪得冠軍的信號(hào)量就是下面的表達(dá)式了:

這樣也就出現(xiàn)了 信息量的均值是(Σp[log2(1/p)])/n
其實(shí)這就是我們平常獲得所說(shuō)的信息熵,只是我們信息熵將這個(gè)1/p提取了一個(gè)負(fù)號(hào)出來(lái),也就得到了下面的內(nèi)容:

然后這里我們理解一下。為什么這個(gè)東西越接近0越說(shuō)明這是同一個(gè)類別,信息量(獲得這些種類的需要的信息的個(gè)數(shù))為0的時(shí)候我們其實(shí)獲得的分類數(shù)就是2的0次方個(gè)分類,也就是1個(gè)分類。

也就是說(shuō)信息熵越接近0那么這里的內(nèi)容的種類也就越統(tǒng)一,也就是我們集成學(xué)習(xí)的分類效果越好,這也是集成學(xué)習(xí)的一個(gè)依據(jù)。

2.想要順利理解交叉熵我們得從KL散度開(kāi)始理解

KL散度

如果對(duì)于同一個(gè)隨機(jī)變量X有兩個(gè)單獨(dú)的概率分布P ( x ) 和Q ( x ) ,則我們可以使用KL散度來(lái)衡量這兩個(gè)概率分布之間的差異。

這個(gè)是Kullback-Leible提出來(lái)的,我并不能理解為什么這個(gè)可以反映兩個(gè)分布的相似程度,我只能籠統(tǒng)的理解一下這個(gè)東西是:每個(gè)概率計(jì)算相似度,計(jì)算某個(gè)位置的相似度的方式是:
大約我們理解其為,比例為1,也就是完全相同的時(shí)候恰好為0也就是最像的時(shí)候就是0,所以可以大致表示一個(gè)兩者的相似度。

總結(jié)

以上是生活随笔為你收集整理的信息熵和交叉熵的细节理解的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。