當(dāng)前位置：首頁(yè) >

今天开始学Pattern Recognition and Machine Learning (PRML)，章节1.6，Information Theory信息论简介

發(fā)布時(shí)間：2025/3/21 32 豆豆

生活随笔收集整理的這篇文章主要介紹了今天开始学Pattern Recognition and Machine Learning (PRML)，章节1.6，Information Theory信息论简介小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

今天開始學(xué)Pattern Recognition and Machine Learning (PRML)，章節(jié)1.6，Information Theory信息論簡(jiǎn)介

前面有朋友說(shuō)寫的東西太理論了，我想說(shuō)我并不是在和很多其他博客一樣做topic的入門介紹，配合很多示意圖之類；而是在記錄PRML這本經(jīng)典教科書的內(nèi)容。如果想好好學(xué)Pattern Recognition and Machine Learning，建議花半年時(shí)間看一本國(guó)外經(jīng)典。（前面忙實(shí)驗(yàn)室的任務(wù)寫的太慢了，這本書要吃透是要花點(diǎn)時(shí)間。）章節(jié)1.3-1.5都是介紹性質(zhì)的，我先不寫了后面有時(shí)間再補(bǔ)。

信息論，不用多說(shuō)，在很多領(lǐng)域都得到了應(yīng)用，應(yīng)該算是一個(gè)相對(duì)成熟的主題。PRML這一節(jié)里將介紹信息論的一些基本概念，主要是為了明白這些概念是怎么來(lái)的（如gain，entropy），代表什么含義。在書里沒(méi)有具體的應(yīng)用結(jié)合，后面可以單獨(dú)簡(jiǎn)介一節(jié)關(guān)于決策樹的方法，需要的信息論知識(shí)基本在這一節(jié)里面可以覆蓋到。

章節(jié)1.6 Information Theory

直觀的一種理解，當(dāng)我們聽(tīng)到一個(gè)不太可能發(fā)生的事件時(shí)我們所接收的信息量要比聽(tīng)到一件習(xí)以為常的事件所接收的信息量大，如果我們聽(tīng)到了一件必然發(fā)生的事情那么我們接收到的信息就是0。讓我們考察對(duì)于一個(gè)離散隨機(jī)變量x，類似的出現(xiàn)那些概率很低的x取值時(shí)我們得到的信息量要大。

通過(guò)上面的解釋，首先，我們有理由認(rèn)為信息量的大小和隨機(jī)變量x的概率有關(guān)，我們用h(x)表示獲得的信息量的大小，p(x)表示離散隨機(jī)變量x取值的概率。我們相信h(x)和p(x)是單調(diào)負(fù)相關(guān)的（一個(gè)大另一個(gè)就小）。

再來(lái)考察這樣一個(gè)情況，如果觀察兩個(gè)相互無(wú)關(guān)（獨(dú)立）的事件x，y，我們得到的信息量可以寫成：

h(x,y) = h(x)+h(y);

而兩個(gè)相互獨(dú)立事件的概率符合：

P(x,y) = p(x)*p(y);

由此可見(jiàn)啊，h應(yīng)當(dāng)和p成對(duì)數(shù)（log）關(guān)系，于是，我們結(jié)合上述兩點(diǎn)觀察，得出

可見(jiàn)，信息量是大于等于0的。這里我們先用2為對(duì)數(shù)的底，此時(shí)，h的單位是bits。（信息量大小由比特長(zhǎng)度來(lái)衡量。）

好了，讓我們考慮這樣一個(gè)情況，一個(gè)信息發(fā)送者要發(fā)送一個(gè)隨機(jī)變量的值給一個(gè)接收者，那么在傳輸過(guò)程中的平均信息量是（1.92）的h(x)的期望：

該值就稱為一個(gè)隨機(jī)變量的熵（Entropy），特別的，當(dāng)p等于0的時(shí)候，p(x)logp(x)=0。接下來(lái)讓我們看一個(gè)實(shí)際的例子，來(lái)體會(huì)一下熵這個(gè)概念：

========================================================================

例子：假如一個(gè)隨機(jī)變量x有8種可能的狀態(tài)，每一種都有相同的概率。傳輸該變量我們至少需要3個(gè)bits（2^3=8），或者我們可以用熵來(lái)刻畫：

同樣是3個(gè)bits，即平均信息量為3 bits，或者說(shuō)我們平均需要3bits來(lái)傳輸。

考慮另外一種情況，如果x的8個(gè)狀態(tài)(a-h)的概率分別為，那么，熵為：

也就是說(shuō)，不均勻分布的變量擁有較小的熵。在這個(gè)情況下，我們?cè)趺床拍茏龅狡骄?bits來(lái)傳輸呢？因?yàn)椴痪鶆蚍植?#xff0c;我們可以用短bit來(lái)代表大概率的狀態(tài)，長(zhǎng)bit來(lái)代表小概率的狀態(tài)，把上述8個(gè)狀態(tài)編碼成0, 10, 110, 1110, 111100, 111101, 111110, 111111，這個(gè)時(shí)候，平均的編碼長(zhǎng)度就是：

可見(jiàn)，我們可以用平均2bits長(zhǎng)來(lái)傳輸變量x，和熵是等價(jià)的。

========================================================================

香農(nóng)提出了noiseless coding theorem：熵是傳輸一個(gè)隨機(jī)變量（所有狀態(tài)or取值）所需編碼長(zhǎng)度的下限。（似乎很牛逼的樣子- -）

上面我們是用2為log的底來(lái)考量的，接下來(lái)為了一些計(jì)算的方便，我們使用自然對(duì)數(shù)e為底來(lái)考慮熵。當(dāng)用ln的時(shí)候，熵的單位是nats，很容易證明nats和bits相差一個(gè)常數(shù)倍數(shù)ln2。 Nat = ln2 Bit

隨機(jī)變量X的熵可以定義為：

其中xi是X的一種取值（狀態(tài)）。對(duì)于那些更sharp分布的變量，有較小的熵；而那些均勻分布的變量有較大的熵，圖1.30說(shuō)明了這個(gè)情況：

上面都考慮了離散變量的情況，接下來(lái)我們考慮連續(xù)變量的情況：

變量X取值落在一個(gè)小區(qū)段內(nèi)的概率是：

上面用到了均值定理，在一個(gè)很小的區(qū)段（bin）里面（長(zhǎng)度為），總能找到一個(gè)xi使得上述等式成立。因此概率就用(1.101)的右邊來(lái)表示了，這樣就離散化了。類似前面熵的定義：

可見(jiàn)，離散變量的熵和連續(xù)變量的熵在定義上相差一個(gè)，當(dāng)很小的時(shí)候，該項(xiàng)很大，因此得到符合常識(shí)的結(jié)論是：當(dāng)我們需要很精細(xì)地刻畫一個(gè)連續(xù)變量時(shí)，我們需要很長(zhǎng)的bits。

根據(jù)

我們定義

為微分熵。相應(yīng)的結(jié)論是，使得微分熵最大化的分布是高斯分布。微分熵是可以小于0的。

根據(jù)定義可以計(jì)算高斯分布的微分熵可以寫成

當(dāng)方差越大的時(shí)候，微分熵越大。

1.6.1 相對(duì)熵和互信息

相對(duì)熵也就是KL-divergence，很多地方都有看到KL。它的含義是什么呢？下面來(lái)解釋一下：對(duì)于一個(gè)未知的分布p（x），我們用q（x）來(lái)model它，那么我們需要的平均額外的信息量

是

上述式子很容易理解，就是兩者平均需要信息量的差，定義為KL-divergence。KL-divergence是不對(duì)稱的。

上述式子中的兩個(gè)期望的表達(dá)也可用離散的形式去估計(jì)，就是用一個(gè)集合的平均值。另外，我們可以假設(shè)我們估計(jì)的分布q是受一些參數(shù)影響的，那么KL-D可以近似寫成

其中求平均的常熟系數(shù)被略去了。因此可以看到，（1.119）的第二項(xiàng)是和theta無(wú)關(guān)的，不變的。那么最小化KL其實(shí)就等價(jià)于最大化似然方程了。

我們知道如果兩個(gè)變量x，y獨(dú)立，那么p(x,y) = p(x)p(y)。我們希望衡量?jī)蓚€(gè)變量相互獨(dú)立的程度，就用到互信息了。互信息的定義是這樣的：

從定義就很容易想到，互信息是在衡量聯(lián)合p(x,y) 和p(x)p(y)相關(guān)性。可以知道，I是大于等于0的，且當(dāng)x，y獨(dú)立時(shí)取0.

總結(jié)

以上是生活随笔為你收集整理的今天开始学Pattern Recognition and Machine Learning (PRML)，章节1.6，Information Theory信息论简介的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：今天开始学模式识别与机器学习Patter
下一篇：今天开始学模式识别与机器学习(PRML)

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

今天开始学Pattern Recognition and Machine Learning (PRML)，章节1.6，Information Theory信息论简介

總結(jié)