日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) >

今天开始学Pattern Recognition and Machine Learning (PRML),章节1.6,Information Theory信息论简介

發(fā)布時(shí)間:2025/3/21 32 豆豆
生活随笔 收集整理的這篇文章主要介紹了 今天开始学Pattern Recognition and Machine Learning (PRML),章节1.6,Information Theory信息论简介 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

今天開始學(xué)Pattern Recognition and Machine Learning (PRML),章節(jié)1.6,Information Theory信息論簡(jiǎn)介

前面有朋友說(shuō)寫的東西太理論了,我想說(shuō)我并不是在和很多其他博客一樣做topic的入門介紹,配合很多示意圖之類;而是在記錄PRML這本經(jīng)典教科書的內(nèi)容。如果想好好學(xué)Pattern Recognition and Machine Learning,建議花半年時(shí)間看一本國(guó)外經(jīng)典。(前面忙實(shí)驗(yàn)室的任務(wù)寫的太慢了,這本書要吃透是要花點(diǎn)時(shí)間。)章節(jié)1.3-1.5都是介紹性質(zhì)的,我先不寫了后面有時(shí)間再補(bǔ)。

信息論,不用多說(shuō),在很多領(lǐng)域都得到了應(yīng)用,應(yīng)該算是一個(gè)相對(duì)成熟的主題。PRML這一節(jié)里將介紹信息論的一些基本概念,主要是為了明白這些概念是怎么來(lái)的(如gain,entropy),代表什么含義。在書里沒(méi)有具體的應(yīng)用結(jié)合,后面可以單獨(dú)簡(jiǎn)介一節(jié)關(guān)于決策樹的方法,需要的信息論知識(shí)基本在這一節(jié)里面可以覆蓋到。

?

?

章節(jié)1.6 Information Theory

直觀的一種理解,當(dāng)我們聽(tīng)到一個(gè)不太可能發(fā)生的事件時(shí)我們所接收的信息量要比聽(tīng)到一件習(xí)以為常的事件所接收的信息量大,如果我們聽(tīng)到了一件必然發(fā)生的事情那么我們接收到的信息就是0。讓我們考察對(duì)于一個(gè)離散隨機(jī)變量x,類似的出現(xiàn)那些概率很低的x取值時(shí)我們得到的信息量要大。

通過(guò)上面的解釋,首先,我們有理由認(rèn)為信息量的大小和隨機(jī)變量x的概率有關(guān),我們用h(x)表示獲得的信息量的大小,p(x)表示離散隨機(jī)變量x取值的概率。我們相信h(x)和p(x)是單調(diào)負(fù)相關(guān)的(一個(gè)大另一個(gè)就小)。

再來(lái)考察這樣一個(gè)情況,如果觀察兩個(gè)相互無(wú)關(guān)(獨(dú)立)的事件x,y,我們得到的信息量可以寫成:

h(x,y) = h(x)+h(y);

而兩個(gè)相互獨(dú)立事件的概率符合:

P(x,y) = p(x)*p(y);

由此可見(jiàn)啊,h應(yīng)當(dāng)和p成對(duì)數(shù)(log)關(guān)系,于是,我們結(jié)合上述兩點(diǎn)觀察,得出

可見(jiàn),信息量是大于等于0的。這里我們先用2為對(duì)數(shù)的底,此時(shí),h的單位是bits。(信息量大小由比特長(zhǎng)度來(lái)衡量。)

好了,讓我們考慮這樣一個(gè)情況,一個(gè)信息發(fā)送者要發(fā)送一個(gè)隨機(jī)變量的值給一個(gè)接收者,那么在傳輸過(guò)程中的平均信息量是(1.92)的h(x)的期望:

該值就稱為一個(gè)隨機(jī)變量的熵(Entropy),特別的,當(dāng)p等于0的時(shí)候,p(x)logp(x)=0。接下來(lái)讓我們看一個(gè)實(shí)際的例子,來(lái)體會(huì)一下熵這個(gè)概念:

========================================================================

例子:假如一個(gè)隨機(jī)變量x有8種可能的狀態(tài),每一種都有相同的概率。傳輸該變量我們至少需要3個(gè)bits(2^3=8),或者我們可以用熵來(lái)刻畫:

同樣是3個(gè)bits,即平均信息量為3 bits,或者說(shuō)我們平均需要3bits來(lái)傳輸。

考慮另外一種情況,如果x的8個(gè)狀態(tài)(a-h)的概率分別為,那么,熵為:

也就是說(shuō),不均勻分布的變量擁有較小的熵。在這個(gè)情況下,我們?cè)趺床拍茏龅狡骄?bits來(lái)傳輸呢?因?yàn)椴痪鶆蚍植?#xff0c;我們可以用短bit來(lái)代表大概率的狀態(tài),長(zhǎng)bit來(lái)代表小概率的狀態(tài),把上述8個(gè)狀態(tài)編碼成0, 10, 110, 1110, 111100, 111101, 111110, 111111,這個(gè)時(shí)候,平均的編碼長(zhǎng)度就是:

可見(jiàn),我們可以用平均2bits長(zhǎng)來(lái)傳輸變量x,和熵是等價(jià)的。

========================================================================

香農(nóng)提出了noiseless coding theorem熵是傳輸一個(gè)隨機(jī)變量(所有狀態(tài)or取值)所需編碼長(zhǎng)度的下限。(似乎很牛逼的樣子- -)

上面我們是用2為log的底來(lái)考量的,接下來(lái)為了一些計(jì)算的方便,我們使用自然對(duì)數(shù)e為底來(lái)考慮熵。當(dāng)用ln的時(shí)候,熵的單位是nats,很容易證明nats和bits相差一個(gè)常數(shù)倍數(shù)ln2。 Nat = ln2 Bit

隨機(jī)變量X的熵可以定義為:

其中xi是X的一種取值(狀態(tài))。對(duì)于那些更sharp分布的變量,有較小的熵;而那些均勻分布的變量有較大的熵,圖1.30說(shuō)明了這個(gè)情況:

上面都考慮了離散變量的情況,接下來(lái)我們考慮連續(xù)變量的情況:

變量X取值落在一個(gè)小區(qū)段內(nèi)的概率是:

上面用到了均值定理,在一個(gè)很小的區(qū)段(bin)里面(長(zhǎng)度為),總能找到一個(gè)xi使得上述等式成立。因此概率就用(1.101)的右邊來(lái)表示了,這樣就離散化了。類似前面熵的定義:

可見(jiàn),離散變量的熵和連續(xù)變量的熵在定義上相差一個(gè),當(dāng)很小的時(shí)候,該項(xiàng)很大,因此得到符合常識(shí)的結(jié)論是:當(dāng)我們需要很精細(xì)地刻畫一個(gè)連續(xù)變量時(shí),我們需要很長(zhǎng)的bits。

根據(jù)

我們定義

微分熵。相應(yīng)的結(jié)論是,使得微分熵最大化的分布是高斯分布。微分熵是可以小于0的。

根據(jù)定義可以計(jì)算高斯分布的微分熵可以寫成

當(dāng)方差越大的時(shí)候,微分熵越大。

1.6.1 相對(duì)熵和互信息

相對(duì)熵也就是KL-divergence, 很多地方都有看到KL。它的含義是什么呢?下面來(lái)解釋一下:對(duì)于一個(gè)未知的分布p(x),我們用q(x)來(lái)model它,那么我們需要的平均額外的信息量

上述式子很容易理解,就是兩者平均需要信息量的差,定義為KL-divergence。KL-divergence是不對(duì)稱的。

上述式子中的兩個(gè)期望的表達(dá)也可用離散的形式去估計(jì),就是用一個(gè)集合的平均值。另外,我們可以假設(shè)我們估計(jì)的分布q是受一些參數(shù)影響的,那么KL-D可以近似寫成

其中求平均的常熟系數(shù)被略去了。因此可以看到,(1.119)的第二項(xiàng)是和theta無(wú)關(guān)的,不變的。那么最小化KL其實(shí)就等價(jià)于最大化似然方程了。

我們知道如果兩個(gè)變量x,y獨(dú)立,那么p(x,y) = p(x)p(y)。我們希望衡量?jī)蓚€(gè)變量相互獨(dú)立的程度,就用到互信息了。互信息的定義是這樣的:

從定義就很容易想到,互信息是在衡量聯(lián)合p(x,y) 和p(x)p(y)相關(guān)性。可以知道,I是大于等于0的,且當(dāng)x,y獨(dú)立時(shí)取0.

總結(jié)

以上是生活随笔為你收集整理的今天开始学Pattern Recognition and Machine Learning (PRML),章节1.6,Information Theory信息论简介的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。