概率、信息和熵
以前寫過一篇關(guān)于最大熵模型的讀書筆記。剛翻陳家鼎和鄭忠國兩位老師合編的教材《概率與統(tǒng)計(jì)》(北大出版社,2007),看到關(guān)于信息熵的詳細(xì)數(shù)學(xué)表述,不妨轉(zhuǎn)述一下,算是不在場的課堂筆記。
概率與信息
事件A的概率P(A)是A發(fā)生可能性的大小的度量。
問題:A的發(fā)生帶給我們多大的信息呢?
結(jié)論
P(A)越大,則A發(fā)生帶來的信息越少;反之,P(A)越小,則A的發(fā)生帶來的信息越大。
例子:有人對(duì)你說“某日巴西足球隊(duì)?wèi)?zhàn)勝了中國隊(duì)”,你覺得他沒有給你多少信息,因?yàn)檫@件事發(fā)生的概率非常大,結(jié)果幾乎在預(yù)料當(dāng)中。但如果他說巴西負(fù)于某個(gè)亞洲隊(duì),你會(huì)感覺得到的信息不少。
猜想
引理1—H(u)=-clnu
設(shè)H(u)是(0,1]上的嚴(yán)格減函數(shù),H(1)=0,則為了滿足H(uv)=H(u)+H(v),對(duì)一切0<1,必須且只需存在c>0,使得H(u)=-clnu,寫得更清楚些是—c*ln(u)。
(這里c是一個(gè)正的常數(shù),它的大小涉及信息量的單位。為簡單起見,一般取c=1)
定義1—信息量的表示
設(shè)事件A的概率是P(A),P(A)>0,則稱H(A)=-lnP(A)為A帶來的信息量。
定義2—完備事件組的熵
設(shè)A1到An(n>=2)是條件S下的完備事件組,P(Ai)>0,對(duì)i=1,…n,則稱P(A1…An)=-sumP(Ai)lnP(Ai),為完備事件組A1…An的熵。
定理1—事件有相等的概率時(shí)結(jié)果的不確定性最大
設(shè)A1到An(n>=2)是完備事件組,則當(dāng)且僅當(dāng)P(A1)=…P(An)時(shí)熵最大。
即,若條件S下可能發(fā)生的互不相容的事件至少有兩個(gè),則當(dāng)且僅當(dāng)這些事件有相等的概率時(shí)結(jié)果的不確定性最大。
轉(zhuǎn)自: http://johnthu.spaces.live.com/blog/cns!2053CD511E6D5B1E!318.entry總結(jié)
- 上一篇: 最大熵模型:读书笔记
- 下一篇: 三个有名的决策树算法:CHAID、CAR