日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

信息论的基本概念(自信息,条件熵,联合熵,互信息,条件互信息)

發(fā)布時(shí)間:2024/8/1 编程问答 48 豆豆
生活随笔 收集整理的這篇文章主要介紹了 信息论的基本概念(自信息,条件熵,联合熵,互信息,条件互信息) 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

大概是你見過(guò)最詳細(xì)最靠近數(shù)學(xué)方式理解熵系列的博客。
目前內(nèi)容有信息量,自信息,條件熵,聯(lián)合熵,互信息,條件互信息。

自信息

香農(nóng)當(dāng)時(shí)希望自信息這個(gè)概念要滿足如下幾個(gè)條件:

1、一個(gè)百分百發(fā)生的事件不提供任何信息

2、這個(gè)事件越不可能發(fā)生,他的發(fā)生將會(huì)提供更多信息

3、如果兩個(gè)獨(dú)立事件是分開測(cè)量的,他們的自信息總和就是他們分別的自信息之和

這第三點(diǎn)也就是說(shuō)滿足下面這個(gè)式子(假設(shè)I(x)I(x)I(x)代表x的信息量):
I(x,y)=I(x)+I(y)式1I(x,y)=I(x)+I(y) \quad式1 I(x,y)=I(x)+I(y)1
我們知道,獨(dú)立的兩個(gè)事件一同發(fā)生的概率是
P(x,y)=P(x)?P(y)式2P(x,y)=P(x)\ * \ P(y)\quad 式2 P(x,y)=P(x)???P(y)2
根據(jù)第一點(diǎn)和第二點(diǎn)我們知道,自信息是一個(gè)和事件發(fā)生概率有關(guān)的數(shù)學(xué)量,我們可以假設(shè)成如下形式
I(x)=f(P(x))I(x)=f(P(x)) I(x)=f(P(x))
那么要滿足式1和式2,最合適的f()f()f()就是log()log()log()函數(shù),因此我們得到了如下關(guān)于自信息的定義
I(x)=?logP(x)I(x)=-logP(x) I(x)=?logP(x)
我們知道log是個(gè)定義域內(nèi)單調(diào)遞增的函數(shù),所以為了滿足自信息隨著概率升高遞減,在前面補(bǔ)上個(gè)負(fù)號(hào),這也是香農(nóng)1、2的定義所隱含的。

這個(gè)log的底數(shù)我們是不確定的,如果底數(shù)是2,這個(gè)自信息的單位就是"bit"或者"shannon";如果是自然對(duì)數(shù)e,就是“nat”(nature縮寫);如果底數(shù)是10,單位就是“hartleys”或者代表十進(jìn)制數(shù)的“digits”,有時(shí)候也可以寫成“dits”。

正式的,因?yàn)樨?fù)號(hào)可以提到log里面,所以還有一個(gè)形式(第二個(gè)等式)
I(x)=?logP(x)=log(1P(x))I(x)=-logP(x)=log(\frac{1}{P(x)}) I(x)=?logP(x)=log(P(x)1?)

(香農(nóng))熵

香農(nóng)熵就被定義成如下形式
H(X)=∑x?P(x)logP(x)=∑xP(x)I(x)=E[I(x)]H(X)=\sum_x-P(x)logP(x)\\=\sum_xP(x)I(x) \\=E[I(x)] H(X)=x??P(x)logP(x)=x?P(x)I(x)=E[I(x)]
上面第三個(gè)等式,我們知道關(guān)于隨機(jī)變量x的概率分布期望就是∑k=1+∞xkP(xk)\sum_{k=1}^{+\infin}x_{k}P(x_{k})k=1+?xk?P(xk?)

,是不是就能感覺到熵其實(shí)就是信息量的期望。

特性:

  • 連續(xù)性
    該量度應(yīng)連續(xù),概率值小幅變化只能引起熵的微小變化。
  • 對(duì)稱性
    符號(hào)xi重新排序后,該量度應(yīng)不變。如
    Hn(p1,p2..)=Hn(p2,p1...)H_n(p_1,p_2..)=H_n(p_2,p_1...) Hn?(p1?,p2?..)=Hn?(p2?,p1?...)
    3.極值性
    當(dāng)所有事件等概率發(fā)生,熵達(dá)到最大值(因?yàn)榉浅2淮_定誰(shuí)會(huì)發(fā)生)
    Hn(p1,p2...)≤Hn(1n,1n...)=log?bn,H后的下標(biāo)代表事件數(shù)H_n(p_1,p_2...)\le H_n(\frac{1}{n},\frac{1}{n}...)=\log_b{n},H后的下標(biāo)代表事件數(shù) Hn?(p1?,p2?...)Hn?(n1?,n1?...)=logb?nH標(biāo)數(shù)
    這個(gè)性質(zhì)其實(shí)就是要證明下式,該式子的證明可通過(guò)琴生不等式證明

    根據(jù)琴生不等式,即當(dāng)函數(shù)是凸函數(shù)時(shí),總有等概率事件的熵應(yīng)隨符號(hào)的數(shù)量增加。這個(gè)也很好理解,因?yàn)榧偃邕x項(xiàng)只有兩個(gè),正確答案是其中一個(gè),概率都是等概率的也就是二分之一,此時(shí)答對(duì)的可能性是一半,但如果選項(xiàng)有四個(gè),混亂程度就增加了,也就是說(shuō)
    log?bn≤log?b(n+1)=Hn+1(1n+1,1n+1....)\log_b{n}\le \log_b(n+1)=H_{n+1}(\frac{1}{n+1},\frac{1}{n+1}....) logb?nlogb?(n+1)=Hn+1?(n+11?,n+11?....)
    增減一概率為零的事件不改變熵:
  • 聯(lián)合熵

    聯(lián)合熵是一個(gè)變量集合不確定性的度量。

    被定義為
    H(X,Y)=?∑x∑yP(x,y)logP(x,y)H(X,Y)=-\sum_x\sum_yP(x,y)logP(x,y) H(X,Y)=?x?y?P(x,y)logP(x,y)
    x和y是X和Y分布里的一個(gè)特定值,P(x,y)就是聯(lián)合概率。

    如果變量數(shù)更多,那么定義可以延伸成以下形式。
    H(X1,...,Xn)=?∑x1...∑xnP(x1...xn)logP(x1...xn)H(X_1,...,X_n)=-\sum_{x_1}...\sum_{x_n}P(x_1...x_n)logP(x_1...x_n) H(X1?,...,Xn?)=?x1??...xn??P(x1?...xn?)logP(x1?...xn?)
    性質(zhì):

    1.非負(fù)性。因?yàn)槊總€(gè)log項(xiàng)都是小于0的,所以加合也小于0,取反非負(fù)。

    2.大于等于任何一個(gè)變量的獨(dú)立熵
    H(X1...XN)≥max{H(X1),..H(XN)}H(X_1...X_N)≥max\{H(X_1),..H(X_N)\} H(X1?...XN?)max{H(X1?),..H(XN?)}
    3.小于等于每個(gè)變量的獨(dú)立熵合
    H(X,Y)≤H(X)+H(Y)H(X,Y)≤H(X)+H(Y) H(X,Y)H(X)+H(Y)

    4.連鎖法則
    H(X1,X2..Xn)=∑i=1nH(Xi∣X1,...Xi?1)H(X_1,X_2..X_n)=\sum_{i=1}^{n}H(X_i|X_1,...X_{i-1}) H(X1?,X2?..Xn?)=i=1n?H(Xi?X1?,...Xi?1?)
    用歸納法可以證明
    H(X1,...Xm,Xm+1)=H(X1,..Xm)+H(Xm+1∣X1...Xm)[這是因?yàn)閷?duì)m=2時(shí)已經(jīng)證明過(guò)了,下面條件熵的部分]=∑i=1mH(Xi∣X1..Xi?1)+H(Xm+1∣X1...Xm)[假設(shè)對(duì)n=m時(shí)成立]=∑i=1m+1H(Xi∣X1,...Xi?1)[對(duì)n=m+1也成立]{\begin{aligned}H(X_1,...X_m,X_{m+1})&=H(X_1,..X_m)+H(X_{m+1}|X_1...X_m)\quad[這是因?yàn)閷?duì)m=2時(shí)已經(jīng)證明過(guò)了,下面條件熵的部分]\\&=\sum_{i=1}^{m}H(X_i|X_1..X_{i-1})+H(X_{m+1}|X_1...X_m)\quad[假設(shè)對(duì)n=m時(shí)成立]\\&=\sum_{i=1}^{m+1}H(X_i|X_1,...X_{i-1})\quad[對(duì)n=m+1也成立]\end{aligned}} H(X1?,...Xm?,Xm+1?)?=H(X1?,..Xm?)+H(Xm+1?X1?...Xm?)[對(duì)m=2時(shí)經(jīng)過(guò)]=i=1m?H(Xi?X1?..Xi?1?)+H(Xm+1?X1?...Xm?)[設(shè)對(duì)n=m時(shí)]=i=1m+1?H(Xi?X1?,...Xi?1?)[對(duì)n=m+1]?

    條件熵

    假設(shè)另一個(gè)隨機(jī)變量X的值已知,條件熵(或模糊性)量化描述隨機(jī)變量Y的結(jié)果所需的信息量。
    H(Y∣X)=∑xp(x)H(Y∣X=x)[定義如此]=?∑X,YP(x,y)logP(x,y)P(x)[這里的推導(dǎo)略了,大致就是按全概率的思想把H(Y∣X)展開]\begin{aligned}H(Y|X)=&\sum_xp(x)H(Y|X=x) \quad[定義如此] \\=&-\sum_{X,Y}P(x,y)log\frac{P(x,y)}{P(x)}\quad[這里的推導(dǎo)略了,大致就是按全概率的思想把H(Y|X)展開]\end{aligned} H(YX)==?x?p(x)H(YX=x)[]?X,Y?P(x,y)logP(x)P(x,y)?[導(dǎo)HYX]?
    也可以和聯(lián)合熵做一個(gè)聯(lián)系:
    H(Y∣X)=H(X,Y)?H(X)[這就是上面說(shuō)的證明,稍微移項(xiàng)一下就好]H(Y|X)=H(X,Y)-H(X) \quad[這就是上面說(shuō)的證明,稍微移項(xiàng)一下就好] H(YX)=H(X,Y)?H(X)[說(shuō)項(xiàng)]
    這個(gè)推導(dǎo)過(guò)程如下:
    原式=?∑X,YP(x,y)logP(x,y)P(x)=?∑X,YP(x,y)[logP(x,y)?logP(x)]=?∑X,YP(x,y)logP(x,y)+∑XP(x)logP(x)\begin{aligned}原式=&-\sum_{X,Y}P(x,y)log\frac{P(x,y)}{P(x)}\\=&-\sum_{X,Y}P(x,y)[logP(x,y)-logP(x)]\\=&-\sum_{X,Y}P(x,y)logP(x,y)+\sum_{X}P(x)logP(x)\end{aligned} ===??X,Y?P(x,y)logP(x)P(x,y)??X,Y?P(x,y)[logP(x,y)?logP(x)]?X,Y?P(x,y)logP(x,y)+X?P(x)logP(x)?
    這個(gè)過(guò)程從第二個(gè)等式到第三個(gè)等式可能有點(diǎn)奇怪,右側(cè)直接把
    ∑X,YP(x,y)logP(x)=>∑XP(x)logP(x)\sum_{X,Y}P(x,y)logP(x)=>\sum_{X}P(x)logP(x) X,Y?P(x,y)logP(x)=>X?P(x)logP(x)
    這個(gè)是全概率公式,可以看到每個(gè)(x,y)(x,y)(x,y)都互不相容,其和為全集,所以有
    P(x)=∑i∞P(xyi)P(x)=\sum_i^{\infin}P(xy_i) P(x)=i?P(xyi?)
    性質(zhì):

    1.當(dāng)且僅當(dāng)Y完全由X決定,條件熵為0(因?yàn)椴恍枰峁┤魏涡畔⒘?#xff09;

    2.當(dāng)且僅當(dāng)Y和X獨(dú)立,條件熵等于分子獨(dú)立熵

    3.連鎖法則
    H(X1,X2...Xn∣Y)=∑i=1nH(Xi∣X1...Xi?1,Y)【下面幾個(gè)等式是證明】=H(X1,...Xn,Y)?H(Y)=H((X1,Y)...Xn)?H(Y)=H(X1,Y)?H(Y)+∑i=2nH(Xi∣X1...Xi?1,Y)[熵的連鎖,移項(xiàng)]=H(X1∣Y)+∑i=2nH(Xi∣X1...Xi?1,Y)證畢\begin{aligned}H(X_1,X_2...X_n|Y)=&\sum_{i=1}^nH(X_i|X_1...X_{i-1},Y)【下面幾個(gè)等式是證明】 \\=&H(X_1,...X_n,Y)-H(Y) \\=&H((X_1,Y)...X_n)-H(Y) \\=&H(X_1,Y)-H(Y)+\sum_{i=2}^nH(X_i|X_1...X_{i-1},Y) \quad[熵的連鎖,移項(xiàng)] \\=&H(X_1|Y)+\sum_{i=2}^nH(X_i|X_1...X_{i-1},Y)\\證畢 \end{aligned} H(X1?,X2?...Xn?Y)=====?i=1n?H(Xi?X1?...Xi?1?,Y)個(gè)H(X1?,...Xn?,Y)?H(Y)H((X1?,Y)...Xn?)?H(Y)H(X1?,Y)?H(Y)+i=2n?H(Xi?X1?...Xi?1?,Y)[項(xiàng)]H(X1?Y)+i=2n?H(Xi?X1?...Xi?1?,Y)?

    4.貝葉斯法則
    H(Y∣X)=H(X∣Y)?H(X)+H(Y){\displaystyle \mathrm {H} (Y|X)\,=\,\mathrm {H} (X|Y)-\mathrm {H} (X)+\mathrm {H} (Y)} H(YX)=H(XY)?H(X)+H(Y)
    證明
    H(Y∣X)=H(X,Y)?H(X)H(X∣Y)=H(Y,X)?H(Y)對(duì)稱性:H(X,Y)=H(Y,X){\displaystyle \mathrm {H} (Y|X)=\mathrm {H} (X,Y)-\mathrm {H} (X)}\\ {\displaystyle \mathrm {H} (X|Y)=\mathrm {H} (Y,X)-\mathrm {H} (Y)} \\對(duì)稱性: {\displaystyle \mathrm {H} (X,Y)=\mathrm {H} (Y,X)} H(YX)=H(X,Y)?H(X)H(XY)=H(Y,X)?H(Y)對(duì)H(X,Y)=H(Y,X)
    用第一條等式減第二條等式就得到了貝葉斯法則

    其他的性質(zhì)
    H(Y∣X)≤H(Y)H(X,Y)=H(X∣Y)+H(Y∣X)+I?(X;Y),H(X,Y)=H(X)+H(Y)?I?(X;Y),I?(X;Y)≤H(X),{\displaystyle {\begin{aligned}\mathrm {H} (Y|X)&\leq \mathrm {H} (Y)\\\mathrm {H} (X,Y)&=\mathrm {H} (X|Y)+\mathrm {H} (Y|X)+\operatorname {I} (X;Y),\qquad \\\mathrm {H} (X,Y)&=\mathrm {H} (X)+\mathrm {H} (Y)-\operatorname {I} (X;Y),\,\\\operatorname {I} (X;Y)&\leq \mathrm {H} (X),\end{aligned}}} H(YX)H(X,Y)H(X,Y)I(X;Y)?H(Y)=H(XY)+H(YX)+I(X;Y),=H(X)+H(Y)?I(X;Y),H(X),?
    第一條就不用多說(shuō)了,知道別的分布總比不知道要好,所以左邊需要的信息不會(huì)大于右邊。也可以數(shù)學(xué)證明,這里不證明了。

    剩下三條的I(X;Y)I(X;Y)I(X;Y)是互信息,等等講,不著急。

    互信息

    根據(jù)熵的連鎖規(guī)則,有
    H(X,Y)=H(X)+H(Y∣X)=H(Y)+H(X∣Y)H(X,Y)=H(X)+H(Y|X)=H(Y)+H(X|Y) H(X,Y)=H(X)+H(YX)=H(Y)+H(XY)
    所以整理可得
    H(X)?H(X∣Y)=H(Y)?H(Y∣X)H(X)-H(X|Y)=H(Y)-H(Y|X) H(X)?H(XY)=H(Y)?H(YX)
    這個(gè)差就叫做X和Y的互信息,記做I(X;Y)I(X;Y)I(X;Y)

    互信息的鏈規(guī)則:
    I(X1n;Y)=∑i=1nI(Xi;Y∣X1,...Xn?1)I(X_{1n};Y)=\sum_{i=1}^nI(X_i;Y|X_{1},...X_{n-1}) I(X1n?;Y)=i=1n?I(Xi?;YX1?,...Xn?1?)
    證明:
    I(X1n;Y)=H(X1...Xn)?H(X1,..Xn∣Y)[互信息定義]=∑i=1nH(Xi∣X1...Xi?1)?∑i=1nH(Xi∣X1...Xi?1,Y)=∑i=1n[H(Xi∣X1...Xi?1)?H(Xi∣X1...Xi?1,Y)][互信息定義,多觀察一下]=∑i=1nI(Xi;Y∣X1,...Xn?1)\begin{aligned}I(X_{1n};Y)=&H(X_1...X_n)-H(X_1,..X_n|Y)\quad [互信息定義] \\=&\sum_{i=1}^nH(X_i|X_1...X_{i-1})-\sum_{i=1}^nH(X_i|X_1...X_{i-1},Y) \\=&\sum_{i=1}^n[H(X_i|X_1...X_{i-1})-H(X_i|X_1...X_{i-1},Y)] \quad[互信息定義,多觀察一下] \\=&\sum_{i=1}^nI(X_i;Y|X_{1},...X_{n-1}) \end{aligned} I(X1n?;Y)====?H(X1?...Xn?)?H(X1?,..Xn?Y)[]i=1n?H(Xi?X1?...Xi?1?)?i=1n?H(Xi?X1?...Xi?1?,Y)i=1n?[H(Xi?X1?...Xi?1?)?H(Xi?X1?...Xi?1?,Y)][]i=1n?I(Xi?;YX1?,...Xn?1?)?
    條件互信息的鏈規(guī)則:
    I(X1n;Y∣Z)=∑i=1nI(Xi;Y∣X1,...Xn?1,Z)I(X_{1n};Y|Z)=\sum_{i=1}^nI(X_i;Y|X_{1},...X_{n-1},Z) I(X1n?;YZ)=i=1n?I(Xi?;YX1?,...Xn?1?,Z)
    證明和互信息鏈規(guī)則很像,其實(shí)就是要理解"|“和”;"的結(jié)合方式是
    I(X;Y∣Z)=I((X;Y)∣Z)=H(X∣Z)=H(X∣Y,Z)I(X;Y|Z)=I((X;Y)|Z)=H(X|Z)=H(X|Y,Z) I(X;YZ)=I((X;Y)Z)=H(XZ)=H(XY,Z)
    然后按著上面的互信息鏈證明即可

    總結(jié)

    以上是生活随笔為你收集整理的信息论的基本概念(自信息,条件熵,联合熵,互信息,条件互信息)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。