信息量为什么要表示成对数的形式
近期在路上進行了不少的思考,任何方面,任何領域…我會把這些記錄在手機的備忘錄里,然后在周末總結出來,早就成了習慣。
??近日對信息論,排隊論以及貝葉斯定理關注比較多,后二者可以完全改造TCP的擁塞控制機制,所以基礎還是要夯實的。本文描述一個基礎中的基礎,后續我會追加關于對這些基礎背后的一些哲學層面上的思考,但由于今天只是周四,就只能到周六了。
有人問一件事發生后所攜帶的信息量為什么要表示成事件發生概率的對數的形式,我在文章《不知為不知–信息論和最大熵原則》里面的香農的信息論一節中已經回答過了,這里再次列一下:
這里應該說的很明白了。之所以還是有人問,那是因為他們想知道為什么“第三點要求確定了對數關系”,依據是什么?本文我給出一個數學上的說明。
??首先把上述三點翻譯成數學語言:
設f(x)表示事件A發生時攜帶的信息量,其中x為事件A發生的概率,則有:
limr→0f(r)=+∞
f(1)=0
f(x1x2)=f(x1)+f(x2)??x1,x2∈(0,1]
然后這就成了一道我們都很熟悉的數學題:
已知f(x)定義域x∈(0,1],可導,且滿足f(xy)=f(x)+f(y),求f(x)。
是的,這是一個函數方程,把它解出來就是答案!說到這里,很多人就覺得容易了,我這里僅給出一個推導,實際的解法有太多。
令x=y=1,則有:
f(1)=f(1)+f(1),所以f(1)=0,顯然這是一個可推導出的結論。
由牛頓?萊布尼茲公式,有:
f(1)?f(x)
=∫1xf′(t)dt
=∫1xf(t+dt)?f(t)dtdt
=∫1xf(tt+dtt)?f(t)dtdt
=∫1xf(t)+f(1+dtt)?f(t)dtdt
=∫1xf(1+dtt)dtdt
=∫1xf(1+dtt)?f(1)dtdt
=∫1x1tf(1+dtt)?f(1)dttdt
由于limdt→0dtt=0,所以:
f(1)?f(x)=∫1x1tf′(1)dt??=>
0?f(x)=f′(1)∫1x1tdt,由于0<t≤1且f(1)=0,所以:
f(x)=?f′(1)lnx?? (x∈(0,1])
到此基本已經完成了推導,如果覺得底數為e不代表一般性,那么就來個換底公式歸一化一下:
f(x)=?f′(1)logaelogax
設γ=logaef′(1),上式兩邊同乘γ,有:
F(x)=γf(x)=?logax
我們完全可以管F(x)叫做信息量,其中γ是縮放系數。
最后的這個縮放系數可以理解成信息量的單位,不管最終的loga中的底數a是多少,只要a是確定的,那么以a為底數度量的信息量的比例都是一致的,也就是說它們是相似的。鑒于不同事件發生的信息量是一個相對值,所以說,這里可以忽略這個縮放系數γ,最終信息量記為:
f(x)=?logax
畢!
我們發現,這其實是一個多么簡單的過程,基本上就是在學習了函數方程后的一道每個人必須完成的課后作業題。
??在一段不長不短的時間以后,接觸到了信息論,卻對信息量為什么表示成概率的對數迷惑不解,追溯起來當初在考試的時候,關于已知限制條件求解f(x)通解的試題那可以說是信手拈來啊…
解題歸解題,又扯了一些沒用的…
??如果說本文這個數學推導還是無法讓人信服,那么接下來的問題就上升到哲學高度了,問題很簡單:對數的本質是什么,為什么人們篤愛對數?
??道可道非常道,終極的東西往往是無法表達的,所以就只能舉一些例子來理解,這些例子其實就是柏拉圖的影子。今天有點晚了,周末時,我會寫一篇文章說說我對對數和貝葉斯定理的看法。
總結
以上是生活随笔為你收集整理的信息量为什么要表示成对数的形式的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: javaweb学生宿舍管理系统设计与实现
- 下一篇: 凹凸性和Jensen不等式