日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 >

熵与信息论

發(fā)布時間:2025/5/22 19 豆豆
生活随笔 收集整理的這篇文章主要介紹了 熵与信息论 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1. 數據壓縮

假設任何文件都可以被壓縮到 n 個二進制位(bit),那么其最多可以表示 2n 個不同的壓縮結果。也即,如果存在 2n+1 個文件,根據鴿籠原理,必然至少有兩個文件得到同一壓縮效果。這就意味著,這兩個文件不可能都無損地還原。

因此,可以得出一個相對抽象的結論,并非所有文件都可以被壓縮到 n 個bit 位以內。

數據壓縮的原理,壓縮原理其實很簡單,本質上,所謂壓縮,就是找出文件內容的概率分布(probability distribution),將那些出現概率高的部分代替成更短的形式。相應地,如果內容毫無重復,就很難壓縮。極端情況就是,遇到那些均勻分布的隨機字符串,往往連一個字符都壓縮不了。比如,任意排列的10個阿拉伯數字(5271839406),就是無法壓縮的;再比如,無理數(比如π)也很難壓縮

2. 從數據壓縮到熵的引出

壓縮可以分解成兩個步驟(哈夫曼編碼):

  • 第一步是得到文件內容的概率分布,哪些部分出現的次數多,哪些部分出現的次數少;
  • 第二步是對文件進行編碼,用較短的符號替代那些重復出現的部分。

如果文件內容只有兩種情況(1/5 vs 1/5比如扔硬幣的結果),那么只要一個二進制位就夠了,1 表示正面,0表示表示負面。如果文件內容包含三種情況(比如球賽的結果),那么最少需要兩個二進制位。如果文件內容包含六種情況(比如扔篩子的結果),那么最少需要三個二進制位。

一般來說,在均勻分布的情況下,假定一個字符(或字符串)在文件中出現的概率是 p,那么在這個位置上最多可能出現 1/p 種情況。需要 log2(1/p)個二進制位表示替代符號。

這個結論可以推廣到一般情況。假定文件有 n 個部分組成,每個部分的內容在文件中的出現概率分別為 p1,p2,...,pn,顯然有 ipi=1。那么,替代符號占據的二進制最少為下面這個式子。

log21/p1+log21/p2+?+log21/pn=ilog2(1/pn)

3. 信息熵

對于兩個相等(n)的文件,概率 p 決定了這個式子的大小:

  • p 越大,表明文件內容越有規(guī)律,壓縮后的體積就越小;
  • p 越小,表明文件內容越隨機,壓縮的程度不會太高;

為了便于文件之間的比較,將上式除以 n,可以得到平均每個符號所占用的二進制位:

log2(1/pn)/n

進一步將其轉換(p 是根據概率統(tǒng)計得到的)為:

pnlog2(1/pn)=E(log21/p)

又可視為一種期望,可以理解為,每個符號所占用的二進制位,等于概率倒數的對數的數學期望

4. 簡單釋例

  • 假定有兩個文件都包含1024個符號,在ASCII碼的情況下,它們的長度是相等的,都是 1KB。甲文件的內容 50%是a,30%b,20%是c,則平均每個符號要占用1.49個二進制位。

.5log2(1/.5)+.3log2(1/.3)+.2log2(1/.2)=1.485

  • 乙文件的內容10%是a,10%是b,……,10%是j,則平均每個符號

10×.1log2(1/.1)=3.322

轉載于:https://www.cnblogs.com/mtcnn/p/9422853.html

總結

以上是生活随笔為你收集整理的熵与信息论的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。