非香农类信息不等式_ICLR 2020 | 北大图灵班满分论文:基于计算约束下有用信息的信息论...
【導讀】這章主要是對連續變量熵等相關內容進行了介紹。其中美國物理學家Jaynes教授1957 年提出的最大熵原理是最為核心的理論貢獻。該原理特別深刻,要知道它不僅是應用在統計推斷方面,在很多領域中都可以成為一種原理給出信息論層面上的解釋。基于最大熵原理可以根據不同約束導出各種概率分布函數(第8頁)。過去認為熵是基于概率分布為已知而得到的一種結果。而最大熵原理給我的理解熵猶似“源”,因為它可導出概率分布表達。反之則不然,因為計算與導出表達是不同的。本章中另一個重要知識是不等式的學習與理解。如同香港中文大學楊偉豪教授指出的那樣(第39頁):信息論不等式給出了不可能發生的界,因此這將猶如信息論中的定律。比如其中Fano不等式與Kovalevskij不等式建立了條件熵與誤差之間的關系,對機器學習中應用信息論指標有著直接的指導意義,并提供理論解釋性。
第8頁: 該頁介紹了最大互信息可以導出經驗式定義的相關系數,而其中的約束是隨機變量最高階次統計量只有二階。由此例子我學到的內涵有:一是信息論指標更是“源”指標(導出其它,而非相反)。二是熵函數優化加約束可以提供更大的理論解釋空間。三是熵指標原理上包容高階統計量。
第27頁: 這頁內容是關于二值分類問題中,條件熵與誤差之間界關系的討論。本人2015年文章中的圖給出了Fano下界曲線與Kovalevskij上界曲線。由于該文是討論貝葉斯分類器,因此兩類中的類別分布信息p_1與p_2已知。比如T中100個樣本,有20個蘋果,有80個鴨梨為標簽。則p_1=0.2,p_2=0.8。由貝葉斯誤差是分類器中理論上最小值這個知識(見Duda《模式分類》中文版第36頁),文章添加了另一個上界,在此是藍色橫線p_min=p_1=0.2表示的。此界說明對于給定類別分布的貝葉斯分類器,不可能出現誤差大于0.2的情況。圖中三角代表貝葉斯分類器計算結果,而圓圈代表互信息分類器計算結果??梢钥吹皆摻Y果已經超出Kovalevskij上界,這里就引出了我們后來發展的界研究工作。這將是第5章中的內容。
該圖示意了貝葉斯誤差最小學習目標與條件熵最小學習目標在作用力方面有著等價的內涵。都是趨向原點。但是分類問題中多數情況是無法到達原點。因此兩者通常沒有一對一的關系。即根據給定樣本分布得到的最小貝葉斯誤差,其對應的條件熵有多解,可以不是最小條件熵。反之亦然。由此要理解條件熵有誤差的近似內涵,但本質上是兩個隨機變量獨立性的指標(第22頁)。
總結
以上是生活随笔為你收集整理的非香农类信息不等式_ICLR 2020 | 北大图灵班满分论文:基于计算约束下有用信息的信息论...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: dede文章采集管理php,织梦采集规则
- 下一篇: c语言恶搞小程序win7,如何使用c语言