當(dāng)前位置：首頁 > 人工智能 > pytorch >内容正文

pytorch

BAT资深算法工程师《深度学习》读书分享：概率和信息论

發(fā)布時(shí)間：2024/4/17 pytorch 92 豆豆

生活随笔收集整理的這篇文章主要介紹了 BAT资深算法工程师《深度学习》读书分享：概率和信息论小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

《深度學(xué)習(xí)》這本書是機(jī)器學(xué)習(xí)領(lǐng)域的重磅書籍，三位作者分別是機(jī)器學(xué)習(xí)界名人、GAN的提出者、谷歌大腦研究科學(xué)家 Ian Goodfellow，神經(jīng)網(wǎng)絡(luò)領(lǐng)域創(chuàng)始三位創(chuàng)始人之一的蒙特利爾大學(xué)教授 Yoshua Bengio（也是 Ian Goodfellow的老師）、同在蒙特利爾大學(xué)的神經(jīng)網(wǎng)絡(luò)與數(shù)據(jù)挖掘教授 Aaron Courville。只看作者陣容就知道這本書肯定能夠從深度學(xué)習(xí)的基礎(chǔ)知識和原理一直講到最新的方法，而且在技術(shù)的應(yīng)用方面也有許多具體介紹。這本書面向的對象也不僅是學(xué)習(xí)相關(guān)專業(yè)的高校學(xué)生，還能夠?yàn)檠芯咳藛T和業(yè)界的技術(shù)人員提供穩(wěn)妥的指導(dǎo)意見、提供解決問題的新鮮思路。

面對著這樣一本內(nèi)容精彩的好書，不管你有沒有入手開始閱讀，都希望借此給大家提供一個(gè)共同討論、共同提高的機(jī)會(huì)。所以我們請來了曾在百度和阿里工作過的資深算法工程師王奇文與大家一起分享他的讀書感受。

分享人：王奇文，資深算法工程師，曾在百度和阿里工作，先后做過推薦系統(tǒng)、分布式、數(shù)據(jù)挖掘、用戶建模、聊天機(jī)器人。“算法路上，砥礪前行”。

「Deep learning」讀書分享（三） ——?第三章概率和信息論

分享的是「深度學(xué)習(xí)」這本書的第三章概率和信息論。

這節(jié)課會(huì)講到一些基本概念，常用的分布，頻率學(xué)派和貝葉斯學(xué)派的差別，還有貝葉斯規(guī)則，概率圖，最后是信息論。這里第四條可能很多人可能頭一回見到，學(xué)了那么多概率，連這個(gè)都不知道，那你的概率真的白學(xué)了，真這樣，不開玩笑。不過，老實(shí)說我也是前幾年才知道這個(gè)學(xué)派的差別，因?yàn)檎愦笕娼滩纳暇蜎]提到這些，好像就提到一點(diǎn)，頻率學(xué)派就是古典概率，沒有什么其他的，這也是現(xiàn)行教材的缺陷。

概率的概念就是描述一個(gè)事件發(fā)生的可能性，比如說今天下雨嗎？我們平時(shí)的回答里面可能有一些口語化表達(dá)，比如可能、八成、好像會(huì)、天氣預(yù)報(bào)說會(huì)。這是一種可能性或者一種可信度，怎么用數(shù)學(xué)方法去衡量它呢？就是通過概率。

為什么每一個(gè)事件有一些可能性？有時(shí)候可能發(fā)生、有時(shí)候可能不發(fā)生。它是由多種原因產(chǎn)生的，因?yàn)?strong>任何事情都存在一定的不確定性和隨機(jī)性，它的來源第一個(gè)叫系統(tǒng)本身，也就是這個(gè)事件本身的隨機(jī)性；第二個(gè)，即使你了解了系統(tǒng)的一些基本特性，在觀測的時(shí)候也不一定都是準(zhǔn)的，因?yàn)橛^測還會(huì)有隨機(jī)誤差，比如測量時(shí)設(shè)備因素；第三，比如你觀測的變量上有一些事件是服從正態(tài)分布的，這個(gè)正態(tài)分布真的就是對的嗎？也不一定，所以存在一個(gè)不完全建模的問題。這是不確定性和隨機(jī)性的三種因素、三種原因。

概率就是對不確定性的事件進(jìn)行表示和推理。書里面提到一點(diǎn)，就是往往簡單而不確定的規(guī)則，比復(fù)雜而確定規(guī)則更實(shí)用，這個(gè)怎么理解呢？像第一句話，多數(shù)鳥兒會(huì)飛，這個(gè)好理解，但是其實(shí)第一條很不嚴(yán)謹(jǐn)，因?yàn)樗泻芏嗲闆r，有些鳥本身就不會(huì)飛（企鵝、鴕鳥），有些幼小、生病也不會(huì)飛；如果嚴(yán)謹(jǐn)一點(diǎn)，表述成下面 “除了什么。。。什么。。。以外的鳥兒都會(huì)飛”，聽著都累。這就是簡單而不確定的規(guī)則比復(fù)雜而確定的規(guī)則更實(shí)用。

機(jī)器學(xué)習(xí)里面有一個(gè)類似的概念叫奧卡姆剃刀也是一樣，簡單的模型能滿足差不多的效果就可以了，比那些復(fù)雜的模型、準(zhǔn)確度高一些的要好得多。

事件有幾種分類。必然事件，太陽從東邊升起西邊落下是必然的；不可能事件，1+1 不可能不等于 2（這個(gè)不要鉆牛角尖，這方面的段子很多，千萬別跟我說陳景潤證明 1+1 不等于 2，我跟你急）；買彩票中了五百萬，這個(gè)概率是非常小的，即小概率事件。小概率怎么度量呢？就是正態(tài)分布里面三倍標(biāo)準(zhǔn)差以外，跟那個(gè)μ±3δ相關(guān)。

這是事件發(fā)生可能性的度量，三種類別：必然事件，隨機(jī)事件，不可能事件

前人做了一些實(shí)驗(yàn)——拋硬幣，觀察出現(xiàn)正面的可能性。可以看到 2048 次還是 0.51，然后越來越多的時(shí)候，趨近于事務(wù)本身：拋硬幣時(shí)，正面反面應(yīng)該是 1/2 的概率。就是說實(shí)驗(yàn)次數(shù)越多，它越趨近于事件本身發(fā)生的概率，這個(gè)也叫大數(shù)定律。（注：皮爾遜真傻，扔了 3.6w 次，哈哈，科學(xué)家好像都挺 “傻” 的）

隨機(jī)變量有兩種分類，按照它的取值空間分為離散和連續(xù)，不同的分類有不同的概率密度函數(shù)。連續(xù)時(shí)是 PDF 概率密度函數(shù)，離散時(shí)是概率質(zhì)量函數(shù)，對應(yīng)不同的求解方法。這個(gè)在機(jī)器學(xué)習(xí)里面也會(huì)經(jīng)常區(qū)分，如果是離散的，那么就是分類問題；如果連續(xù)的就是回歸問題，這是一一對應(yīng)的。

概率會(huì)滿足一些性質(zhì)，非負(fù)、可加、歸一，歸一就是和是 1。

這是離散型的概率分布，X 這個(gè)事件取得 X1、X2 等等情況的可能性。這是離散概率分布，如果是連續(xù)的話就變成積分的形式了。

這幾個(gè)表達(dá)式我們見得多了，均值、方差、協(xié)方差。注意一點(diǎn)，方差前面的分母是 N-1，因?yàn)檫@個(gè)地方用到的是期望，期望已經(jīng)用掉了一個(gè)自由度，所以這個(gè)地方自由度要減一；這地方要注意，要不然的你算方差的時(shí)候這里是 N 就糗大了。

這個(gè)是時(shí)間序列，里面檢驗(yàn)一個(gè)序列的平穩(wěn)性，要知道它的期望是一個(gè)常數(shù)還是方差是一個(gè)常數(shù)。期望類似均值。圖中綠色序列的期望是固定的，紅色序列的期望是變化的。

方差是每一次的波動(dòng)幅度要一樣，圖中綠色序列的方差是固定的，紅色序列的方差是變化的。

還有一個(gè)叫協(xié)方差，自己跟自己比的話，每一次變化的周期要一致。像這個(gè)紅色序列前面周期比較長，后面周期變短，然后又長了，它的周期就一直在變化，這個(gè)也是不穩(wěn)定的。

方差的形象理解，就是期望對每一個(gè)值之間的差別，取平方、求和取近似均值（除 N-1）。

協(xié)方差是衡量兩個(gè)變量，兩個(gè)隨機(jī)事件 X 和 Y 之間的關(guān)系；這個(gè)關(guān)系指的是線性關(guān)系，不是任意的關(guān)系，如果 X 和 Y 成非線性關(guān)系，這個(gè)協(xié)方差解決不了，這是要注意的地方。

這個(gè)是相關(guān)系數(shù)，就是用的協(xié)方差，然后除以它的兩個(gè)方差 D(X)D(Y)；如果相關(guān)系數(shù)在不同的取值范圍，表示有不同的相關(guān)度。0 就是完全沒有線性關(guān)系，-1 是完全負(fù)相關(guān)，1 是完全正相關(guān)；這都是指線性關(guān)系。

這是一個(gè)圖形化的解釋，線性就是這樣，在二維空間里面的一條直線，有斜率；這種非線性的用協(xié)方差是度量不了的。

介紹幾個(gè)概念。邊緣概率是，如果聯(lián)合分布涉及到 x、y 兩個(gè)事件，那么固定 x 看它的平均分布，這叫邊緣概率。條件概率是在一個(gè)事件發(fā)生的時(shí)候，另外一個(gè)事件的概率分布。

這個(gè)是全概率公式，是求 B 事件發(fā)生時(shí)候 A 的發(fā)生概率；B 可能有多種取值，每種取值情況下都要算一下。

鏈?zhǔn)椒▌t是，有可能有多種依賴。像這個(gè)聯(lián)合分布里面，A、B、C 三個(gè)事件，需要 C 發(fā)生且 B 發(fā)生，然后 B 和 C 同時(shí)發(fā)生的時(shí)候 A 發(fā)生，這就是鏈?zhǔn)椒▌t。

這是概率里面的幾個(gè)重要概率。條件概率和全概率剛才已經(jīng)說了，貝葉斯是基于這兩個(gè)基礎(chǔ)上的。

這是「生活大爆炸」里面 Sheldon 在驗(yàn)算這個(gè)。

常用的概率分布，均勻、伯努利；范疇分布里面就不再是一個(gè)值，而是多個(gè)值，實(shí)驗(yàn)一次有多種結(jié)果，相當(dāng)于扔的是色子，而前面扔的是硬幣，那么硬筆只有兩種取值；還有高斯分布，也叫正態(tài)分布。

這正態(tài)分布的鐘形曲線。對于標(biāo)準(zhǔn)正態(tài)分布，均值是 0，標(biāo)準(zhǔn)差為 1；這個(gè)圖里覆蓋的是正負(fù)兩個(gè)標(biāo)準(zhǔn)差的范圍，這不是我們常見的畫法。一般畫圖的時(shí)候會(huì)畫到正負(fù)三個(gè)標(biāo)準(zhǔn)差，這個(gè)范圍內(nèi)曲線下的面積是總的 99.7%。

這是我單獨(dú)整理一張圖，幾種概率分布之間的關(guān)系；它們之間的變化是有規(guī)律的。

伯努利分布相當(dāng)于是扔硬幣，扔一次；
扔了很多次以后就變成二項(xiàng)分布；
扔多次直到成功就是幾何分布，比如扔了三次，看第一次出現(xiàn)正面的概率；
負(fù)二項(xiàng)分布，是說實(shí)驗(yàn) n 次，成功 r 次才停止；
超幾何分布跟二項(xiàng)分布是不同的，最核心的不同在于它是不放回的抽樣，而二項(xiàng)分布是放回的；
最核心的當(dāng)然就是正態(tài)分布了。

這張圖是碰到什么情況下該用哪種分布。先不細(xì)說了，大家等到以后用了再說。

中心極限定律就是，多次隨機(jī)變量的和，把它看成一個(gè)新的隨機(jī)變量的話，它也是近似服從正態(tài)分布的，就這個(gè)意思。

書里有個(gè)高斯分布分布，就是說剛才提到的分布都比較簡單，我們能不能把它們整合起來，設(shè)計(jì)我想要的分布。這就用到高斯混合模型，這個(gè)圖里面他構(gòu)造了三種概率分布：

第一種的表述是 “各向同性”，其中 x1、x2 兩個(gè)變量的分布的方差，必須一樣。那么從整個(gè)形成的幾何形狀看來，這些數(shù)據(jù)點(diǎn)就像一個(gè)球形或者是圓形。每一個(gè)方向的方差是一樣的，是規(guī)則的形狀。如果不滿足就變成二和三的情形。
第二組是用一個(gè)對角陣，就是 x1 和 x2 在方陣的對角線上，其他位置是零，控制 y 這個(gè)維度上面的方差，把它放大了；相當(dāng)于把第一種的變化做了一下拉伸。
第三種情況類似的，把 X 軸也做一下拉伸；當(dāng)然在 Y 軸方向也有拉伸，這個(gè)是說 x1、x2 兩個(gè)變量的方向可以做任意的控制，這就是高斯混合模型的作用，可以按照你想要的分布去設(shè)計(jì)。

這里提幾個(gè)大人物，一個(gè)是數(shù)學(xué)王子高斯，他和阿基米德、牛頓并列為世界三大數(shù)學(xué)家。德國的貨幣叫馬克，十馬克上面印的頭像就是高斯，頭像左邊就是正態(tài)分布；硬幣上也有。好像只有德國把科學(xué)家印在紙幣上面，其他的國家基本都是政治人物，這也體現(xiàn)日耳曼這個(gè)民族的可怕。（值得學(xué)習(xí)）

這是標(biāo)準(zhǔn)正態(tài)分布。一倍標(biāo)準(zhǔn)差、兩倍、三倍的位置對應(yīng)的面積不同，分別覆蓋了 68%、95%、99.7%。三倍標(biāo)準(zhǔn)差以外的事件就當(dāng)作小概率事件，這也是它的定義方式。

右圖是一些相關(guān)用法，比如假設(shè)檢驗(yàn)里面會(huì)驗(yàn)證α，也叫分位數(shù)，比如就 0.05 以上的概率是什么，驗(yàn)證一下對點(diǎn)估計(jì)或者區(qū)間估計(jì)的可信度。

常用函數(shù)，這是一個(gè) sigmoid，它有飽和特性。

還有一個(gè) softplus，它是 softmax 的一種弱化；softmax 從右往左下降會(huì)直接到 0，在 0 的位置有一個(gè)突變，然后繼續(xù)走；0 這個(gè)點(diǎn)的左導(dǎo)數(shù)和右導(dǎo)數(shù)是不一樣的，左導(dǎo)數(shù)是 0，右導(dǎo)數(shù)是 1，所以 0 這個(gè)點(diǎn)上的導(dǎo)數(shù)是不存在的。怎么辦呢？為了數(shù)學(xué)上面好看，而且求導(dǎo)方便，那就把它變成 softplus，在 0 這個(gè)點(diǎn)做變換之后就整個(gè)平滑起來，每個(gè)點(diǎn)的都是可導(dǎo)的。實(shí)際上在書里面也提到一點(diǎn)，平時(shí)其實(shí)深度網(wǎng)絡(luò) DNN 里面會(huì)經(jīng)常用到 ReLU，ReLU 里就是 softmax。softmax 是 ReLU 的一種推廣。ReLU 里 0 點(diǎn)也是不可導(dǎo)的，就有一些規(guī)則的方法，就是如果到了這個(gè)點(diǎn)的話，他會(huì)給要么是 0，要么是 1，視具體情況而論。

這是一些概率函數(shù)的基本性質(zhì)。sigmoid 求導(dǎo)非常方便，還有其他一些特性。softplus 也有一些很好的性質(zhì)，(x)-(-x) 起來就等于 x，挺簡單。

頻率學(xué)派和貝葉斯學(xué)派。先講講貝葉斯這個(gè)人，他剛開始只是一個(gè)牧師，就是一個(gè)神職人員，滑稽的是，他做數(shù)學(xué)研究是為了研究神的存在；這個(gè)跟牛頓有點(diǎn)像，不過牛頓前期是不怎么研究，到老了研究上帝，最后沒什么成果。貝葉斯是一個(gè)徹頭徹尾的學(xué)術(shù)屌絲，在 1742 年就加入了皇家學(xué)會(huì)；當(dāng)時(shí)也是有牛人給推薦了，他沒有發(fā)表過任何論文，不知道怎么的就進(jìn)去了；后來也挺凄慘，到 1761 年死了也沒什么消息。1763 年，他的遺作被人發(fā)現(xiàn)「論機(jī)會(huì)學(xué)說中一個(gè)問題的求解」，貝葉斯理論就從此誕生。

誕生時(shí)，還是波瀾不驚，沒有什么影響。直到 20 世紀(jì)，也就是過了幾百年（對，等黃花菜都涼了，花兒都謝了），貝葉斯理論就開始越來越有用了，成為現(xiàn)在概率里面的第二大門派，一般提到概率就會(huì)提到頻率學(xué)派和貝葉斯學(xué)派。這個(gè)人物跟梵高一樣，生前一文不值，死后價(jià)值連城。貝爺（別想多了，不是荒野求生）非常非常的低調(diào)。

還有一個(gè)更加悲劇的數(shù)學(xué)天才——迦羅瓦，他是群論的創(chuàng)始人，法國人，也是非常厲害的一個(gè)天才。十幾歲就提出五次多項(xiàng)式方程組的解不存在，論文先后給別人看，希望大神引薦、宣傳一下，結(jié)果被柯西、傅里葉、泊松等人各種理由錯(cuò)失，有的遺失、有的拒絕，反正那些大師都不看好。然后到 21 歲的時(shí)候，年少氣盛，一不開心就跟情敵決斗，這個(gè)情敵是個(gè)警探，居然用槍決斗，然后光榮的掛了。

當(dāng)然，決斗前夜他知道自己會(huì)掛（明知要死，還有去送死，這是種什么精神？），所以連夜把自己的書稿整理一下，交代后事，這才有群論的誕生。后來人對他評判是 “笨死的天才”，他的英年作死直接導(dǎo)致整個(gè)數(shù)學(xué)發(fā)展推遲了幾十年。

上面圖中是貝葉斯，不一定是他本人，因?yàn)檫@個(gè)人太低調(diào)，連張頭像可能都找不到，沒有人能夠記清楚了，所以這個(gè)不一定是。下面的就是迦羅瓦，中槍倒下 ing。

這是貝葉斯規(guī)則，就是條件概率。x 和 y 是兩個(gè)隨機(jī)變量，y 發(fā)生的情況下 x 會(huì)發(fā)生的概率是 x 單獨(dú)發(fā)生的概率乘 x 發(fā)生的情況下 y 發(fā)生的概率，除以 y 單獨(dú)發(fā)生概率。一般拿這個(gè)做一些判別分類。機(jī)器學(xué)習(xí)里面分兩大類生成式和判別式，判別式的一個(gè)典型就是貝斯規(guī)則；生成式的方法跟判別式方法區(qū)別就是，生成式盡可能用模型去擬合它的聯(lián)合分布，而判別式擬合的是一種條件分布。

貝葉斯學(xué)派和頻率學(xué)派最大的不同、根上的不同，就是在于模型 y=wx+b 其中的 w 和 b 兩個(gè)參數(shù)，頻率學(xué)派認(rèn)為參數(shù)是固定的，只要通過不停的采樣、不停的觀測訓(xùn)練，就能夠估算參數(shù) w 和 b，因?yàn)樗鼈兪枪潭ú蛔兊?#xff1b;而貝葉斯學(xué)派相反，他們認(rèn)為這些參數(shù)是變量，它們是服從一定的分布的，這是它最根本的差別。在這個(gè)基礎(chǔ)上演變的最大似然估計(jì)、或者 MAP 等等的都不一樣。這完全是兩個(gè)不同的流派。

由條件概率引申出來的貝葉斯規(guī)則。像這個(gè) a、b、c 的聯(lián)合分布可以表示成這樣，然后它可以對應(yīng)一個(gè)圖，概率圖。像這樣。

a 發(fā)生、b 發(fā)生是有一定的依賴關(guān)系的。一般如果 a、b、c 完全是獨(dú)立的就好說了，那 p(a,b,c) 就等于 p(a)、p(b)、p(c) 的乘積。這個(gè)圖跟 TensorFlow 里面的圖是一回事。

下面介紹一下信息論。信息論是香農(nóng)這個(gè)人提出來的，在 1948 年他發(fā)表了一篇論文叫 “通信的數(shù)學(xué)原理”，對信息通信行業(yè)的影響非常大，相當(dāng)于計(jì)算機(jī)行業(yè)的馮諾依曼這個(gè)級別。不過他的功勞一直被低估（吳軍《數(shù)學(xué)之美》）。

信息論主要解決什么問題呢？第一，概率是事件發(fā)生時(shí)的可能性，怎么度量信息量的大小？第二是對于某個(gè)隨機(jī)事件，比如說今天下雨這句話，到底有多少什么信息量？如果是在南方的話，可能經(jīng)常下雨，那信息量不大；如果在北方或者在北極，這個(gè)信息量就大了去了。還有今天是晴天還是可能下冰雹，實(shí)際上這是隨機(jī)事件的概率分布，這個(gè)分布有多少信息量就用熵來衡量。上面就是自信息，有條件分布，對應(yīng)的是條件熵；還有互信息等等。

總之，信息論是建立在概率論的基礎(chǔ)上，概率論里面基本上每一種概率都能對應(yīng)到信息論里面的解釋。

這是香農(nóng)和三種書里面提到的三種特性：

非常可能發(fā)生的事件，它的信息量比較少，因?yàn)樗_定性比較高；
而不可能發(fā)生的，或者是很少發(fā)生的，它的信息量就比較大；
獨(dú)立事件具有增量的信息，剛才說的下雨就是一個(gè)例子；另一個(gè)例子是太陽從東邊升起和從西邊升起，這兩個(gè)事件是完全獨(dú)立的，兩個(gè)事件的信息量可以累加起來。

這是信息論的幾個(gè)概念，自信息、互信息、條件熵?。上面的公式是自信息的標(biāo)準(zhǔn)，直接就取一個(gè)對數(shù)而已，加上負(fù)號。熵就是把多種情況累加起來再取均值。

信息論現(xiàn)在是跟各個(gè)行業(yè)、各個(gè)領(lǐng)域都是密切相關(guān)的，像統(tǒng)計(jì)學(xué)、經(jīng)濟(jì)學(xué)、數(shù)學(xué)，影響非常大。

看左邊的圖是不同的熵之間的關(guān)系。左邊整個(gè)圈是 x 事件的范圍，中間交叉的部分是互信息。不同熵之間的關(guān)系用韋恩圖來表示。

這里有一個(gè)交叉熵，也是重點(diǎn)提到的概念。這是衡量事件發(fā)生的概率，像左側(cè)靠近零，說明這個(gè)事件發(fā)生的可能性很小，那么它對應(yīng)的信息量較少；然后到中間 0.5 的地方，比如說扔硬幣有兩種結(jié)果，兩種結(jié)果 0.5 基本上靠猜，完全隨機(jī)了；對于這樣分不清到底結(jié)果是什么樣的，對應(yīng)的信息量最大的；類似的到另外一個(gè)極端，就是這個(gè)事件確定是可以發(fā)生的，可能性很大的，那信息量也小。

這里還有一個(gè) KL 散度，基本上是衡量兩個(gè)概率分布的差異。這個(gè)公式也很復(fù)雜，你們自己去琢磨，必須要看，看一遍然后才有直觀的理解。現(xiàn)在講也講不清楚。（注：信息論也可以形象起來，參考：colah's blog,Visual Information Theory）

機(jī)器學(xué)習(xí)里面還有一個(gè)交叉熵，cross-entropy，跟熵是密切相關(guān)的，它的差別就是少了一項(xiàng)。

這是 KL 散度，它是不對稱的，就是說概率 p 和概率 q 的順序調(diào)一下是不同的概念，兩個(gè)順序不同要用于不同的場景。它的目標(biāo)是要構(gòu)造一個(gè)概率分布 q，去近似擬合、去模擬另外一個(gè)概率分布 p。這個(gè) p 分布是由兩個(gè)正態(tài)分布組合起來的，兩個(gè)疊加起來。怎么用 q 擬合它呢，如果用左邊的散度去度量，算分布之間的誤差，這個(gè)誤差對應(yīng)的就是 KL 散度，然后根據(jù) KL 散度去有方向地去調(diào)整。這是它的過程，類似于機(jī)器學(xué)習(xí)里面的過程。

如果用左邊的 KL 散度，p 在前 q 在后，那我們會(huì)得到這樣一個(gè)結(jié)果；綠色的是擬合的概率。它的效果是保證在高概率的地方，擬合的概率要高，而不考慮低概率的部分，所以結(jié)果就會(huì)做一個(gè)平滑。概率的總和還是 1，要保證歸一性嘛。右邊反過來，q 在前 p 在后，那么低概率要優(yōu)先保證，高概率就忽略了，那么這個(gè)擬合的概率分布就盡量往一個(gè)峰靠，只能保證一個(gè)峰。這就解釋了 KL 散度不對稱性的應(yīng)用，可以按照不同的應(yīng)用場景取不同的方向。

剛才 PPT 里面講的大致的內(nèi)容，圖都是來自于「大嘴巴漫談數(shù)據(jù)挖掘」這本書，朱向軍的，這本書全部用圖的方式去解釋，非常好；還有「數(shù)學(xué)之美」和一些概念。

好，我這邊講完了。

AI 科技評論整理。感謝王奇文嘉賓的分享以及對本文的校對和補(bǔ)充。

本文轉(zhuǎn)自雷鋒網(wǎng)AI研習(xí)社（ID：okweiwu），轉(zhuǎn)載已獲授權(quán)，如需轉(zhuǎn)載請聯(lián)系原作者。

延伸推薦

《Go Web編程》這一本不可錯(cuò)過！

2017優(yōu)秀圖書和作譯者評選-進(jìn)行中贏取kindle等技術(shù)圖書禮！

AI經(jīng)典書單| 入門人工智能該讀哪些書？

聊聊Python

2017內(nèi)核大會(huì)看點(diǎn)云集

你所不了解的Kafka

Kotlin最佳項(xiàng)目實(shí)戰(zhàn)——?dú)W瑞天氣App

點(diǎn)擊關(guān)鍵詞新書：

點(diǎn)擊圖片參與活動(dòng)

點(diǎn)擊閱讀原文，購買《深度學(xué)習(xí)》

總結(jié)

以上是生活随笔為你收集整理的BAT资深算法工程师《深度学习》读书分享：概率和信息论的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： MoQ(基于.net3.5,c#3.0的
下一篇：神经网络和深度学习-第二周神经网络基础-