浅谈贝叶斯网络以及贝叶斯网络处理模型不确定性
1. 貝葉斯定理
貝葉斯定理是關(guān)于隨機(jī)事件 A 和 B 的條件概率:
其中P(A∣B)P(A|B)P(A∣B)是在 B 發(fā)生的情況下 A 發(fā)生的可能性。
貝葉斯定理有一個(gè)好處就是可以根據(jù)新情況更新先驗(yàn)概率。
舉一個(gè)案例:
假設(shè)有兩個(gè)各裝了100個(gè)球的箱子,甲箱子中有70個(gè)紅球,30個(gè)綠球,乙箱子中有30個(gè)紅球,70個(gè)綠球。假設(shè)隨機(jī)選擇其中一個(gè)箱子,從中拿出一個(gè)球記下球色再放回原箱子,如此重復(fù)12次,記錄得到8次紅球,4次綠球。問(wèn)題來(lái)了,你認(rèn)為被選擇的箱子是甲箱子的概率有多大?
下面容我來(lái)詳細(xì)分析解答。剛開始選擇甲乙兩箱子的先驗(yàn)概率都是50%,因?yàn)槭请S機(jī)二選一(這是貝葉斯定理二選一的特殊形式)。即有:
P(甲) = 0.5, P(乙) = 1 - P(甲);
這時(shí)在拿出一個(gè)球是紅球的情況下,我們就應(yīng)該根據(jù)這個(gè)信息來(lái)更新選擇的是甲箱子的先驗(yàn)概率:
P(甲|紅球1) = P(紅球|甲) × P(甲) / (P(紅球|甲) × P(甲) + (P(紅球|乙) × P(乙)))
P(紅球|甲):甲箱子中拿到紅球的概率
P(紅球|乙):乙箱子中拿到紅球的概率
因此在出現(xiàn)一個(gè)紅球的情況下,選擇的是甲箱子的先驗(yàn)概率就可被修正為:
P(甲|紅球1) = 0.7 × 0.5 / (0.7 × 0.5 + 0.3 × 0.5) = 0.7
即在出現(xiàn)一個(gè)紅球之后,甲乙箱子被選中的先驗(yàn)概率就被修正為:
P(甲) = 0.7, P(乙) = 1 - P(甲) = 0.3;
如此重復(fù),直到經(jīng)歷8次紅球修正(概率增加),4此綠球修正(概率減少)之后,選擇的是甲箱子的概率為:96.7%。
2. 貝葉斯網(wǎng)絡(luò)
一個(gè)貝葉斯網(wǎng)絡(luò)定義包括一個(gè)有向無(wú)環(huán)圖(DAG)和一個(gè)條件概率表集合。DAG中每一個(gè)節(jié)點(diǎn)表示一個(gè)隨機(jī)變量,可以是可直接觀測(cè)變量或隱藏變量,而有向邊表示隨機(jī)變量間的條件依賴;條件概率表中的每一個(gè)元素對(duì)應(yīng)DAG中唯一的節(jié)點(diǎn),存儲(chǔ)此節(jié)點(diǎn)對(duì)于其所有直接前驅(qū)節(jié)點(diǎn)的聯(lián)合條件概率。如下圖所示:
貝葉斯網(wǎng)絡(luò)有一條極為重要的性質(zhì),就是我們斷言每一個(gè)節(jié)點(diǎn)在其直接前驅(qū)節(jié)點(diǎn)的值制定后,這個(gè)節(jié)點(diǎn)條件獨(dú)立于其所有非直接前驅(qū)前輩節(jié)點(diǎn)。
這個(gè)性質(zhì)很類似Markov過(guò)程。其實(shí),貝葉斯網(wǎng)絡(luò)可以看做是Markov鏈的非線性擴(kuò)展。這條特性的重要意義在于明確了貝葉斯網(wǎng)絡(luò)可以方便計(jì)算聯(lián)合概率分布。一般情況先,多變量非獨(dú)立聯(lián)合條件概率分布有如下求取公式:
構(gòu)造與訓(xùn)練貝葉斯網(wǎng)絡(luò)分為以下兩步:
1、確定隨機(jī)變量間的拓?fù)潢P(guān)系,形成DAG。這一步通常需要領(lǐng)域?qū)<彝瓿?#xff0c;而想要建立一個(gè)好的拓?fù)浣Y(jié)構(gòu),通常需要不斷迭代和改進(jìn)才可以。
2、訓(xùn)練貝葉斯網(wǎng)絡(luò)。這一步也就是要完成條件概率表的構(gòu)造,如果每個(gè)隨機(jī)變量的值都是可以直接觀察的,像我們上面的例子,那么這一步的訓(xùn)練是直觀的,方法類似于樸素貝葉斯分類。但是通常貝葉斯網(wǎng)絡(luò)的中存在隱藏變量節(jié)點(diǎn),那么訓(xùn)練方法就是比較復(fù)雜,例如使用梯度下降法。
相關(guān)資料:
https://www.zhihu.com/question/28006799/answer/533797100
https://www.cnblogs.com/leoo2sk/archive/2010/09/18/bayes-network.html
https://blog.csdn.net/chasdmeng/article/details/38688525
3. 不確定性和置信度問(wèn)題
不確定性度量反映的是一個(gè)隨機(jī)變量的離散程度(dispersion)。換句話說(shuō),這是一個(gè)標(biāo)量,反應(yīng)了一個(gè)隨機(jī)變量有多「隨機(jī)」。在金融領(lǐng)域,這通常被稱為「風(fēng)險(xiǎn)」。不確定性不是某種單一形式,因?yàn)楹饬侩x散程度的方法有很多:標(biāo)準(zhǔn)差、方差、風(fēng)險(xiǎn)值(VaR)和熵都是合適的度量。總之要記住,「越高的不確定性」往往被視為「更糟糕」。
不確定性大概為兩種:
偶然不確定性:這描述的是源自數(shù)據(jù)生成過(guò)程本身的隨機(jī)性;不能簡(jiǎn)單地通過(guò)收集更多數(shù)據(jù)而消除的噪聲。就像你不能預(yù)知結(jié)果的拋硬幣。也許有人會(huì)想:因?yàn)榕既皇录淮_定性是不可約減的,所以我們對(duì)此無(wú)能無(wú)力,直接忽略它就好了。這可不行!在訓(xùn)練模型時(shí),應(yīng)該注意選擇能夠正確地代表偶然事件不確定性的輸出表征。標(biāo)準(zhǔn)的 LSTM 不會(huì)得出概率分布,所以學(xué)習(xí)拋硬幣的結(jié)果時(shí)只會(huì)收斂成均值。相對(duì)而言,用于語(yǔ)言生成的模型能夠得出一系列類別分布(詞或字符),這能納入句子完成任務(wù)中的固有歧義性。
感知不確定性:與模型相關(guān),是由于訓(xùn)練不完全導(dǎo)致的。如果給它更多的訓(xùn)練數(shù)據(jù)來(lái)彌補(bǔ)現(xiàn)有模型知識(shí)上的不足,這種不確定性從理論上來(lái)說(shuō)是可以消除的。
nips2017的一篇論文用貝葉斯神經(jīng)網(wǎng)絡(luò)建模兩類不確定性。
大部分不確定性估計(jì)算法都是基于Bayesian Neural Networks (可以理解為概率性的神經(jīng)網(wǎng)絡(luò), 認(rèn)為其參數(shù)服從一定的先驗(yàn)分布), 給定輸入時(shí)就可以產(chǎn)生具有一定分布性質(zhì)的輸出用來(lái)計(jì)算模型不確定度。
相關(guān)資料:
https://www.cnblogs.com/sinoyou/p/11441634.html(基于貝葉斯網(wǎng)絡(luò)的不確定性估計(jì))
https://zhuanlan.zhihu.com/p/98756147(nips2017)
https://zhuanlan.zhihu.com/p/88654038(nips2017)
Dropout as a Bayesian Approximation: Representing Model Uncertainty in Deep Learning
Bayesian SegNet: Model Uncertainty in Deep Convolutional Encoder-Decoder Architectures for Scene Understanding
總結(jié)
以上是生活随笔為你收集整理的浅谈贝叶斯网络以及贝叶斯网络处理模型不确定性的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 随机微分方程
- 下一篇: bode图处理----当相频特性曲线纵坐