PGM学习之一
一 課程基本信息
????????? 本課程是由Prof.Daphne Koller主講,同時得到了Prof. Kevin Murphy的支持,在coursera上公開傳播。在本課程中,你將學(xué)習(xí)到PGM(Probabilistic Graphical Models)表示的基本理論,以及如何利用人類自身的知識和機器學(xué)習(xí)技術(shù)來構(gòu)建PGM;還將學(xué)習(xí)到使用PGM算法來對有限、帶噪聲的證據(jù)提取結(jié)論,在不確定條件下做出正確的抉擇。該課程不僅包含PGM框架的理論基礎(chǔ),還有將這些技術(shù)應(yīng)用于新問題的實際技巧。
????????? 本課程包含以下主題:
??????????1.貝葉斯網(wǎng)絡(luò)(Bayesian network)和馬爾科夫網(wǎng)絡(luò)(Markov network)的表示,包括隨時間變換的域和可變數(shù)量的實體的域的推理;
??????????2.推理和推斷的方法,包括精確推斷(變量消除(variable elimination),勢團樹(clique tree)),近似推斷(信仰傳播的消息傳遞,馬爾科夫鏈(蒙特卡洛方法));
????????? 3.PGM中,參數(shù)和結(jié)構(gòu)化的學(xué)習(xí)方法;
????????? 4.在不確定條件下使用PGM進行決策;
?二 什么是PGM?
??? 不確定性是現(xiàn)實世界應(yīng)用中不可避免的問題:我們幾乎從未肯定地預(yù)測將要發(fā)生的時間,即使我們對于過去和現(xiàn)在的信息都了如指掌。概率理論為我們提供了用以對我因時而異、因地而異的belief建模的基礎(chǔ)。這些belief可以結(jié)合個人的喜好來指導(dǎo)行動,甚至在選擇觀測中也能用到。
????概率論自17世紀以來就存在,但直到最近我們才具有有效使用概率論的知識解決涉及許多相互聯(lián)系的變量的大問題,這主要歸功于PGM模型框架的發(fā)展。該框架,主要包含例如貝葉斯網(wǎng)絡(luò)和馬爾科夫隨機場(Markov random fields)等方法,使用的思想是計算機科學(xué)中的離散數(shù)據(jù)結(jié)構(gòu)可以快速編碼、在包含成千上萬個變量的高維空間操作概率分布。這些方法已經(jīng)廣泛應(yīng)用于許多領(lǐng)域:網(wǎng)頁搜索,醫(yī)療和故障診斷,圖像理解,生物網(wǎng)絡(luò)重建,語音識別,自然語言處理,高噪聲環(huán)境下編碼信息傳輸,機器人導(dǎo)航,等等。PGM框架為任何希望通過有限、含噪的觀測來正確推理提供了必要的工具。
三 PGM相關(guān)概述
3.1 為什么需要PGM?
??? PGM最開始出現(xiàn)在計算機科學(xué)和人工智能領(lǐng)域,主要應(yīng)用于醫(yī)學(xué)診斷。假設(shè)一個醫(yī)生正在給一個病人看病。從醫(yī)生的角度,他掌握著病人相當數(shù)量的信息-誘因、癥狀、各種測試結(jié)果等。并且,他應(yīng)當判斷出,病人的病情診斷是什么,不同的質(zhì)量方案會有什么樣的反應(yīng)等等。PGM的另外一個典型應(yīng)用是圖像分割。比如,我們有一張可能包含成千上萬個像素。圖像分割,就是給圖像中每個像素貼上標簽。例如下圖所示,每個像素應(yīng)該給貼上諸如草地、天空、牛或馬此類類別標簽。上述兩個問題的共同點是:
????1.它們都具有大量我們需要從中推理的變量。在圖像分割問題中,不同的像素或者由像素構(gòu)成的小區(qū)域的標簽叫superpixels。
????2.正確的結(jié)果具有不確定性,不管算法設(shè)計得如何清晰。
????綜上,PGM就是用來解決上述應(yīng)用的框架。
3.2 什么是Model?
????? 模型是一個我們理解世界的形象化表示(Declarative representation)。如下圖所示:
??????
?
???? 簡單的講,一個模型是一種我們理解周圍世界的聲明或者表達方式。在計算機內(nèi),一個模型包含我們對若干變量的理解,比如,這些變量是什么含義,變量之間如何交互。模型的這種特性使得我們能夠?qū)⑿碌乃惴尤肽P蛢?nèi)部,同時加入新的外界知識。比如用專家只是知道模型,通過學(xué)習(xí)的方法改善模型等。
3.3什么是Probabilistic?
???首先解釋下不確定性(Uncertainty)。產(chǎn)生不確定性的原因主要有:
???1、對世界認知狀態(tài)的不完整;2、含有噪聲的觀測(Noisy observations);3、模型未能覆蓋所有實際現(xiàn)象;4、固有的隨機性;
?? 概率論,通常具有清晰的表達式,強推理模式,可建立的學(xué)習(xí)方法
3.4什么是Graphical?
??Graphical(圖)來自計算機科學(xué),是一種復(fù)雜數(shù)據(jù)結(jié)構(gòu)。通常包括頂點和連接頂點的邊。
四 Graphical Models(圖模型)
??最簡單的圖模型是貝葉斯網(wǎng)絡(luò),通常貝葉斯網(wǎng)絡(luò)使用有向無環(huán)圖來表示,圖中的頂點表示隨機變量,圖中的邊沿表示隨機變量之間的概率依賴關(guān)系;在機器學(xué)習(xí)和圖像處理中(圖像分割)還經(jīng)常使用馬爾科夫網(wǎng)絡(luò)(Markov network),通常馬爾科夫網(wǎng)絡(luò)使用無向圖來表示頂點與周圍頂點之間的關(guān)系。
??? ?????
??????????????????????????????????
?
??? 下面給出一個在圖像分割中實際應(yīng)用的例子:
???????
?
五 分布(Distributions)
???聯(lián)合分布-在概率論中, 對兩個隨機變量X和Y,其聯(lián)合分布是同時對于X和Y的概率分布.
對離散隨機變量而言,聯(lián)合分布概率密度函數(shù)為Pr(X = x & Y = y),即
因為是概率分布函數(shù),所以必須有
???以通過考試成績評估學(xué)生學(xué)習(xí)情況為例。
???????
???I表示學(xué)生智力,可取值為0和1;D表示試卷難易程度,可取值為0和1;G代表最后的試卷結(jié)果等級,可取值為1,2,3。根據(jù)三個隨機變量I,D,G的取值情況,我們知道三個隨機變量一共有2*2*3種取值。聯(lián)合分布P(I,D,G)的分布情況如上圖右表所示。需要注意的一點是,I,D,G是相互獨立的隨機變量。
???條件概率分布(條件分布)是現(xiàn)代概率論中的概念。已知兩個相關(guān)的隨機變量X 和Y,隨機變量Y 在條件{X =x}下的條件概率分布是指當已知X 的取值為某個特定值x之時,Y 的概率分布。 如果Y 在條件{X =x}下的條件概率分布是連續(xù)分布,那么其密度函數(shù)稱作Y 在條件{X =x}下的條件概率密度函數(shù)(條件分布密度、條件密度函數(shù))。與條件分布有關(guān)的概念,常常以“條件”作為前綴,如條件期望、條件方差等等。
???對于離散型的隨機變量X 和Y(取值范圍分別是和),隨機變量Y 在條件{X =x}下的條件概率分布是:
同樣的,X 在條件{Y=y}下的條件概率分布是:
其中,是X 和Y 聯(lián)合分布概率,即“,并且發(fā)生的概率”。如果用表示的值: 那么隨機變量X 和Y 的邊際分布就是:
因此, 隨機變量Y 在條件{X =x}下的條件概率分布也可以表達為:
同樣的,X 在條件{Y=y}下的條件概率分布也可以表達為:
?? 繼續(xù)前面的例子,例如我們要求當G取值為1的時候的條件概率,那么P(I,D,G=1)為所有I和D變換,而G固定為1的聯(lián)合分布的取值之和。
???????????
?? 由上圖我們知道,P(I,D,G=1)的值為0.126+0.009+0.252+0.06=0.447。這里G=1的條件概率不唯一,在實際應(yīng)用中,使用條件概率時,常常還需要進行條件概率的歸一化。簡單的講,就是在G=1的時候,可以將概率空間單純的之前的3維(I,D,G各自所在的空間為一維)看做2維(G固定,只剩下I,D)。因此可條件概率的歸一化是指條件概率的每一個可能的取值與條件概率之和的商。如下圖,P(I,D|g=1)的條件概率分布如右表所示。?
??????
?? 最后,還需要明確的一個概念是邊緣概率。邊緣概率是某個事件發(fā)生的概率。邊緣概率是這樣得到的:在聯(lián)合概率中,把最終結(jié)果中不需要的那些事件合并成其事件的全概率而消失(對離散隨機變量用求和得全概率,對連續(xù)隨機變量用積分得全概率)。這稱為邊緣化(marginalization)。A的邊緣概率表示為P(A),B的邊緣概率表示為P(B)。繼續(xù)之前的例子,比如我們已經(jīng)知道P(I,D|g=1),然后我們邊緣化I,則我們可以得D的邊緣分布,如下圖所示:
??????
??
????
總結(jié)
- 上一篇: 400分单招计算机,湖南单招最火爆的专科
- 下一篇: fortran使用MKL函数库计算一个复