ANN:ML方法与概率图模型
???????? 產生式模型和判別式模型
假定輸入x,類別標簽y
—??產生式模型(生成模型)估計聯合概率P(x,y),因可以根據聯合概率來生成樣本:HMMs —?判別式模型(判別模型)估計條件概率P(y|x),因為沒有x的知識,無法生成樣本,只能判斷分類:SVMs,CRF,MEM一個舉例:
? (1,0), (1,0), (2,0), (2, 1)
產生式模型:
p(x,y):
P(1, 0) = 1/2, P(1, 1) = 0 , P(2, 0) = 1/4, P(2, 1) = 1/4. 判別式模型:P(y|x):
P(0|1) = 1, P(1|1) = 0, P(0|2) = 1/2, P(1|2) = 1/2
o和s分別代表觀察序列和標記序列 —產生式模型: 構建o和s的聯合分布p(s,o); —判別式模型: 構建o和s的條件分布p(s|o);
—產生式模型中,觀察序列作為模型的一部分;
??? 判別式模型中,觀察序列只作為條件,因此可以針對觀察序列設計靈活的特征。 ???產生式模型:無窮樣本==》概率密度模型=產生模型==》預測
????判別式模型:有限樣本==》判別函數=預測模型???????? ==》預測
???一般認為判別型模型要好于生成型模型,因為它是直接根據數據對概率建模,而生成型模型還要先求兩個難度相當的概率。
概率圖模型:
概率圖模型,用圖的形式表示概率分布,—基于概率論中貝葉斯規則建立起來的,解決不確定性問題,可以用于人工智能、數據挖掘、 語言處理文本分類等領域,圖模型是表示隨機變量之間的關系的圖,圖中的節點表示隨機變量,缺少邊表示條件獨立假設。因此可以對聯合分布提供一種緊致表示。
根據邊的方向性,有兩種主要的圖模型: ?無向圖:亦稱馬爾科夫隨機場(MarkovRandom Fields,MRF’s)或馬爾科夫網絡(MarkovNetworks) ?有向圖:亦稱貝葉斯網絡(Bayesian??????? Networks)?????????????????? 或信念網絡(Belief Networks, BN’s). ?還有混合圖模型,有時稱為鏈圖(chaingraphs)
—我們不妨拿種地來打個比方。其中有兩個概念:位置(site),相空間(phasespace)。“位置”好比是一畝畝農田;“相空間”好比是種的各種莊稼。我們可以給不同的地種上不同的莊稼,這就好比給隨機場的每個“位置”,賦予相空間里不同的值。所以,俗氣點說,隨機場就是在哪塊地里種什么莊稼的事情。?
簡單地講,隨機場可以看成是一組隨機變量的集合(這組隨機變量對應同一個樣本空間)。當給每一個位置中按照某種分布隨機賦予相空間的一個值之后,其全體就叫做隨機場。 當然,這些隨機變量之間可能有依賴關系,一般來說,也只有當這些變量之間有依賴關系的時候,我們將其單獨拿出來看成一個隨機場才有實際意義。
馬爾科夫性質: 體現了一個思想:離當前因素比較遙遠(這個遙遠要根據具體情況自己定義)的因素對當前因素的性質影響不大。 ??????? 條件隨機場模型是一種無向圖模型,它是在給定需要標記的觀察序列的條件下,計算整個標記序列的聯合概率分布,而不是在給定當前狀態條件下,定義下一個狀態的狀態分布。即給定觀察序列O,求最佳序列S。
二、CRF:
?????? 條件隨機場模型是由Lafferty在2001年提出的一種典型的判別式模型。它在觀測序列的基礎上對目標序列進行建模,重點解決序列化標注的問題。條件隨機場模型既具有判別式模型的優點,又具有產生式模型考慮到上下文標記間的轉移概率,以序列化形式進行全局參數優化和解碼的特點,解決了其他判別式模型(如最大熵馬爾科夫模型)難以避免的標記偏置問題。
? ? ? ??條件隨機場理論(CRFs)可以用于序列標記、數據分割、組塊分析等自然語言處理任務中。在中文分詞、中文人名識別、歧義消解等漢語自然語言處理任務中都有應用,表現很好。目前基于CRFs的主要系統實現有CRF,FlexCRF,CRF++。缺點:訓練代價大、復雜度高
?
—PreKnowledge: —產生式模型和判別式模型(Generativemodel vs. Discriminative model) —概率圖模型 —隱馬爾科夫模型 —最大熵模型三、HMM、MEMM、CRF區別和聯系:
原文鏈接:http://1.guzili.sinaapp.com/?p=133??????? 隱馬爾可夫模型(Hidden Markov Model,HMM),最大熵馬爾可夫模型(Maximum Entropy Markov Model,MEMM)以及條件隨機場(Conditional Random Field,CRF)是序列標注中最常用也是最基本的三個模型。HMM首先出現,MEMM其次,CRF最后。
?????? 三個算法主要思想如下:
- HMM模型是對轉移概率和表現概率直接建模,統計共現概率。
- MEMM模型是對轉移概率和表現概率建立聯合概率,統計時統計的是條件概率,但MEMM容易陷入局部最優,是因為MEMM只在局部做歸一化。
- RF模型中,統計了全局概率,在 做歸一化時,考慮了數據在全局的分布,而不是僅僅在局部歸一化,這樣就解決了MEMM中的標記偏置(label bias)的問題。
舉個例子,對于一個標注任務,“我愛北京天安門“,
?????????????????????????????????標注為” s s??b??e b c? e”
- 對于HMM的話,其判斷這個標注成立的概率為 P= P(s轉移到s)*P(‘我’表現為s)* P(s轉移到b)*P(‘愛’表現為s)* …*P().訓練時,要統計狀態轉移概率矩陣和表現矩 陣。
- 對于MEMM的話,其判斷這個標注成立的概率為 P= P(s 轉移到s|’我’表現為s)*P(‘我’表現為s)* P(s轉移到b|’愛’表現為s)*P(‘愛’表現為s)*..訓練時,要統計條件狀態轉移概率矩陣和表現矩陣。
- 對于CRF的話,其判斷這個標注成立的概率為 P=?F(s轉移到s,’我’表現為s)….F為一個函數,是在全局范圍統計歸一化的概率而不是像MEMM在局部統計歸一化的概率。
當前,最后出現的CRF在多項任務上達到了統治級的表現,所以如果重頭搞應用的話,大家可以首選CRF。本質上,CRF有以下三個優點:
- CRF沒有HMM那樣嚴格的獨立性假設條件,因而可以容納任意的上下文信息。????????? ? ?? 特征設計靈活(與ME一樣) ? ? ? ??————與HMM比較
- 同時,由于CRF計算全局最優輸出節點的條件概率,它還克服了最大熵馬爾可夫模型標記偏置(Label-bias)的缺點。 --————與MEMM比較
- CRF是在給定需要標記的觀察序列的條件下,計算整個標記序列的聯合概率分布,而不是在給定當前狀態條件下,定義下一個狀態的狀態分布。
凡事都有兩面,正由于這些優點,CRF需要訓練的參數更多,與MEMM和HMM相比,它存在訓練代價大、復雜度高的缺點。
四、標記偏置問題:
??????
那么,究竟什么是標記偏置問題呢?還是看個實際例子吧!
???? 基于上圖各邊上的轉移概率簡單進行計算可得每條路徑的概率如下:
- 路徑1-1-1-1的概率: 0.4*0.45*0.5 =0.09
- 路徑2-2-2-2的概率:??? 0.2*0.3*0.3?? =0.018
- 路徑1-2-1-2的概率:??? 0.6*0.2*0.5?? =0.06
- 路徑1-1-2-2的概率:??? 0.4*0.55*0.3=0.066
??????? 由此,可知最優路徑為1-1-1-1. 然而,仔細觀察可發現上圖中stat1 中每個結點都傾向于轉移到stat2,這明顯是和直覺不相符的。(?因為狀態2可以轉換的狀態比狀態1要多,從而使轉移概率降低;即MEMM傾向于選擇擁有更少轉移的狀態) 這就是所謂的標注偏置問題。實際上,造成這一問題的根本原因是每個節點分支數不同,由于MEMM的局部歸一化特性,使得轉出概率的分布不均衡,最終導致狀態的轉移存在不公平的情況。
??????? 怎么解決這種問題呢?先介紹一個最直觀的最粗暴的解決方法,由于我們知道是因為概率分布不均導致的,可以簡單把每個節點轉出概率和為1的限制去掉,比如我們簡單把上圖中stat2中每個結點出發的邊的概率值×10,重新計算每條路徑的概率如下:
- 路徑1-1-1-1的概率: 0.4*0.45*0.5=0.09
- 路徑2-2-2-2的概率: 2*3*3=18
- 路徑1-2-1-2的概率: 0.6*2*5=6
- 路徑1-1-2-2的概率: 0.4*0.55*3=0.66
由此可得最優路徑是2-2-2-2, 這就解決了MEMM的標記偏置問題。當然這個方法太粗暴了,CRF則是利用一種全局的優化思路來定向解決的。
至此,這三個算法的區別和聯系基本算講清楚了。
下面從機器學習中的概率圖角度來看如何區分三者的區別呢?下面這三個圖非常清晰地展示了之間的區別和聯系。
上圖很好詮釋了HMM模型中存在兩個假設:
?????? 一是輸出觀察值之間嚴格獨立,二是狀態的轉移過程中當前狀態只與前一狀態有關(一階馬爾可夫模型)。
上圖說明MEMM模型克服了觀察值之間嚴格獨立產生的問題,但是由于狀態之間的假設理論,使得該模型存在標注偏置問題。
上圖顯示CRF模型解決了標注偏置問題,去除了HMM中兩個不合理的假設。當然,模型相應得也變復雜了。
最后,如果要想仔細研究下這三個算法發展歷程的話,請接著閱讀以下部分。
??????? HMM模型將標注任務抽象成馬爾可夫鏈,一階馬爾可夫鏈式針對相鄰標注的關系進行建模,其中每個標記對應一個概率函數。
??????? HMM是一種產生式模型,定義了聯合概率分布p(x,y) ,其中x和y分別表示觀察序列和相對應的標注序列的隨機變量。為了能夠定義這種聯合概率分布,產生式模型需要枚舉出所有可能的觀察序列,這在實際運算過程中很困難,所以我們可以將觀察序列的元素看做是彼此孤立的個體, 即假設每個元素彼此獨立(和naive bayes類似),任何時刻的觀察結果只依賴于該時刻的狀態。
??????? HMM模型的這個假設前提在比較小的數據集(也不全是吧)上是合適的,但實際上在大量真實語料中觀察序列更多的是以一種多重的交互特征形式表現的,觀察元素之間廣泛存在長程相關性。例如,在命名實體識別任務中,由于實體本身結構所具有的復雜性,利用簡單的特征函數往往無法涵蓋所有特性,這時HMM的假設前提使得它無法使用復雜特征(它無法使用多于 一個標記的特征。),這時HMM的弊端就顯現無疑了。突破這一瓶頸的方法就是引入最大熵模型。下面,我們簡單介紹下這個模型,大家會發現ME和HMM具有天然的雜交優勢,不結合天理不容哈,呵呵(不合體天理不容 %!)。
??????? 我們知道最大熵模型可以使用任意的復雜相關特征,在性能上也超過了Bayes分類器。最大熵模型的優點:首先,最大熵統計模型獲得的是所有滿足約束條件的模型中信息熵極大的模型; 其次,最大熵統計模型可以靈活地設置約束條件,通過約束條件的多少可以調節模型對未知數據的適應度和對已知數據的擬合程度; 再次,它還能自然地解決了統計模型中參數平滑的問題。最大熵模型的不足:首先,最大熵統計模型中二值化特征只是記錄特征的出現是否,而文本分類需要知道特征的強度,因此,它在分類方法中不是最優的; 其次,由于算法收斂的速度較慢,所以導致最大熵統計模型它的計算代價較大,時空開銷大; 再次,數據稀疏問題比較嚴重。最致命的是,作為一種分類器模型,最大熵對每個詞都是單獨進行分類的,標記之間的關系無法得到充分利用。然而,具有馬爾可夫鏈的HMM模型可以建立標記之間的馬爾可夫關聯性,這是最大熵模型所沒有的。
??????? 好了,現在是時候隆重介紹雜交后的最大熵馬爾科夫模型(MEMM)。
??????? 簡單來說,MEMM把HMM模型和maximum-entropy模型的優點集合成一個? 統一的產生式模型 ,這個模型允許狀態轉移概率依賴于序列中彼此之間非獨立的特征上,從而將上下文信息引入到模型的學習和識別過程中,達到了提高識別的準召率的效果。有實驗證明,MEMM在序列標注任務上表現的比 HMM和無狀態的最大熵模型要好得多。然而,如上面所述,MEMM并不完美,它存在明顯的標記偏置問題。于是CMU的教授John Lafferty提出了更先進的CRF模型。
??????? CRF模型具有以下特點:(1)CRF在給定了觀察序列的情況下,對整個的序列的聯合概率有一個統一的指數模型,它具備一個比較吸引人的特性就是其損失函數的凸面性;(2)CRF具有很強的推理能力,并且能夠使用復雜、有重疊性和非獨立的特征進行訓練和推理,能夠充分地利用上下文信息作為 特征,還可以任意地添加其他外部特征,使得模型能夠獲取的信息非常豐富;(3)CRF解決了MEMM中的標記偏置問題,這也正是CRF與MEMM的本質區別所在—-最大熵模型在每個狀態都有一個概率模型,在每個狀態轉移時都要進行歸一化。如果某個狀態只有一個后續 狀態,那么該狀態到后續狀態的跳轉概率即為1。這樣,不管輸入為任何內容,它都向該后續狀態跳轉。而CRFs是在所有的狀態上建立一個統一的概率模型,這 樣在進行歸一化時,即使某個狀態只有一個后續狀態,它到該后續狀態的跳轉概率也不會為1。
??????? 最后,我們簡單匯總下實際應用中大放異彩的CRF的優缺點來結束本文。
CRF模型的優點:首先,CRF模型在結合多種特征方面的存在優勢;其次,它避免了標記偏置問題;再次,CRF的性能更好,對特征的融合能力更強。
CRF 模型的不足:首先,特征的選擇和優化是影響結果的關鍵因素,特征選擇問題的好與壞,直接決定了系統性能的高低;其次,訓練模型的時間比ME更長,且獲得的模型很大,在一般的PC機上可能無法運行。
參考資料:
?????? 【1】http://ssli.ee.washington.edu/people/duh/projects/CRFintro.pdf
???????【2】http://blog.csdn.net/zhoubl668/article/details/7787690
???????【3】http://blog.csdn.net/caohao2008/article/details/4242308
???????【4】http://www.cnblogs.com/549294286/archive/2013/06/06/3121761.html
???????【5】www.cs.cmu.edu/~epxing/Class/10801-07/lectures/note7.pdf?
總結
以上是生活随笔為你收集整理的ANN:ML方法与概率图模型的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 龙之谷红莲迷宫怎么进
- 下一篇: 图像基本群运算--滤波