CRF的优势
我們將介紹條件隨機場,一個構建分詞和序列標注的概率模型。條件隨機場與隱馬爾科夫模型和隨機文法相比,在獨立假設方面有自己的優(yōu)勢。條件隨機場與最大熵馬爾科夫模型(MEMM)和其它馬爾科夫判別式模型相比避免了一些有向圖方面的基本限制,就是偏向于那些比較少的后續(xù)狀態(tài)的狀態(tài)點。我們提出用迭代的辦法進行參數估計,并且在合成語言和自然語言處理性能方面與HMM和MEMM做了比較。
?
1.?介紹
分段和序列標注問題在許多的科學場景中都有應用。隱馬爾科夫模型(HMM)最大熵馬爾科夫模型(MEMM)和隨機文法是很好理解并且在這些領域里面廣泛應用的一些模型。在計算生物學中,HMM和隨機文法模型成功的匹配邏輯序列,找到進化過程中的同一家族的生物,還有分析RNA的二級結構。在計算語言和計算機科學中,HMM和隨機文法模型被廣泛應用于文本和語音處理,包括主題分段,詞性標注(POS),信息抽取和語法消岐。
HMM和隨機文法都是生成模型,分配聯(lián)合概率給成對觀察和標注序列。參數的訓練用來最大化訓練樣本的最大似然。為了定義觀察序列和標注序列的聯(lián)合概率分布,生成模型需要枚舉出所有可能的觀察序列,并需要對最基本的單位比如單詞或者核苷酸進行表示。更特別的是,這兩個模型在特征組合和觀察值的大范圍依賴等問題表現得沒有吸引力。
這些問題導致了條件模型作為替代出現。條件模型在給定觀察序列的條件下指定標注序列的概率。但是在觀察的基礎上模型并不做擴展,并且在測試時間內是確定的。更重要的是標注序列的條件概率能夠依賴觀察值任意的特征之間的依賴關系,而不需要使模型對這些依賴做出任何反應。對于同一觀察值被選擇的特征可能在不同粒度的水平上(比如,英文的單詞或者字母),或者觀察序列的聚合屬性(比如文本層次)。標注序列之間的概率轉換不僅依賴目前的觀察值,而且依賴過去和將來的觀察值。比較而言,生成模型建立在觀察值之間嚴格的獨立假設基礎上,比如對于給定標注的條件獨立,來達到容易處理的目的。
最大熵馬爾科夫模型(MEMM)是條件概率序列模型,解決了上述所有的缺點。在MEMMs中,每一個源狀態(tài),都有一個指數模型作為觀察特征的輸入,并且輸出后續(xù)可能狀態(tài)的概率分布。這些指數模型通過合適的迭代方法在最大熵框架下進行訓練。目前出版的實驗結果顯示,MEMMs與HMM和FAQ相比在召回率有很大提高,在準確率上大概提高兩倍。
MEMMs和其它基于后續(xù)狀態(tài)分類的非生成有限狀態(tài)模型,比如判別式馬爾科夫模型,都有一個缺點,我們這里叫他“標注偏執(zhí)問題”:對于從同一給定狀態(tài)出來的轉換概率僅僅與自己相互進行比較,而不是模型中所有的概率轉化進行比較。在概率關系中,轉化的值是在給定目前狀態(tài)和觀察序列下,是轉化到后續(xù)狀態(tài)的條件概率。每個狀態(tài)的標準化轉化值,都指的是“概率塊的保持”,所以所有的落在某個狀態(tài)上的都必須分配到后續(xù)可能的狀態(tài)上。一個觀察值能夠影響哪個目標狀態(tài)能夠獲得概率數據,但是決定不了分配多少。這就導致概率偏向于那些后續(xù)狀態(tài)上的那些轉換。在極端情況下,只擁有一個輸出轉換的狀態(tài),有效的忽略了觀察。在這種情況下,不像HMMs模型,Viterbi算法在基于觀察節(jié)點分支節(jié)點后不能降低權重,并且比較稀少的狀態(tài)鏈接鏈的狀態(tài)轉換模型不適合處理(Viterbi?decoding?cannot?downgrade?a?branch?based?on?observations?after?the?branch?point,?and?models?with?statetransition?structures?that?have?sparsely?connected?chains?of?states?are?not?properly?handled).?MEMMs中隱馬爾科夫模型假設,和類似的狀態(tài)條件模型的當前狀態(tài)與將來的狀態(tài)沒有關系,所以并沒有實現真正的連續(xù)狀態(tài)依賴。
本文將介紹條件隨機場conditional?random?fields(CRFs).一個擁有MEMMs所有優(yōu)勢的序列模型框架,并且解決了標注偏執(zhí)問題。CRFs和MEMMs的最關鍵不同點是:給定當前狀態(tài)的下一個狀態(tài)的條件概率,MEMMs使用一個指數模型,而CRF對于給定的所有觀察序列的標注序列的聯(lián)合概率,只有一個指數模型。因此,不同特征的權重的區(qū)別被抵消。
我們也可以認為CRF是一個未歸一化的有限狀態(tài)模型。當然,不像其它的加權有限狀態(tài)過程,CRFs分配一個通過最大似然估計或者MAP得到的概率分布給可能的序列。此外,損失函數是凸函數,所以能夠保證收斂到全局最優(yōu)。CRFs也很容易生成類似的隨機上下文無關文法,這個有點被應用到RNA的二級結構預測和自然語言處理問題。
我們通過描述兩個訓練過程和收斂的證明來表達模型。同時我們將使用解決了經典的標注偏執(zhí)問題的CRFs給出合成數據的實驗結果,并且更有意義的是CRFs與HMMs和MEMMs相比,當觀察數據的分布具有長距離依賴的情況下有著更好的表現,在實踐中更是如此。最后,我們通過與HMMs和MEMMs還有使用單一狀態(tài)結構進行詞性標注的CRF進行比較結果將確定CRFs模型的優(yōu)點。
CRF
優(yōu)點:
(1)CRF沒有HMM那樣嚴格的獨立性假設條件,因而可以容納任意的上下文信息。特征設計靈活(與ME一樣)(與HMM比較)
(2)由于CRF計算全局最優(yōu)輸出節(jié)點的條件概率,它還客服了最大熵馬爾科夫模型標記偏執(zhí)缺點。(與MEMM)
(3)CRF是在個頂需要標記的觀察序列的條件下,計算整個標記序列的聯(lián)合概率分布,而不是在給定的當前狀態(tài)條件下,定義下一個狀態(tài)的狀態(tài)分布。(ME比較)
缺點: 訓練代價大,復雜度高
總結