當前位置：首頁 > 人文社科 > 生活经验 >内容正文

生活经验

条件随机场(CRF) - 1 - 简介

發布時間：2023/11/28 生活经验 39 豆豆

生活随笔收集整理的這篇文章主要介紹了条件随机场(CRF) - 1 - 简介小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

聲明：

???????? 1，本篇為個人對《2012.李航.統計學習方法.pdf》的學習總結，不得用作商用，歡迎轉載，但請注明出處（即：本帖地址）。

???????? 2，由于本人在學習初始時有很多數學知識都已忘記，所以為了弄懂其中的內容查閱了很多資料，所以里面應該會有引用其他帖子的小部分內容，如果原作者看到可以私信我，我會將您的帖子的地址付到下面。

???????? 3，如果有內容錯誤或不準確歡迎大家指正。

???????? 4，如果能幫到你，那真是太好了。

???????? 首先我們先弄懂什么是“條件隨機場”，然后再探索其詳細內容。

???????? 于是，先介紹幾個名詞。

馬爾可夫鏈

???????? 比如：一個人想從A出發到達目的地F，然后中間必須依次路過B,C, D, E，于是就有這樣一個狀態：

?????????????????? 若想到達B，則必須經過A；

?????????????????? 若想到達C，則必須經過A, B；

?????????????????? 以此類推，最終

?????????????????? 若想到達F，則必須經過A,B,C,D,E。

???????? 如果把上面的狀態寫成一個序列的話，那就是：{到達A, 到達B, 到達c, ..., 到達F}，而且很明顯，狀態序列的每個狀態值取決于前面的狀態是否已經滿足。

???????? 于是，像這樣，“狀態序列的每個狀態值取決于前面有限個狀態”的狀態序列就是馬爾可夫鏈。

TIP：
這個名字中的“鏈”字用的還是很形象的，因為你可以這樣理解，一條“串聯在一起的燈泡”是個鏈子吧，那若想點亮最后一個燈泡(距離插頭最遠的燈泡)，你必須讓電流從插頭起依次經過所有的燈泡。
于是，如果把上面那個狀態序列{到達A, 到達B, 到達c, ..., 到達F}中的每個狀態當做燈泡的話，那這個序列就是一條“把燈泡串聯在一起的鏈子”，如下圖：

但注意：馬爾可夫鏈的定義是“狀態序列的每個狀態值取決于前面有限個狀態”，注意是“有限個狀態”，不是“全部狀態”。因此，對于馬爾可夫鏈，其包含“想到達目的地F，則只需要到達目的地E就可以了，而前面的目的地A, B, C, D則到不到達都無所謂”這樣的情況。
再注意：這里是為了便于理解而舉了個“串聯”的例子，真實的馬爾可夫鏈是包含“并行”的情況，因為其定義是“狀態序列的每個狀態值取決于前面有限個狀態”，這就包括“一個人想到達目的地C，那就得先從A處開車并在B處買早餐”這樣的情況，這樣一來，先到A還是先到B就無所謂了(無論是先去麥當勞買早餐再去開車，還是先開車然后在去麥當勞買早餐都行)，只要A和B同時滿足就好，如下圖：

總之，馬爾科夫鏈中的各個元素既可以是一對一，也可以是一對多，當然也可以是多對一或多對多，參照下圖：

隱馬爾可夫模型(HMM)

???????? 這里僅簡單說明下HMM，詳細內容見我總結的“隱馬爾可夫模型(HMM) -1 ~ 4”。

???????? 還用上面一個人從A到F的例子。

???????? 但這里需要把條件和內容改一改：

?????????????????? 條件更改：

??????????????????????????? 此人想今天逛完A, B,C, D, E, F這幾處，但是他想先逛哪個后逛哪個我們不知道。

?????????????????? 內容添加：

??????????????????????????? 此人每到達一處，他就會買一個禮物帶給你，可這家伙逛的太興奮了，于是乎帶給你的禮物有重復的，因此，最后你會有這樣的觀測結果：{禮物1，禮物2，禮物1，禮物3，禮物2，禮物2} (于是還是不知道他想先逛哪個后逛哪個)。

???????? 結果，我們不知道狀態序列(我們不知道他逛的順序)，但是知道觀測序列，且每個觀測一定是一個狀態生成的(禮物一定是他到地方才能買)。

???????? 因此這個例子就是在描述：一個不知道狀態序列(即馬爾科夫鏈)，卻知道根據各個狀態生成的一個觀測隨機序列的過程，而這個過程就是隱馬爾可夫模型。

???????? 用數學定義說明的話就是：

?????????????????? 隱馬爾可夫模型描述由一個隱藏的馬爾可夫鏈隨機生成的不可觀測的狀態序列，再由各個狀態生成一個觀測而產生觀測隨機序列的過程。

???????? OK，HMM的定義說完了，然后我們看看HMM的局限性。

?HMM的局限性

???????? 1，該模型定義的是聯合概率，必須列舉所有觀察序列的可能值，而這對多數領域來說是比較困難的。

???????? 2，基于觀察序列中的每個元素都相互條件獨立。即：在任何時刻觀察值僅僅與狀態序列中的一個狀態有關。而大多數現實世界中的真是觀察序列是有多個相互作用的特征和觀察序列中較長范圍內的元素之間的依賴而形成的。

???????? PS：條件隨機場就解決了第二個局限性。

產生式模型和判別式模型

???????? 如果你已經了解HMM的話就會知道：HMM中需要計算的概率是“觀測序列(輸入)和狀態序列(輸出)的聯合概率”，即P(狀態序列, 觀測序列)，即狀態序列和觀測序列同時發生的概率。????

???????? 于是乎對于輸入x(或者說觀察序列)和輸出y(或者說標記序列)：

?????????????????? 構建它們的聯合概率分布P(y,x)的模型就是產生式模型，該模型可以根據聯合概率生成樣本，如：HMM, BNs, MRF。

??????????????????????????? PS：HMM是隱馬爾可夫模型。

???????? ???????? 構建它們的條件概率分布P(y | x)的模型就是判別式模型，因為沒有y的知識，所以無法生成樣本，只能判斷分類，如：CRF, SVM, MEMM。

??????????????????????????? PS：CRF就是這里要講的條件隨機場。

???????? 產生式模型：無窮樣本-->? 概率密度模型=產生模型-->? 預測

???????? 判別式模型：有限樣本-->? 判別函數=預測模型-->? 預測

?例子

???????? 對四個元素：(1, 0),(1, 0), (2, 0), (2, 1)

???????? 產生式模型：求 P(x, y)

?????????????????? 因為上面四個元素中(1,0)有兩個，所以 P(1, 0) = 2/4 = 1/2

?????????????????? 同理：p(1, 1) =0, p(2, 0) = 1/4, p(2, 1) = 1/4.

???????? 判別式模型：求P(y|x)

?????????????????? 因為對上面四個元素，若x=1，那一定有y=0，所以 P(0|1) =1

?????????????????? 同理：p(1|1) =0, p(0|2) = 1/2, p(1|2) = 1/2.

?比較

???????? 產生式模型：從統計的角度表示數據的分布情況，能夠反映同類數據本身的相似度，不關心判別邊界。

?????????????????? 優點：

??????????????????????????? 實際上帶的信息比判別模型豐富，研究單類問題比判別模型靈活性強

??????????????????????????? 能更充分的利用先驗知識

??????????????????????????? 模型可以通過增量學習得到

?????????????????? 缺點：

??????????????????????????? 學習過程比較復雜

??????????????????????????? 在目標分類問題中易產生較大的錯誤率

???????? 判別式模型：尋找不同類別之間的最優分類面，反映的是異類數據之間的差異。

?????????????????? 優點：

??????????????????????????? 分類邊界更靈活，比使用純概率方法或生產模型得到的更高級。

??????????????????????????? 能清晰的分辨出多類或某一類與其他類之間的差異特征

??????????????????????????? 在聚類、viewpointchanges、parital occlusion and scale variations 中的效果較好

??????????????????????????? 適用于較多類別的識別

?????????????????? 缺點：

??????????????????????????? 不能反映訓練數據本身的特征

??????????????????????????? 能力有限，可以告訴你是1還是2，但沒有辦法把整個場景描述出來

???????? 二者關系：

?????????????????? 由產生式模型可以得到判別模型，反之不能。

條件隨機場(CRF)

???????? 好了，終于到CRF了，那什么是CRF呢？

???????? 這里再舉個例子：

?????????????????? 假設你基(姬)友給了你ta一天生活的照片(這些照片是排好序的)，然后讓你給這些照片打上標簽(Tag)，比如：這張在吃飯，這張在睡覺，這張在唱歌，那么你該怎么做呢？

?????????????????? 如果用HMM的思想，那就是：

??????????????????????????? 我手上已經有了觀測集合(一天的照片)，然后讓我求該觀測集合對應的狀態集合(打Tag)。OK，我開始打Tag了，嗯....這張照片黑乎乎的，那可能在睡覺；這張照片七彩斑斕的，是在KVM吧，那是在唱歌；這張....這張張著大嘴的特寫是什么鬼？在吃飯？在唱歌？嗯....看不懂。問問ta好了，(轉頭)，誒？ta人呢？我特！！算了，胡亂給一個！在狼嚎(唱歌)！嗯，就這么愉快的決定了。

?????????????????? 于是乎像上面這個例子描述的這樣，雖然HMM最終會給出一個結論，但因為HMM的“基于觀察序列中的每個元素都相互條件獨立”的缺陷，導致其在給某個觀測“配對”狀態時會毫無根據。

?????????????????? 不過我們是人，我們才不會傻乎乎的胡亂猜，那在這樣的情況下我們怎么做？答案大家都知道：我們會看看前一張圖片是什么，如果前一張圖片是在KVM，那這張就很有可能在唱歌；如果前一張是在廚房，那這一張就很有可能在張嘴吃飯。

???????? 根據這個例子，我們可以看出，在給某個輸出(觀測/特征)找其輸入(產生“觀測/特征”的狀態)時，不能不考慮上下文(緊挨著該特征的特征)，否則準確性會大大降低。

???????? 而這種“HMM強化版的思想”就是CRF了。

???????? 好了，下面讓我們對比著HMM一步步的理清CRF。

?CRF與HMM

???????? 首先，我們先把上面的例子簡單切換一下：“照片”切換成“單詞”，“照片的Tag”切換成“詞性標簽”(如：名詞、動詞、形容詞等)，“給照片打Tag”切換成“詞性標注”(即：這個詞是名詞？動詞？還是什么)

???????? 而上面在介紹“產生式模型和判別式模型”時說明了CRF屬于判別式模型，而這里再詳細些，即CRF的本質是：“隱含變量(這里磁性標簽是隱含變量)的馬爾科夫鏈” + “可觀測狀態到隱含變量”的條件概率。

???????? 好了，下面開始。

???????? ???????? PS：后面的“詞性標簽”和“詞語”分別對應“隱含變量，即輸入”和“觀測狀態，即輸出”。

????????

???????? 先說馬爾科夫鏈部分：

???????? ???????? 假設CRF和HMM的詞性標簽都滿足馬爾科夫性，即，當前詞性僅和上一個詞有概率轉移關系而與其他位置的詞性無關，比如：形容詞后面跟形容詞的概率是0.5，跟修飾性“的”的概率為0.5，跟動詞的概率為0。

???????? ???????? 因此，通過在一個標注集上進行統計，就很容易得到一個概率轉移矩陣，即任意詞性A后緊鄰任意詞性B的概率都可以被統計出來。

???????? ???????? 對HMM來說，這部分就結束了。

?????????????????? 但對CRF來說，它在二維的條件轉移矩陣的基礎上又增加了一維詞語特征，如：當AB緊鄰，A是動詞且單詞的長度超過3時，B是名詞的概率是xx。

?????????????????? 在這個小例子中在判斷B時僅考慮一個詞A，即統計P(B|A)，這當然能夠得到很多數據的反饋，而如果在判斷B時需要考慮多個詞呢？如P(B|ASDFGH)，那這就可能會遇到數據稀疏的問題，因為序列ASDFGH根本就沒有在數據集中出現過。注意數據稀疏對機器學習的影響是巨大的，因此馬爾科夫鏈在CRF這邊會以損失一定的全局信息來換取更飽滿的數據，實驗證明這筆交易在詞性標注時是賺的。

???????? 再說詞性(隱含變量，即輸入)和詞語(觀測狀態，即輸出)的映射概率：

?????????????????? 如果是HMM，那就是統計所有的詞性組合，然后計算這所有的詞性組合生成該單詞組合的概率，然后選一個概率最大的詞性組合。

?????????????????? 而CRF正好反過來，CRF通過對挖掘詞語本身的特征，把詞語轉換為一個k維特征向量，然后對于每個特征計算特征到詞性的條件概率，這樣每個詞語對候選詞性的條件概率即為所有特征條件概率的加和。比如我們假設特征向量只有兩個，且P (?”詞語長度>3"?-->?名詞詞性）的概率為0.9， P("詞語位于句子末尾“--> 名詞詞性）概率為0.4，且一個詞恰好滿足這兩個特征，則其為名詞的條件概率為 (0.9 + 0.4) / 2 = 0.65。這樣，CRF根據這個條件轉移數值再結合詞性的馬爾科夫特性，就可以使用與HMM類似的方法尋找最優的詞性標注序列了。

???????? 到此CRF是個什么東西大家應該都了解了吧，下面讓我們看看其內部細節(請轉到下一節)。

參考文獻：

???????? http://baike.baidu.com/link?url=MFzkgH1giyI1MVlkYHPivN_hY1nf6HsGtGqr-OaJEuYB_reXJCQGJYqUn20CnhjRj313nTWpqsl6Ie_Z5MDa3q

???????? http://wenku.baidu.com/link?url=7LBbXiKPWAPnqYexmBOhz4iCUSny6Ayg3M53Ls0IiVKdqLq-9YPNAiW3WKJ5UgihjWKmm4yTpahIIeu75BB_mM_Q1QicaLIGrOiwHUO8ktu

???????? http://blog.sina.com.cn/s/blog_6d15445f0100n1vm.html

???????? http://blog.sina.com.cn/s/blog_605f5b4f010109z3.html

???????? http://lhdgriver.gotoip1.com/%E6%9D%A1%E4%BB%B6%E9%9A%8F%E6%9C%BA%E5%9C%BA%E7%AE%80%E4%BB%8Bintroduction-to-conditional-random-fields/

???????? http://blog.csdn.net/heavendai/article/details/7228621

???????? http://wenku.baidu.com/link?url=kBOg_LBYQDm8ftgIT5xm8rmFC1NN247Ubhp7t_lNgjBJBIFWgQzoffNzMBkQ5LpeLTdJO0Fi0Mf8VRImiN7jtSQwUYhYyJkWgaV3Kj-f9fy
---------------------
作者：血影雪夢
來源：CSDN
原文：https://blog.csdn.net/xueyingxue001/article/details/51498902
版權聲明：本文為博主原創文章，轉載請附上博文鏈接！

總結

以上是生活随笔為你收集整理的条件随机场(CRF) - 1 - 简介的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：条件随机场(CRF) - 2 - 定义和
下一篇：【Learning Notes】线性链条