全连接条件随机场_CRF条件随机场
概念
??條件隨機場(Conditional Random Fields, 以下簡稱CRF)是給定一組輸入序列條件下另一組輸出序列的條件概率分布模型,在自然語言處理中得到了廣泛應用。
引入
??假設我們有Bob一天從早到晚的一系列照片,Bob想考考我們,要我們猜這一系列的每張照片對應的活動,比如: 工作的照片,吃飯的照片,唱歌的照片等等。一個比較直觀的辦法就是,我們找到Bob之前的日常生活的一系列照片,然后找Bob問清楚這些照片代表的活動標記,這樣我們就可以用監督學習的方法來訓練一個分類模型,比如邏輯回歸,接著用模型去預測這一天的每張照片最可能的活動標記。
??這種辦法雖然是可行的,但是卻忽略了一個重要的問題,就是這些照片之間的順序其實是有很大的時間順序關系的,而用上面的方法則會忽略這種關系。比如我們現在看到了一張Bob閉著嘴的照片,那么這張照片我們怎么標記Bob的活動呢?比較難去打標記。但是如果我們有Bob在這一張照片前一點點時間的照片的話,那么這張照片就好標記了。如果在時間序列上前一張的照片里Bob在吃飯,那么這張閉嘴的照片很有可能是在吃飯咀嚼。而如果在時間序列上前一張的照片里Bob在唱歌,那么這張閉嘴的照片很有可能是在唱歌。
??為了讓我們的分類器表現的更好,可以在標記數據的時候,可以考慮相鄰數據的標記信息。這一點,是普通的分類器難以做到的。而這一塊,也是CRF比較擅長的地方。
HMM-隱馬爾科夫模型
??給定一個觀測序列observations, HMM models joint probability . 以詞性標注任務舉例。 ??稍不同于linear CRF,HMM可以用有向圖模型來表示,因為states與observations之間存在著明顯的依賴關系。下圖為有向圖!! 在HMM的模型下,有兩個假設:
公式:
公式表示的是在特定的句子下,序列集合中找到概率最大的詞性序列! W and T 指輸入單詞序列,和輸出詞性序列。 公式首先應用了貝葉斯公式展開,隨后 HMM 做了3個假設進行公式化簡:由詞之間 conditionally independent 得到∏i=1nPr(Wi∣T)prod_{i=1}^{n}Pr(Wi|T)i=1∏n?Pr(Wi∣T) 由probability of a word is only dependent on its own tag 得到發射概率 emission probability ∏i=1nPr(Wi∣ti)prod_{i=1}^{n}Pr(Wi|ti)i=1∏n?Pr(Wi∣ti) and Markov assumption: 使用bi-gram近似得到轉移概率 Transition probabilityPr(ti∣ti?1)Pr(ti|ti-1)Pr(ti∣ti?1)
??這些假設使得HMM能夠計算出給定一個詞和它可能的詞性的聯合概率分布。換句話說,HMM假設了兩類特征,一是當前詞詞性與上一個詞詞性的關系,以及當前詞語和當前詞性的關系,所以存在局部歸一化問題,分別對應著轉移概率和發射概率。HMM的學習過程就是在訓練集中學習這兩個概率矩陣(大小為 (tt),(tw))。
稍不同于linear CRF,HMM可以用有向圖模型來表示,因為states與observations之間存在著明顯的依賴關系。
CRF條件隨機場
??和HMM不同的是,CRF并沒有做出上述的假設,CRF使用feature function來更抽象地表達特征,使得他不再局限于HMM的兩類特征。由節點v和連接節點的邊e組成的集合。記作G=(V,E)。CRF是無向圖,無向圖指邊沒有方向的圖。
??條件隨機域(場)(conditionalrandom fields,簡稱 CRF,或CRFs),是一種判別式概率模型,是隨機場的一種。條件隨機場(CRF)由Lafferty等人于2001年提出,結合了最大熵模型和隱馬爾可夫模型的特點,是一種無向圖模型,近年來在分詞、詞性標注和命名實體識別等序列標注任務中取得了很好的效果。常用于標注或分析序列資料,如自然語言文字或是生物序列。如同馬爾可夫隨機場,條件隨機場為具有無向的圖模型,無向圖中的頂點代表隨機變量,頂點間的連線代表隨機變量間的相依關系,在條件隨機場中,隨機變量 Y 的分布為條件概率,給定的觀察值則為隨機變量 X。原則上,條件隨機場的圖模型布局是可以任意給定的,一般常用的布局是鏈結式的架構,鏈結式架構不論在訓練(training)、推論(inference)、或是解碼(decoding)上,都存在效率較高的算法可供演算。
??CRF被用于中文分詞和詞性標注等詞法分析工作,一般序列分類模型常常采用隱馬爾可夫模型(HMM),像基于類的中文分詞。但隱馬爾可夫模型中存在兩個假設:輸出獨立性假設和馬爾可夫性假設。其中,輸出獨立性假設要求序列數據嚴格相互獨立才能保證推導的正確性,而事實上大多數序列數據不能被表示成一系列獨立事件。而條件隨機場則使用一種概率圖模型,具有表達長距離依賴性和交疊性特征的能力,能夠較好地解決標注(分類)偏置等問題的優點,而且所有特征可以進行全局歸一化,能夠求得全局的最優解。
CRF缺點: ??模型復雜,算法時間長。
從例子說起——詞性標注問題
??在實際應用中,自然語言處理中的詞性標注(POS Tagging)就是非常適合CRF使用的地方。詞性標注的目標是給出一個句子中每個詞的詞性(名詞,動詞,形容詞等)。而這些詞的詞性往往和上下文的詞的詞性有關,因此,使用CRF來處理是很適合的,當然CRF不是唯一的選擇,也有很多其他的詞性標注方法。
啥是詞性標注問題? ??非常簡單的,就是給一個句子中的每個單詞注明詞性。比如這句話:“Bob drank coffee at Starbucks”,注明每個單詞的詞性后是這樣的:“Bob (名詞) drank(動詞) coffee(名詞) at(介詞) Starbucks(名詞)”。
下面,就用條件隨機場來解決這個問題。 ??以上面的話為例,有5個單詞,我們將:(名詞,動詞,名詞,介詞,名詞)作為一個標注序列,稱為l,可選的標注序列有很多種,比如l還可以是這樣:(名詞,動詞,動詞,介詞,名詞),我們要在這么多的可選標注序列中,挑選出一個最靠譜的作為我們對這句話的標注。
怎么判斷一個標注序列靠譜不靠譜呢? ??就我們上面展示的兩個標注序列來說,第二個顯然不如第一個靠譜,因為它把第二、第三個單詞都標注成了動詞,動詞后面接動詞,這在一個句子中通常是說不通的。 ??假如我們給每一個標注序列打分,打分越高代表這個標注序列越靠譜,我們至少可以說,凡是標注中出現了動詞后面還是動詞的標注序列,要給它負分!! ??上面所說的動詞后面還是動詞就是一個特征函數,我們可以定義一個特征函數集合,用這個特征函數集合來為一個標注序列打分,并據此選出最靠譜的標注序列。也就是說,每一個特征函數都可以用來為一個標注序列評分,把集合中所有特征函數對同一個標注序列的評分綜合起來,就是這個標注序列最終的評分值。
定義CRF中的特征函數
現在,我們正式地定義一下什么是CRF中的特征函數,所謂特征函數,就是這樣的函數,它接受四個參數:
句子s(就是我們要標注詞性的句子)i,用來表示句子s中第i個單詞l_i,表示要評分的標注序列給第i個單詞標注的詞性l_i-1,表示要評分的標注序列給第i-1個單詞標注的詞性它的輸出值是0或者1,0表示要評分的標注序列不符合這個特征,1表示要評分的標注序列符合這個特征。
Note:這里,我們的特征函數僅僅依靠當前單詞的標簽和它前面的單詞的標簽對標注序列進行評判,這樣建立的CRF也叫作線性鏈CRF,這是CRF中的一種簡單情況。
從特征函數到概率
定義好一組特征函數后,我們要給每個特征函數f_j賦予一個權重λ_j。現在,只要有一個句子s,有一個標注序列l,我們就可以利用前面定義的特征函數集來對l評分。
上式中有兩個求和,外面的求和用來求每一個特征函數f_j評分值的和,里面的求和用來求句子中每個位置的單詞的的特征值的和。
對這個分數進行指數化和標準化,我們就可以得到標注序列l的概率值p(l|s),如下所示:
幾個特征函數的例子
前面我們已經舉過特征函數的例子,下面我們再看幾個具體的例子,幫助增強大家的感性認識。
當l_i是“副詞”并且第i個單詞以“ly”結尾時,我們就讓f1 = 1,其他情況f1為0。不難想到,f1特征函數的權重λ1應當是正的。而且λ1越大,表示我們越傾向于采用那些把以“ly”結尾的單詞標注為“副詞”的標注序列
如果i=1,l_i=動詞,并且句子s是以“?”結尾時,f2=1,其他情況f2=0。同樣,λ2應當是正的,并且λ2越大,表示我們越傾向于采用那些把問句的第一個單詞標注為“動詞”的標注序列。
當l_i-1是介詞,l_i是名詞時,f3 = 1,其他情況f3=0。λ3也應當是正的,并且λ3越大,說明我們越認為介詞后面應當跟一個名詞。
如果l_i和l_i-1都是介詞,那么f4等于1,其他情況f4=0。這里,我們應當可以想到λ4是負的,并且λ4的絕對值越大,表示我們越不認可介詞后面還是介詞的標注序列。
好了,一個條件隨機場就這樣建立起來了,讓我們總結一下: 為了建一個條件隨機場,我們首先要定義一個特征函數集,每個特征函數都以整個句子s,當前位置i,位置i和i-1的標簽為輸入。然后為每一個特征函數賦予一個權重,然后針對每一個標注序列l,對所有的特征函數加權求和,必要的話,可以把求和的值轉化為一個概率值.
參考: https://x-algo.cn/index.php/2016/02/27/crf-of-chinese-word-segmentation/ https://www.cnblogs.com/xingnie/p/12360714.html https://zhuanlan.zhihu.com/p/70067113
總結
以上是生活随笔為你收集整理的全连接条件随机场_CRF条件随机场的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: mysql存储文件用什么类型_块存储、文
- 下一篇: 蝴蝶曲线python_ProE常用曲线方