【NLP】一文了解词性标注CRF模型
文章目錄
- 學(xué)習(xí)目標(biāo)
- CRF的概念和作用
- 關(guān)于條件隨機(jī)場與馬爾科夫假設(shè)
- 轉(zhuǎn)移概率矩陣:
- 發(fā)射概率矩陣
學(xué)習(xí)目標(biāo)
- 了解CRF的概念和作用
- 了解轉(zhuǎn)移概率矩陣
- 了解發(fā)射概率矩陣
CRF的概念和作用
場景一: 假設(shè)有一堆日常生活的給小朋友排拍的視頻片段, 可能的狀態(tài)有睡覺、吃飯、喝水、洗澡、刷牙、玩耍等, 大部分情況, 我們是能夠識(shí)別出視頻片段的狀態(tài). 但如果你只是看到一小段拿杯子的視頻, 在沒有前后相連的視頻作為前后文參照的情況下, 我們很難知道拿杯子是要刷牙還是喝水. 這時(shí), 可以用到CRF模型.
場景二: 假設(shè)有分好詞的句子, 我們要判斷每個(gè)詞的詞性, 那么對(duì)于一些詞來說, 如果我們不知道相鄰詞的詞性的情況下, 是很難準(zhǔn)確判斷每個(gè)詞的詞性的. 這時(shí), 我們也可以用到CRF.
CRF(全稱Conditional Random Fields), 條件隨機(jī)場. 是給定輸入序列的條件下, 求解輸出序列的條件概率分布模型.
下面舉兩個(gè)應(yīng)用場景的例子:
基本定義: 我們將隨機(jī)變量的集合稱為隨機(jī)過程. 由一個(gè)空間變量索引的隨機(jī)過程, 我們將其稱為隨機(jī)場. 上面的例子中, 做詞性標(biāo)注時(shí), 可以將{名詞、動(dòng)詞、形容詞、副詞}這些詞性定義為隨機(jī)變量, 然后從中選擇相應(yīng)的詞性, 而這組隨機(jī)變量在某種程度上遵循某種概率分布, 將這些詞性按照對(duì)應(yīng)的概率賦值給相應(yīng)的詞, 就完成了句子的詞性標(biāo)注.
關(guān)于條件隨機(jī)場與馬爾科夫假設(shè)
馬爾科夫假設(shè), 也就是當(dāng)前位置的取值只和與它相鄰的位置的值有關(guān), 和它不相鄰的位置的值無關(guān).
應(yīng)用到我們上面的詞性標(biāo)注例子中, 可以理解為當(dāng)前詞的詞性是根據(jù)前一個(gè)詞和后一個(gè)詞的詞性來決定的, 等效于從詞性前后文的概率來給出當(dāng)前詞的詞性判斷結(jié)果.
現(xiàn)實(shí)中可以做如下假設(shè): 假設(shè)一個(gè)動(dòng)詞或者副詞后面不會(huì)連接同樣的動(dòng)詞或者副詞, 這樣的概率很高. 那么, 可以假定這種給定隱藏狀態(tài)(也就是詞性序列)的情況下, 來計(jì)算觀測狀態(tài)的計(jì)算過程. 本質(zhì)上CRF模型考慮到了觀測狀態(tài)這個(gè)先驗(yàn)條件, 這也是條件隨機(jī)場中的條件一詞的含義.
轉(zhuǎn)移概率矩陣:
首先假設(shè)我們需要標(biāo)注的實(shí)體類型有一下幾類:
{"O": 0, "B-dis": 1, "I-dis": 2, "B-sym": 3, "I-sym": 4}# 其中dis表示疾病(disease), sym表示癥狀(symptom), B表示命名實(shí)體開頭, I表示命名實(shí)體中間到結(jié)尾, O表示其他類型.因此我們很容易知道每個(gè)字的可能標(biāo)注類型有以上五種可能性, 那么在一個(gè)句子中, 由上一個(gè)字到下一個(gè)字的概率乘積就有5 × 5種可能性, 具體見下圖所示:
最終訓(xùn)練出來結(jié)果大致會(huì)如上圖所示, 其中下標(biāo)索引為(i, j)的方格代表如果當(dāng)前字符是第i行表示的標(biāo)簽, 那么下一個(gè)字符表示第j列表示的標(biāo)簽所對(duì)應(yīng)的概率值. 以第二行為例, 假設(shè)當(dāng)前第i個(gè)字的標(biāo)簽為B-dis, 那么第i+1個(gè)字最大可能出現(xiàn)的概率應(yīng)該是I-dis.
發(fā)射概率矩陣
發(fā)射概率, 是指已知當(dāng)前標(biāo)簽的情況下, 對(duì)應(yīng)所出現(xiàn)字符的概率. 通俗理解就是當(dāng)前標(biāo)簽比較可能出現(xiàn)的文字有哪些, 及其對(duì)應(yīng)出現(xiàn)的概率.
下面是幾段醫(yī)療文本數(shù)據(jù)的標(biāo)注結(jié)果:
可以得到以上句子的轉(zhuǎn)移矩陣概率如下:
對(duì)應(yīng)的發(fā)射矩陣可以理解為如下圖所示結(jié)果:
總結(jié)
以上是生活随笔為你收集整理的【NLP】一文了解词性标注CRF模型的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: html5拼音显示,HTML5:给汉字加
- 下一篇: html加拼音注释,满江红岳飞全文带拼音