當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

条件随机场-应用

發(fā)布時間：2025/3/15 编程问答 22 豆豆

生活随笔收集整理的這篇文章主要介紹了条件随机场-应用小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

　　今天介紹CRFs在中文分詞中的應(yīng)用

　　工具：CRF++,可以去?https://taku910.github.io/crfpp/ 下載，訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)可以考慮使用bakeoff2005,這是鏈接 http://sighan.cs.uchicago.edu/bakeoff2005/

　　首先需要了解一些概念

　　字標記法——統(tǒng)計分詞模型常用的方法，可以將分詞問題轉(zhuǎn)化為分類問題。這里我們介紹一下4-tag字標記法，4-tag指的是文檔中的每個字都對應(yīng)一個標記，一共有4類標記，分別是：B、M、E、S，分別代表一個字處于詞的開始位置、中間位置、結(jié)束位置，以及一個單子構(gòu)成一個詞。以“我是中國人”為例來說明，標記完的結(jié)果是

我 ?S

是 ?S

中 ?B

國 ?M

人 ?E

　　這樣給文檔中的每個字都賦予一個標記，那么我們可以將分詞任務(wù)視為一個分類問題--將文檔中的每個字分別賦予一個類標記。

然而，如果將分詞僅僅視為一個分類任務(wù)來考慮，那么得到的結(jié)果很可能不太理想，因為分詞需要考慮上下文，如果僅考慮字本身的特征，還是無法得到想要的效果，而CRFs模型天然考慮了上下文特征，通常在需要考慮上下文特征的序列標注問題中能取得不錯的效果。

在CRFs模型中，我們將一句話視為一個最大團（最大團的概念可以回顧下CRF第一篇），這樣我們只需要求得所有候選詞序列的聯(lián)合概率分布的最大值（每個詞對應(yīng)一個隨機變量），那么就可以得到一個分詞的標注序列。

n-gram模型——用于限定我們考慮特征的范圍，以uni-gram和bi-gram為例來說明，uni-gram窗口大小為1（cut-off=1）只考慮單字的特征，bi-gram窗口大小為2（cut-off=2）考慮兩個連續(xù)字的特征，比如“我是中國人”，bi-gram在取每個字的特征的時候，只分別考慮“我是”、“是中”、“中國”、“國人”、“人”范圍內(nèi)的特征。筆者推測這樣劃分的原理應(yīng)該是句子馬爾科夫鏈的性質(zhì)——一個字只和它周圍的若干字有關(guān)聯(lián)，越遠，關(guān)聯(lián)越弱。

　　下面介紹CRF++工具包

　　CRF++工具包輸入數(shù)據(jù)的格式是這樣的：

１ D B
２ D M
月 W E
３ D B
１ D M
日 W E
， S S
中 W B
共 W M
中 W M
央 W E 　　第一列是文檔中的字，第二列是字的特征（比如我們規(guī)定數(shù)字用D表示，普通字用W表示，標點符號用S表示等），第三列是4-tag字標記。
CRF++引入了特征模板的概念，用于擴展特征集（顯然上面的輸入數(shù)據(jù)格式能提供的特征太少了），模板這樣定義的（以上面的輸入數(shù)據(jù)為例，假設(shè)當前字符為“共”）

template	expanded feature
%x[0,0]	共
%x[0,1]	W
%x[-1,0]	中
%x[-2,1]	S
%x[0,0]/%x[0,1]	共/W
ABC%x[0,1]123	ABCW123

　　%x[row,column]row是相對當前字符的行下標，column是列下標。

　　特征模板長這樣： # Unigram U00:%x[-2,0] U01:%x[-1,0] U02:%x[0,0] U03:%x[1,0] U04:%x[2,0] U05:%x[-1,0]/%x[0,0] U06:%x[0,0]/%x[1,0]U10:%x[-2,1] U11:%x[-1,1] U12:%x[0,1] U13:%x[1,1] U14:%x[2,1] U15:%x[-2,1]/%x[-1,1] U16:%x[-1,1]/%x[0,1] U17:%x[0,1]/%x[1,1] U18:%x[1,1]/%x[2,1]U20:%x[-2,1]/%x[-1,1]/%x[0,1] U21:%x[-1,1]/%x[0,1]/%x[1,1] U22:%x[0,1]/%x[1,1]/%x[2,1]# Bigram B

　　其中U01這些是特征ID，空行沒任何意義，#Unigram #Bigram這些是解釋說明，指的是下面用的是哪類模型。

　　訓(xùn)練的話，可以在命令行進入項目根目錄之后（或者添加環(huán)境變量方便在任意位置識別訓(xùn)練程序）輸入　　crf_learn template_file train_file model_file
　　crf_learn是訓(xùn)練程序，template_file指的是模板路徑，train_file指的是訓(xùn)練數(shù)據(jù)路徑，model_file指的是生成的模型文件路徑（目錄+文件）
　　有4個可選參數(shù)，分別是
-a CRF-L2 or CRF-L1:
　　選擇L1正則化還是L2正則化（正則化的目的是防止過擬合，一般而言，L2正則化更優(yōu)，因為L1正則化偏向于減少項的個數(shù)，而L2正則化偏向于降低每一項前面的系數(shù)，使之趨向于0，而不是減少為0）

? ?-c?float

??? 　　這個參數(shù)設(shè)置CRF的hyper-parameter。c的數(shù)值越大，CRF擬合訓(xùn)練數(shù)據(jù)的程度越高。這個參數(shù)可以調(diào)整過擬合和欠擬合之間的平衡度。這個參數(shù)可以通過交叉驗證等方法尋找較優(yōu)的參數(shù)。

?-f?NUM

??? 　　這個參數(shù)設(shè)置特征的cut-off?threshold。CRF++使用訓(xùn)練數(shù)據(jù)中至少NUM次出現(xiàn)的特征。默認值為1。當使用CRF++到大規(guī)模數(shù)據(jù)時，只針對特定數(shù)據(jù)的特征可能會有幾百萬，這個選項就會在這樣的情況下起到作用。

????-p?NUM

??? 　　如果電腦有多個CPU，那么那么可以通過多線程提升訓(xùn)練速度。NUM是線程數(shù)量。

　　所以我們在命令行訓(xùn)練數(shù)據(jù)也可以這樣寫： crf_learn -f 3 -c 1.5 template_file train_file model_file
　　下面是測試數(shù)據(jù)的命令行： crf_test -m model_file test_files
　　model_file指的是模型文件的路徑，test_files指的是測試數(shù)據(jù)文件的路徑，這里就不需要指定模板文件的路徑了，因為其路徑已經(jīng)寫入模型文件中
測試數(shù)據(jù)的文件格式與訓(xùn)練數(shù)據(jù)文件格式相同，運行測試命令會增加第四列，表示預(yù)測的各個字符的標記，然后可以用程序?qū)⑵滢D(zhuǎn)化為我們想要的分詞形式即可。由于訓(xùn)練時間太長，筆者決定下期發(fā)布相關(guān)代碼，敬請期待！

轉(zhuǎn)載于:https://www.cnblogs.com/xueyinzhe/p/7225923.html

總結(jié)

以上是生活随笔為你收集整理的条件随机场-应用的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

条件