BiLSTM-CRF模型理解
適用任務(wù)
中文分詞、詞性標(biāo)注、命名實(shí)體識別是自然語言理解中,基礎(chǔ)性的工作,同時也是非常重要的工作。
在很多NLP的項(xiàng)目中,工作開始之前都要經(jīng)過這三者中的一到多項(xiàng)工作的處理。
在深度學(xué)習(xí)中,有一種模型可以同時勝任這三種工作,而且效果還很不錯--那就是biLSTM_CRF。
biLSTM,指的是雙向LSTM;CRF指的是條件隨機(jī)場。
?
一些說明
以命名實(shí)體識別為例,我們規(guī)定在數(shù)據(jù)集中有兩類實(shí)體,人名和組織機(jī)構(gòu)名稱。
在數(shù)據(jù)集中總共有5類標(biāo)簽:
B-Person (人名的開始部分)
I- Person (人名的中間部分)
B-Organization (組織機(jī)構(gòu)的開始部分)
I-Organization (組織機(jī)構(gòu)的中間部分)
O (非實(shí)體信息)
此外,假設(shè)x 是包含了5個單詞的一句話(w0,w1,w2,w3,w4)。
在句子x中[w0,w1]是人名,[w3]是組織機(jī)構(gòu)名稱,其他都是“O”。
?
BiLSTM-CRF 模型
先來簡要的介紹一下該模型。
如下圖所示:
首先,句中的每個單詞是一條包含詞嵌入和字嵌入的詞向量,詞嵌入通常是事先訓(xùn)練好的,字嵌入則是隨機(jī)初始化的。所有的嵌入都會隨著訓(xùn)練的迭代過程被調(diào)整。
其次,BiLSTM-CRF的輸入是詞嵌入向量,輸出是每個單詞對應(yīng)的預(yù)測標(biāo)簽。
?
如下圖所示,BiLSTM層的輸入表示該單詞對應(yīng)各個類別的分?jǐn)?shù)。如W0,BiLSTM節(jié)點(diǎn)的輸出是1.5 (B-Person), 0.9 (I-Person), 0.1 (B-Organization), 0.08 (I-Organization) and 0.05 (O)。這些分?jǐn)?shù)將會是CRF層的輸入。 所有的經(jīng)BiLSTM層輸出的分?jǐn)?shù)將作為CRF層的輸入,類別序列中分?jǐn)?shù)最高的類別就是我們預(yù)測的最終結(jié)果。
?
?
?如果沒有CRF層會是什么樣
?
即使沒有CRF層,我們照樣可以訓(xùn)練一個基于BiLSTM的命名實(shí)體識別模型,如下圖所示。
因?yàn)锽iLSTM模型的結(jié)果是單詞對應(yīng)各類別的分?jǐn)?shù),我們可以選擇分?jǐn)?shù)最高的類別作為預(yù)測結(jié)果。如W0,“B-Person”的分?jǐn)?shù)最高(1.5),那么我們可以選定“B-Person”作為預(yù)測結(jié)果。同樣的,w1是“I-Person”, w2是“O”,w3是 “B-Organization” ,w4是 “O”。
盡管我們在該例子中得到了正確的結(jié)果,但實(shí)際情況并不總是這樣:
?
顯然,這次的分類結(jié)果并不準(zhǔn)確。
?
CRF層可以學(xué)習(xí)到句子的約束條件
CRF層可以加入一些約束來保證最終預(yù)測結(jié)果是有效的。這些約束可以在訓(xùn)練數(shù)據(jù)時被CRF層自動學(xué)習(xí)得到。
可能的約束條件有:
- 句子的開頭應(yīng)該是“B-”或“O”,而不是“I-”。
- “B-label1 I-label2 I-label3…”,在該模式中,類別1,2,3應(yīng)該是同一種實(shí)體類別。比如,“B-Person I-Person” 是正確的,而“B-Person I-Organization”則是錯誤的。
- “O I-label”是錯誤的,命名實(shí)體的開頭應(yīng)該是“B-”而不是“I-”。
有了這些有用的約束,錯誤的預(yù)測序列將會大大減少。
?
CRF 層
CRF層中的損失函數(shù)包括兩種類型的分?jǐn)?shù),而理解這兩類分?jǐn)?shù)的計算是理解CRF的關(guān)鍵。
1 Emission score
第一個類型的分?jǐn)?shù)是發(fā)射分?jǐn)?shù)(狀態(tài)分?jǐn)?shù))。這些狀態(tài)分?jǐn)?shù)來自BiLSTM層的輸出,在這里就是word預(yù)測為某個標(biāo)簽的概率。如下圖所示,w0被預(yù)測為B-Person的分?jǐn)?shù)是1.5.
?
?
為方便起見,我們給每個類別一個索引,如下表所示:
?
Xiyj代表狀態(tài)分?jǐn)?shù),i是單詞的位置索引,yj是類別的索引。根據(jù)上表,
表示單詞w1被預(yù)測為B?Organization的分?jǐn)?shù)是0.1。
?
2 轉(zhuǎn)移分?jǐn)?shù)
用tyiyj來表示轉(zhuǎn)移分?jǐn)?shù)。例如,tB?Person,I?Person=0.9表示從類別B?Person→I?Person的分?jǐn)?shù)是0.9。因此,有一個所有類別間的轉(zhuǎn)移分?jǐn)?shù)矩陣。
為了使轉(zhuǎn)移分?jǐn)?shù)矩陣更具魯棒性,我們加上START 和 END兩類標(biāo)簽。START代表一個句子的開始(不是句子的第一個單詞),END代表一個句子的結(jié)束。
下表是加上START和END標(biāo)簽的轉(zhuǎn)移分?jǐn)?shù)矩陣。
如上表格所示,轉(zhuǎn)移矩陣已經(jīng)學(xué)習(xí)到一些有用的約束條件:
- 句子的第一個單詞應(yīng)該是“B-” 或 “O”,而不是“I”。(從“START”->“I-Person 或 I-Organization”的轉(zhuǎn)移分?jǐn)?shù)很低)
- “B-label1 I-label2 I-label3…”,在該模式中,類別1,2,3應(yīng)該是同一種實(shí)體類別。比如,“B-Person I-Person” 是正確的,而“B-Person I-Organization”則是錯誤的。(“B-Organization” -> “I-Person”的分?jǐn)?shù)很低)
- “O I-label”是錯誤的,命名實(shí)體的開頭應(yīng)該是“B-”而不是“I-”。
?
要怎樣得到這個轉(zhuǎn)移矩陣呢?
實(shí)際上,轉(zhuǎn)移矩陣是BiLSTM-CRF模型的一個參數(shù)。在訓(xùn)練模型之前,你可以隨機(jī)初始化轉(zhuǎn)移矩陣的分?jǐn)?shù)。這些分?jǐn)?shù)將隨著訓(xùn)練的迭代過程被更新,換句話說,CRF層可以自己學(xué)到這些約束條件。
?
CRF損失函數(shù)
CRF損失函數(shù)由兩部分組成,真實(shí)路徑的分?jǐn)?shù) 和 所有路徑的總分?jǐn)?shù)。真實(shí)路徑的分?jǐn)?shù)應(yīng)該是所有路徑中分?jǐn)?shù)最高的。
例如,數(shù)據(jù)集中有如下幾種類別:
?
一個包含5個單詞的句子,可能的類別序列如下:
- 1. START B-Person B-Person B-Person B-Person B-Person END
- 2. START B-Person I-Person B-Person B-Person B-Person END
- …..
- 10. START B-Person I-Person O B-Organization O END
- N. O O O O O O O
每種可能的路徑的分?jǐn)?shù)為Pi,共有N條路徑,則路徑的總分是
,e是常數(shù)e。
如果第十條路徑是真實(shí)路徑,也就是說第十條是正確預(yù)測結(jié)果,那么第十條路徑的分?jǐn)?shù)應(yīng)該是所有可能路徑里得分最高的。
根據(jù)如下?lián)p失函數(shù),在訓(xùn)練過程中,BiLSTM-CRF模型的參數(shù)值將隨著訓(xùn)練過程的迭代不斷更新,使得真實(shí)路徑所占的比值越來越大。
現(xiàn)在的問題是:
真實(shí)路徑分?jǐn)?shù)
計算真實(shí)路徑分?jǐn)?shù),eSi,是非常容易的。
我們先集中注意力來計算Si:
以“START B-Person I-Person O B-Organization O END”這條真實(shí)路徑來說:
句子中有5個單詞,w1,w2,w3,w4,w5,加上START和END 在句子的開始位置和結(jié)束位置,記為,w0,w6
Si = EmissionScore + TransitionScore
這些分?jǐn)?shù)來自BiLSTM層的輸出,至于x0,START 和x6,END ,則設(shè)為0。
這些分?jǐn)?shù)來自于CRF層,將這兩類分?jǐn)?shù)加和即可得到Si 和 路徑分?jǐn)?shù)eSi
?
所有路徑的總分
如何計算所有路徑的總分呢?以一個玩具的例子詳細(xì)講解。
Step 1
我們定義的損失函數(shù)如下:
現(xiàn)在我們把它變成對數(shù)損失函數(shù):
訓(xùn)練目標(biāo)通常是最小化損失函數(shù),加負(fù)號:
前面我們已經(jīng)很清楚如何計算真實(shí)路徑得分,現(xiàn)在我們需要找到一個方法去計算
?
Step 2:回憶一下狀態(tài)分?jǐn)?shù) 和 轉(zhuǎn)移分?jǐn)?shù)
為了簡化問題,假定我句子只有3個單詞組成:
X = [w0, w1 ,w2]
只有兩個類別:
LabelSet = {l1, l2}
狀態(tài)分?jǐn)?shù)如下:
?
轉(zhuǎn)移矩陣如下:
?
Step 3:
目標(biāo)是:
整個過程是一個分?jǐn)?shù)的積聚過程。它的實(shí)現(xiàn)思想有點(diǎn)像動態(tài)規(guī)劃。首先,w0所有路徑的總分先被計算出來,然后,計算w0 -> w1的所有路徑的得分,最后計算w0 -> w1 -> w2的所有路徑的得分,也就是我們需要的結(jié)果。
?
接下來,會看到兩個變量:obs和 previous。Previous存儲了之前步驟的結(jié)果,obs代表當(dāng)前單詞所帶的信息。
如果句子只有一個單詞,就沒有之前步驟的結(jié)果,所以Previous 是空。只能觀測到狀態(tài)分?jǐn)?shù) obs =【x01,x02】
W0 的所有路徑總分就是:
?
?
?
?
為啥要擴(kuò)展previous 和 obs 矩陣呢?因?yàn)檫@樣操作可以是接下來的計算相當(dāng)高效。
?
?
?
實(shí)際上,第二次迭代過程也就完成了。
?
發(fā)現(xiàn)了嗎,這其實(shí)就是我們的目標(biāo),
?
?
?
讀到這邊,差不多就大功告成了。這一步,我們再重復(fù)一次之前的步驟。
?
跟上一步驟一樣,用新的previous計算總分:
?
們最終得到了我們的目標(biāo),
,我們的句子中共有3個單詞和兩個類別,所以共有8條路徑。
?
biLSTM_CRF模型在tensorflow中的實(shí)現(xiàn)。
運(yùn)行環(huán)境
python 3.6
tensorflow 1.2
本文GITHUB?歡迎Star和Fork。
使用同樣方法,構(gòu)造的中文分詞。中文分詞GITHUB
正文
1.數(shù)據(jù)預(yù)處理
2.模型構(gòu)建
3.模型訓(xùn)練與測試
4.模型驗(yàn)證
5.總結(jié)
1.數(shù)據(jù)預(yù)處理
?
?
首先是將預(yù)測數(shù)據(jù)進(jìn)行處理,轉(zhuǎn)成模型能夠識別的數(shù)字。
數(shù)據(jù)原格式數(shù)據(jù)是以列形式存儲,截圖翻轉(zhuǎn)了一下。
我從訓(xùn)練文本中,抽取頻數(shù)在前5000的字,實(shí)際只抽取到了4830左右個字。加入'<PAD>','<UNK>','<NUM>',分別表示填充字符,未知字符,數(shù)字字符。一起存入字典。
字典標(biāo)簽同樣也有對應(yīng)的字典。
# 將tag轉(zhuǎn)換成數(shù)字 tag2label = {"O": 0, "B-PER": 1, "I-PER": 2, "B-LOC": 3, "I-LOC": 4, "B-ORG": 5, "I-ORG": 6}?
?
依據(jù)字典與標(biāo)簽字典,將文字與標(biāo)簽分別轉(zhuǎn)成數(shù)字。第一行是文本,第二行是標(biāo)簽。
文本與標(biāo)簽下一步是生成batch的操作。
生成batch后,需要對batch內(nèi)句子padding到統(tǒng)一的長度,并計算每句的真實(shí)長度。
2.模型構(gòu)建
采用雙向LSTM對序列進(jìn)行處理,將輸出結(jié)果進(jìn)行拼接。輸入shape[batch,seq_Length,hidden_dim],輸出shape[batch,seq_length,2*hidden_dim]。
with tf.name_scope('biLSTM'): cell_fw = tf.nn.rnn_cell.LSTMCell(pm.hidden_dim) cell_bw = tf.nn.rnn_cell.LSTMCell(pm.hidden_dim) outputs, outstates = tf.nn.bidirectional_dynamic_rnn(cell_fw=cell_fw, cell_bw=cell_bw,inputs=self.embedding, sequence_length=self.seq_length, dtype=tf.float32) outputs = tf.concat(outputs, 2)#將雙向RNN的結(jié)果進(jìn)行拼接 #outputs三維張量,[batchsize,seq_length,2*hidden_dim]我們從本文的第一幅圖中,可以看出,整個biLSTM完整的輸出格式是[batch,seq_length,num_tag]。num_tag是標(biāo)簽的數(shù)量,本實(shí)驗(yàn)中是標(biāo)簽數(shù)量是7。所以我們需要一個全連接層,將輸出格式處理一下。
with tf.name_scope('output'): s = tf.shape(outputs) output = tf.reshape(outputs, [-1, 2*pm.hidden_dim]) output = tf.layers.dense(output, pm.num_tags) output = tf.contrib.layers.dropout(output, pm.keep_pro) self.logits = tf.reshape(output, [-1, s[1], pm.num_tags])self.logits就是需要輸入CRF層中的數(shù)據(jù)。代碼的第三行,對output的變形,表示將[batch,seq_length,2hidden_dim]變成[batchseq_length,2*hidden_dim],最后處理時再變形為[batch,seq_length,num_tag]。
下面就是CRF層的處理:
這一步,是調(diào)用from tensorflow.contrib.crf import crf_log_likelihood函數(shù),求最大似然函數(shù),以及求轉(zhuǎn)移矩陣。最大似然函數(shù)前加上"-",可以用梯度下降法求最小值;
with tf.name_scope('loss'): self.loss = tf.reduce_mean(-log_likelihood) #最大似然取負(fù),使用梯度下降轉(zhuǎn)移矩陣可以幫助維特比算法來求解最優(yōu)標(biāo)注序列。
def predict(self, sess, seqs): seq_pad, seq_length = process_seq(seqs) logits, transition_params = sess.run([self.logits, self.transition_params], feed_dict={self.input_x: seq_pad, self.seq_length: seq_length, self.keep_pro: 1.0}) label_ = [] for logit, length in zip(logits, seq_length): #logit 每個子句的輸出值,length子句的真實(shí)長度,logit[:length]的真實(shí)輸出值 # 調(diào)用維特比算法求最優(yōu)標(biāo)注序列 viterbi_seq, _ = viterbi_decode(logit[:length], transition_params) label_.append(viterbi_seq) return label_3.模型訓(xùn)練與測試
?
?
訓(xùn)練時,共進(jìn)行12次迭代,每迭代4次,將訓(xùn)練得到的結(jié)果,保存到checkpoints;loss的情況,保留到tensorboard中;每100個batch,輸出此時的訓(xùn)練結(jié)果與測試結(jié)果。
模型訓(xùn)練模型的loss由最初在訓(xùn)練集54.93降到2.29,在測試集上由47.45降到1.73。我們看下,保存的模型在驗(yàn)證集上的效果。
4.模型驗(yàn)證
?
?
我從1998年的人民網(wǎng)的新聞素材中,隨機(jī)抽取了幾條語句。
模型驗(yàn)證ORG表示組織名詞,LOC表示地理名詞,PER表示人名。從驗(yàn)證結(jié)果上看,模型在命名實(shí)體識別上,效果還可以。
?
?
?
?
對句子的單詞詞性做預(yù)測
Step 1:BiLSTM-CRF模型得到的發(fā)射分?jǐn)?shù)和轉(zhuǎn)移分?jǐn)?shù)
假定我們的句子共3個單詞組成:
并且,我們已經(jīng)從我們的模型中得到了發(fā)射分?jǐn)?shù)和轉(zhuǎn)移分?jǐn)?shù),如下:
?
?
轉(zhuǎn)移矩陣:
?
?
Step 2:開始預(yù)測
如果你熟悉Viterbi算法,理解這一步的知識點(diǎn)將會非常容易。當(dāng)然,如果你不熟悉也無所謂,整個預(yù)測過程和之前求所有路徑總分的過程非常類似。我將逐步解釋清楚,我們先從左到右的順序來運(yùn)行預(yù)測算法。
?
?
你將會看到兩類變量:obs 和 previous。Previous存儲了上一個步驟的最終結(jié)果,obs代表當(dāng)前單詞包含的信息(發(fā)射分?jǐn)?shù))。
Alpha0 是歷史最佳的分?jǐn)?shù) ,alpha1 是最佳分?jǐn)?shù)所對應(yīng)的類別索引。這兩類變量的詳細(xì)信息待會會做說明。先來看下面的圖片:你可以把這兩類變量當(dāng)做狗狗去森林里玩耍時在路上做的標(biāo)記,這些標(biāo)記可以幫助狗狗找到回家的路。
?
?
?
?
現(xiàn)在,我們來觀測第一個單詞W0,很顯然,W0所對應(yīng)的最佳預(yù)測類別是非常容易知道的。比如,如果
,顯然,最佳預(yù)測結(jié)果是l2。
?
?
?
?
看到這里,你可能好奇這跟之前求所有路徑分?jǐn)?shù)的算法沒什么區(qū)別,別急,你馬上就會看到不同之處啦!
?
在下一次迭代前更改previous的值:max!
?
?
舉個例子,如果我們的得分如下:
?
?
那么我們的previous應(yīng)該是:
?
這是什么意思呢?其實(shí)也就是說previous存儲的是當(dāng)前單詞對應(yīng)各類別的最佳路徑得分。W1被預(yù)測為L1類別的最高分是0.5,路徑是L2->L1,W1被預(yù)測為L2類別的最高分是0.4,路徑是L2->L2。
?
這邊,我們有兩個變量來儲存歷史信息,alpha0 和 alpha1.
在本次迭代中,我們將最佳分?jǐn)?shù)存儲到alpha0 :
?
?
同時,最佳分?jǐn)?shù)所對應(yīng)的類別索引存儲到alpha1:
?
?
類別L1的索引是0,L2的索引是1,所以(1,1)=(L2,L2)。表示當(dāng)前最佳分?jǐn)?shù)0.5對應(yīng)的路徑是L2->L1,最佳分?jǐn)?shù)0.4對應(yīng)的路徑是L2->L2。(1,1)可以理解為前一單詞分別對應(yīng)的類別索引。
?
上面scores有錯誤,應(yīng)該是0.5+x21+t11 等
?
更改previous的值:
?
?
假如我們的得分是:
?
?
現(xiàn)在我們的previous是:
?
?
現(xiàn)在,我們選取previous[0] 和previous[1]中最大的分?jǐn)?shù)作為最佳路徑。也就是0.9對應(yīng)的路徑是我們的預(yù)測結(jié)果。
同時,每個類別對應(yīng)的最大得分添加到alpha0 和 alpha1中:
?
?
Step 3:根據(jù)最大得分找到最佳路徑
這是最后一步,alpha0 和 alpha1將被用來找到最佳路徑。
先看alpha0,alpha0中最后一個單詞對應(yīng)的類別得分分別是0.8 和 0.9,那么0.9對應(yīng)的類別L2就是最佳預(yù)測結(jié)果。再看alpha1,L2對應(yīng)的索引是0, “0”表示之前一個單詞對應(yīng)的類別是L1,所以W1-W2的最佳路徑是: L1->L2
接著往前推,alpha1=(1,1),我們已經(jīng)知道W1的預(yù)測結(jié)果是L1,對應(yīng)的索引是0,(1,1)[0] = 1,所以W0對應(yīng)的類別是L2。
所以我們預(yù)測的最佳路徑是 L2-> L1 -> L2 。
?
轉(zhuǎn)載于:https://www.cnblogs.com/shona/p/11563112.html
總結(jié)
以上是生活随笔為你收集整理的BiLSTM-CRF模型理解的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: SpringBoot+Quartz+数据
- 下一篇: 微信小程序之扫一扫功能