几种NER模型
1. BiLSTM-CRF
1.1 模型
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
?
對(duì)于一個(gè)中文句子,這個(gè)句子中的每個(gè)字符都有一個(gè)屬于集合{O,B-PER,I-PER,B-LOC,I-LOC,B-ORG,I-ORG}的標(biāo)記。
第一層,look-up layer,旨在將每個(gè)字符表示從一個(gè)one-hot向量轉(zhuǎn)換為character embedding字符嵌入。在這段代碼中,隨機(jī)初始化嵌入矩陣,我知道它看起來太簡(jiǎn)單了。我們以后可以增加一些語言知識(shí)。例如,進(jìn)行標(biāo)記化tokenization?并使用pre-trained word-level embedding 字級(jí)嵌入,然后可以使用此標(biāo)記的字嵌入初始化一個(gè)標(biāo)記中的每個(gè)字符。此外,我們還可以通過結(jié)合低層特征來實(shí)現(xiàn)字符的嵌入(詳見論文[2]第4.1節(jié)和論文[3]第3.3節(jié))。
第二層,BiLSTM層,可以有效地利用過去和將來的輸入信息,自動(dòng)提取特征。
第三層,CRF層,在一個(gè)句子中為每個(gè)字符標(biāo)記標(biāo)簽。如果我們使用Softmax層進(jìn)行標(biāo)記,我們可能會(huì)得到非隨機(jī)標(biāo)記序列,因?yàn)镾oftmax層獨(dú)立地標(biāo)記每個(gè)位置。我們知道“I-LOC”不能跟在“B-PER”后面,但Softmax不知道。與Softmax相比,CRF層可以利用句子級(jí)的標(biāo)簽信息,對(duì)兩個(gè)不同標(biāo)簽的轉(zhuǎn)換行為進(jìn)行建模。
1.2 語料
MSRA corpus
?將自己語料轉(zhuǎn)換為以上格式,并生成一個(gè)詞匯表文件。
2. BERT-BiLSTM-CRF
條件隨機(jī)場(chǎng)-CRF
??條件隨機(jī)場(chǎng)分為三個(gè)部分,一個(gè)是“條件”,一個(gè)是“隨機(jī)場(chǎng)”,還有一個(gè)是“馬爾科夫”。
??“隨機(jī)場(chǎng)”:就是若干個(gè)位置的整體,當(dāng)每個(gè)位置按某一種分布去取值時(shí),當(dāng)每個(gè)位置的值都確定下來,整體就是一個(gè)隨機(jī)場(chǎng)。標(biāo)注序列 ”O(jiān)OBSOBMSOOO” 就是一個(gè)隨機(jī)場(chǎng)。
??“條件”:就是在已知X的條件下,Y是在已知X的條件下的輸出,可類比于條件概率。
??“馬爾科夫”:就是隨機(jī)場(chǎng)中的任一一個(gè)位置的結(jié)果僅與此位置相鄰的結(jié)果和的位置有關(guān),而與其他不相鄰位置的結(jié)果無關(guān)。
??條件隨機(jī)場(chǎng):綜合上述的定義,我們給出條件隨機(jī)場(chǎng)的定義:設(shè)X與Y是隨機(jī)變量,P(Y|X)是給定X時(shí)Y的條件概率分布,若隨機(jī)變量Y構(gòu)成的是一個(gè)馬爾科夫隨機(jī)場(chǎng),則稱條件概率分布P(Y|X)是條件隨機(jī)場(chǎng)。
模型特點(diǎn):CRF是一個(gè)判別式模型,就是根據(jù)輸入序列X來給出輸出序列Y的概率分布。
3.?IDCNN/BiLSTM-CRF
?
《新程序員》:云原生和全面數(shù)字化實(shí)踐50位技術(shù)專家共同創(chuàng)作,文字、視頻、音頻交互閱讀總結(jié)
- 上一篇: Github代码上传和下载
- 下一篇: 膨胀卷积(Dilated convolu