【NLP-NER】什么是命名实体识别?
命名實(shí)體識(shí)別(Named Entity Recognition,NER)是NLP中一項(xiàng)非常基礎(chǔ)的任務(wù)。NER是信息提取、問(wèn)答系統(tǒng)、句法分析、機(jī)器翻譯等眾多NLP任務(wù)的重要基礎(chǔ)工具。
命名實(shí)體識(shí)別的準(zhǔn)確度,決定了下游任務(wù)的效果,是NLP中非常重要的一個(gè)基礎(chǔ)問(wèn)題。
作者&編輯 | 小Dream哥
1 命名實(shí)體識(shí)別是什么?
要了解NER是一回什么事,首先要先說(shuō)清楚,什么是實(shí)體。要討論實(shí)體的理論概念,可能會(huì)花上一整天的時(shí)間,我們不過(guò)多糾纏。
簡(jiǎn)單的理解,實(shí)體,可以認(rèn)為是某一個(gè)概念的實(shí)例。
例如,“人名”是一種概念,或者說(shuō)實(shí)體類型,那么“蔡英文”就是一種“人名”實(shí)體了。“時(shí)間”是一種實(shí)體類型,那么“中秋節(jié)”就是一種“時(shí)間”實(shí)體了。
所謂實(shí)體識(shí)別,就是將你想要獲取到的實(shí)體類型,從一句話里面挑出來(lái)的過(guò)程。
小明? ? ? 在? ? ? ? ?北京大學(xué)? ? ? 的? ? ? ?燕園? ? ?看了? ??
PER? ? ? ? ? ? ? ? ? ? ??ORG? ? ? ? ? ? ? ? ? ? LOC?
中國(guó)男籃? ? ? ? ? ?的一場(chǎng)比賽
ORG
如上面的例子所示,句子“小明在北京大學(xué)的燕園看了中國(guó)男籃 的一場(chǎng)比賽”,通過(guò)NER模型,將“小明?”以PER,“北京大學(xué)”以O(shè)RG,“燕園”以LOC,“中國(guó)男籃”以O(shè)RG為類別分別挑了出來(lái)。
2 命名實(shí)體識(shí)別的數(shù)據(jù)標(biāo)注方式
NER是一種序列標(biāo)注問(wèn)題,因此他們的數(shù)據(jù)標(biāo)注方式也遵照序列標(biāo)注問(wèn)題的方式,主要是BIO和BIOES兩種。這里直接介紹BIOES,明白了BIOES,BIO也就掌握了。
先列出來(lái)BIOES分別代表什么意思:
B,即Begin,表示開始
I,即Intermediate,表示中間
E,即End,表示結(jié)尾
S,即Single,表示單個(gè)字符
O,即Other,表示其他,用于標(biāo)記無(wú)關(guān)字符
將“小明在北京大學(xué)的燕園看了中國(guó)男籃的一場(chǎng)比賽”這句話,進(jìn)行標(biāo)注,結(jié)果就是:
[B-PER,E-PER,O,? B-ORG,I-ORG,I-ORG,E-ORG,O,B-LOC,E-LOC,O,O,B-ORG,I-ORG,I-ORG,E-ORG,O,O,O,O]
那么,換句話說(shuō),NER的過(guò)程,就是根據(jù)輸入的句子,預(yù)測(cè)出其標(biāo)注序列的過(guò)程。
3 命名實(shí)體識(shí)別的方法介紹
1)HMM和CRF等機(jī)器學(xué)習(xí)算法
HMM和CRF很適合用來(lái)做序列標(biāo)注問(wèn)題,早期很多的效果較好的成果,都是出自這兩個(gè)模型。兩種模型在序列標(biāo)注問(wèn)題中應(yīng)用,我們?cè)谥暗奈恼轮杏薪榻B,感興趣的同學(xué)可以看下如下鏈接的文章:
【NLP】用于語(yǔ)音識(shí)別、分詞的隱馬爾科夫模型HMM
【NLP】用于序列標(biāo)注問(wèn)題的條件隨機(jī)場(chǎng)(Conditional Random Field, CRF)
2)LSTM+CRF
目前做NER比較主流的方法就是采用LSTM作為特征抽取器,再接一個(gè)CRF層來(lái)作為輸出層,后面我們用專門的文章來(lái)介紹這個(gè)模型。如下圖所示:
3)CNN+CRF
CNN雖然在長(zhǎng)序列的特征提取上有弱勢(shì),但是CNN模型可有并行能力,有運(yùn)算速度快的優(yōu)勢(shì)。膨脹卷積的引入,使得CNN在NER任務(wù)中,能夠兼顧運(yùn)算速度和長(zhǎng)序列的特征提取,后面我們用專門的文章來(lái)介紹這個(gè)模型。
4)BERT+(LSTM)+CRF
BERT中蘊(yùn)含了大量的通用知識(shí),利用預(yù)訓(xùn)練好的BERT模型,再用少量的標(biāo)注數(shù)據(jù)進(jìn)行FINETUNE是一種快速的獲得效果不錯(cuò)的NER的方法,后面我們用專門的文章來(lái)介紹這個(gè)模型。
總結(jié)
NER是一個(gè)非常基礎(chǔ),但是非常重要的任務(wù),今天先做一個(gè)整體的介紹。后續(xù)小Dream哥會(huì)相繼詳細(xì)的介紹上述幾種常見的NER模型。在具體的模型中,大家能夠更為細(xì)致的體會(huì)NER任務(wù)的真正作用和意涵。
讀者們可以留言,或者加入我們的NLP群進(jìn)行討論。感興趣的同學(xué)可以微信搜索jen104,備注"加入有三AI NLP群"。
下期預(yù)告:命名實(shí)體識(shí)別詳解之二:LSTM+CRF網(wǎng)絡(luò)
知識(shí)星球推薦
掃描上面的二維碼,就可以加入我們的星球,助你成長(zhǎng)為一名合格的自然語(yǔ)言處理算法工程師。
知識(shí)星球主要有以下內(nèi)容:
(1) 聊天機(jī)器人。考慮到聊天機(jī)器人是一個(gè)非常復(fù)雜的NLP應(yīng)用場(chǎng)景,幾乎涵蓋了所有的NLP任務(wù)及應(yīng)用。所以小Dream哥計(jì)劃以聊天機(jī)器人作為切入點(diǎn),通過(guò)介紹聊天機(jī)器人的原理和實(shí)踐,逐步系統(tǒng)的更新到大部分NLP的知識(shí),會(huì)包括語(yǔ)義匹配,文本分類,意圖識(shí)別,語(yǔ)義匹配命名實(shí)體識(shí)別、對(duì)話管理以及分詞等。
(2) 知識(shí)圖譜。知識(shí)圖譜對(duì)于NLP各項(xiàng)任務(wù)效果好壞的重要性,就好比基礎(chǔ)知識(shí)對(duì)于一個(gè)學(xué)生成績(jī)好壞的重要性。他是NLP最重要的基礎(chǔ)設(shè)施,目前各大公司都在著力打造知識(shí)圖譜,作為一個(gè)NLP工程師,必須要熟悉和了解他。
(3) NLP預(yù)訓(xùn)練模型。基于海量數(shù)據(jù),進(jìn)行超大規(guī)模網(wǎng)絡(luò)的無(wú)監(jiān)督預(yù)訓(xùn)練。具體的任務(wù)再通過(guò)少量的樣本進(jìn)行Fine-Tune。這樣模式是目前NLP領(lǐng)域最火熱的模式,很有可能引領(lǐng)NLP進(jìn)入一個(gè)全新發(fā)展高度。你怎么不深入的了解?
轉(zhuǎn)載文章請(qǐng)后臺(tái)聯(lián)系
侵權(quán)必究
往期精選
總結(jié)
以上是生活随笔為你收集整理的【NLP-NER】什么是命名实体识别?的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 【知识星球】模型量化从1bit到8bit
- 下一篇: 【每周NLP论文推荐】 对话管理中的标志