超详综述 | 基于深度学习的命名实体识别
?PaperWeekly 原創(chuàng) ·?作者|馬敏博
單位|西南交通大學(xué)碩士生
研究方向|命名實(shí)體識(shí)別
論文名稱:A Survey on Deep Learning for Named Entity Recognition
論文鏈接:https://arxiv.org/abs/1812.09449
目前已被數(shù)據(jù)挖掘頂刊 TKDE 收錄,先膜拜!
目錄
1. 全文簡(jiǎn)介
2. NER任務(wù)簡(jiǎn)介
3. NER標(biāo)注語(yǔ)料庫(kù)(公開(kāi)評(píng)測(cè)集)
4. off-the-shelf NER工具
5. 評(píng)價(jià)指標(biāo)
6. 序列標(biāo)注標(biāo)簽方案
7. 四類NER常用方法
8. 基于規(guī)則的NER方法
9. 基于無(wú)監(jiān)督學(xué)習(xí)的NER方法
10. 基于特征的有監(jiān)督學(xué)習(xí)NER方法(傳統(tǒng)機(jī)器學(xué)習(xí))
11. 基于深度學(xué)習(xí)的NER方法
11.1 深度學(xué)習(xí)在NER任務(wù)上的優(yōu)勢(shì)
11.2 分布式表示
11.3 上下文編碼
11.3.1 CNN
11.3.2 循環(huán)神經(jīng)網(wǎng)絡(luò) RNN
11.3.3 遞歸神經(jīng)網(wǎng)絡(luò)
11.3.4 Transformer
11.3.5 神經(jīng)語(yǔ)言模型
11.4 標(biāo)簽解碼
12. 其他研究方向的NER方法
13. NER任務(wù)的挑戰(zhàn)與機(jī)遇
13.1 面臨的挑戰(zhàn)
13.2 機(jī)遇與未來(lái)可研究方向
全文簡(jiǎn)介
從摘要中可以看出全文的介紹路線分為五部分,具體為:
1.?NER 任務(wù)的常用標(biāo)注語(yǔ)料
2.?現(xiàn)成的 NER 工具
3. 三個(gè)角度介紹現(xiàn)有研究工作:分布式嵌入表示,文本編碼,標(biāo)簽解碼;
4.?其他研究方向的深度學(xué)習(xí)方法做 NER
5.?NER 面臨的挑戰(zhàn)與機(jī)遇
NER簡(jiǎn)介
NER 的研究意義這里不多加贅述,任何一篇 NER 相關(guān)的論文在引言中都會(huì)有所介紹。
一句話總結(jié)該任務(wù):命名實(shí)體識(shí)別(Named Entity Recognition, NER)是指從自由文本中識(shí)別出屬于預(yù)定義類別的文本片段。
NER 任務(wù)最早由第六屆語(yǔ)義理解會(huì)議(Message Understanding Conference)提出,當(dāng)時(shí)僅定義一些通用實(shí)體類別,如地點(diǎn)、機(jī)構(gòu)、人物等。目前命名實(shí)體識(shí)別任務(wù)已經(jīng)深入各種垂直領(lǐng)域,如醫(yī)療、金融等。在該論文中將實(shí)體歸為兩類:generic(通用類)和 domain-specific(特定領(lǐng)域類)。
NER標(biāo)注語(yǔ)料庫(kù)(公開(kāi)評(píng)測(cè)集)
論文對(duì)現(xiàn)有公開(kāi)評(píng)測(cè)任務(wù)使用的 NER 語(yǔ)料庫(kù)進(jìn)行了匯總,包括鏈接地址、類別個(gè)數(shù)以及語(yǔ)料類型。如下圖所示:
此外,論文也給出了評(píng)測(cè)集對(duì)應(yīng)的 SOTA 模型及其性能表現(xiàn),這個(gè)感覺(jué)很好。這里也推薦一個(gè) SOTA 模型倉(cāng)庫(kù) paperswithcode,里面收錄了 SOTA 模型源碼以及論文介紹,感覺(jué)還是不錯(cuò)。
link: https://paperswithcode.com/
OFF-THE-SHELF NER工具
論文對(duì)學(xué)術(shù)界和工業(yè)界一些 NER 工具進(jìn)行匯總,工具中通常都包含預(yù)訓(xùn)練模型,可以直接在自己的語(yǔ)料上做實(shí)體識(shí)別。不過(guò)一般研究使用的話(所定義實(shí)體類別與工具預(yù)定的不符),還需要依據(jù)待抽取領(lǐng)域語(yǔ)料再訓(xùn)練模型,或重新訓(xùn)練模型。
評(píng)價(jià)指標(biāo) (Evaluation Metric)
論文將 NER 評(píng)測(cè)指標(biāo) P R F1 分為了兩類介紹,這也是比賽和論文中通用評(píng)測(cè)方式:
1. Exact-match嚴(yán)格匹配,范圍與類別都正確。其中 F1 值又可以分為 macro-averaged 和 micro-averaged,前者是按照不同實(shí)體類別計(jì)算 F1,然后取平均;后者是把所有識(shí)別結(jié)果合在一起,再計(jì)算 F1。這兩者的區(qū)別在于實(shí)體類別數(shù)目不均衡,因?yàn)橥ǔUZ(yǔ)料集中類別數(shù)量分布不均衡,模型往往對(duì)于大類別的實(shí)體學(xué)習(xí)較好。
2. relaxed match?寬松匹配,簡(jiǎn)言之,可視為實(shí)體位置區(qū)間部分重疊,或位置正確類別錯(cuò)誤的,都記為正確或按照匹配的位置區(qū)間大小評(píng)測(cè)。
序列標(biāo)注標(biāo)簽方案
1.?BIO
2.?BIOES
基本都逃不脫這兩種,B 開(kāi)始位置、I 中間位置、O 其他類別、S 單字表示一個(gè)實(shí)體。
句子:西南交通大學(xué)位于成都。預(yù)定義實(shí)體類別:學(xué)校、地點(diǎn)。上述句子按照BIOES方案標(biāo)簽:B-學(xué)校 I-學(xué)校 I-學(xué)校 I-學(xué)校 I-學(xué)校 E-學(xué)校 O O B-地點(diǎn) E-地點(diǎn)
四類常用NER方法
1. 規(guī)則模板,不需要標(biāo)注數(shù)據(jù),依賴于人工規(guī)則;
2. 無(wú)監(jiān)督學(xué)習(xí)方法,不需要標(biāo)注數(shù)據(jù),依賴于無(wú)監(jiān)督學(xué)習(xí)算法;
3. 基于特征的有監(jiān)督學(xué)習(xí)算法,依賴于特征工程;
4. 深度學(xué)習(xí)方法。
論文簡(jiǎn)要地介紹了前三種方法,著重地介紹第四種方法。如果要看前三種方法的綜述可以去看 Nadeau and Sekine 07 年的綜述 A survey of named entity recognition and classification,13 年 Marrero 綜述 Named entity recognition: fallacies, challenges and opportunities,15 年 Potey 綜述 Approaches to named entity recognition: a survey。
18年出的一篇綜述比較有意思,主題是復(fù)雜實(shí)體識(shí)別,也就是重疊實(shí)體或者非連續(xù)性實(shí)體。最近對(duì)此進(jìn)行了一些研究,先挖個(gè)坑,后續(xù)整理一下工作,再做分享。
論文標(biāo)題:Recognizing complex entity mentions: A review and future directions
論文鏈接:https://www.aclweb.org/anthology/P18-3006/
還有兩篇 18 年較新的綜述,A survey on recent advances in named entity recognition from deep learning models 和 Recent named entity recognition and classification techniques: A systematic review。
ps: 偷懶!這里就不給出論文的鏈接了。
對(duì)于論文中出現(xiàn)的兩個(gè)名詞 coarse-grained entity 和 fine-grained entity,存在一些疑問(wèn)。論文中對(duì)于兩者的定義為:粗粒度實(shí)體 coarse-grained entity 一個(gè)實(shí)體一個(gè)類別;細(xì)粒度實(shí)體 fine-grained entity 一個(gè)實(shí)體多個(gè)類別。
對(duì)于這樣的分類,感到有些迷惑。細(xì)粒度實(shí)體在我的理解應(yīng)該是指預(yù)定義實(shí)體類別是具有層級(jí),如一級(jí)類別人、動(dòng)物、地點(diǎn),動(dòng)物又分為了貓、狗、鳥(niǎo)等。也有可能是我理解不到位。這里貼出原文,歡迎討論。
Note that the task focuses on a small set of coarse entity types and one type per named entity. We call this kind of NER tasks as coarse-grained NER [10], [11]. Recently, some fine-grained NER tasks [29]–[33] focus on a much larger set of entity types where a mention may be assigned multiple fine-grained types.
基于規(guī)則方法
1. 特定領(lǐng)域詞典,其中還包括同義林詞典;
2. 句法詞匯模板;
3. 正則表達(dá)式;
論文列出了一些基于規(guī)則的 NER 系統(tǒng):LaSIE-II, NetOwl, Facile, SAR, FASTUS, and LTG。總的來(lái)說(shuō),當(dāng)詞匯表足夠大時(shí),基于規(guī)則的方法能夠取得不錯(cuò)效果。但總結(jié)規(guī)則模板花費(fèi)大量時(shí)間,且詞匯表規(guī)模小,且實(shí)體識(shí)別結(jié)果普遍高精度、低召回。
無(wú)監(jiān)督學(xué)習(xí)方法
主要是基于聚類的方法,根據(jù)文本相似度得到不同的簇,表示不同的實(shí)體類別組。常用到的特征或者輔助信息有詞匯資源、語(yǔ)料統(tǒng)計(jì)信息(TF-IDF)、淺層語(yǔ)義信息(分塊NP-chunking)等。
基于特征的有監(jiān)督學(xué)習(xí)(傳統(tǒng)機(jī)器學(xué)習(xí))
NER 任務(wù)可以是看作是 token 級(jí)別的多分類任務(wù)或序列標(biāo)注任務(wù),深度學(xué)習(xí)方法也是依據(jù)這兩個(gè)任務(wù)建模。
特征工程:word 級(jí)別特征(詞法特征、詞性標(biāo)注等),詞匯特征(維基百科、DBpdia 知識(shí)),文檔及語(yǔ)料級(jí)別特征。
機(jī)器學(xué)習(xí)算法:隱馬爾可夫模型 HMM、決策樹(shù) DT、最大熵模型 MEM、最大熵馬爾科夫模型 HEMM、支持向量機(jī) SVM、條件隨機(jī)場(chǎng) CRF。
深度學(xué)習(xí)方法
終于進(jìn)入正題,下文將按照以下四點(diǎn),詳細(xì)介紹基于深度學(xué)習(xí)的 NER 方法。
1.?深度學(xué)習(xí)優(yōu)勢(shì)
2.?分布式表示
3.?上下文編碼結(jié)構(gòu)
4.?標(biāo)簽解碼結(jié)構(gòu)
11.1 深度學(xué)習(xí)優(yōu)勢(shì)
不能算深度學(xué)習(xí)做 NER 的優(yōu)勢(shì),深度學(xué)習(xí)解決其他問(wèn)題也是這些亮點(diǎn)。
1. 強(qiáng)大的向量表示能力;
2. 神經(jīng)網(wǎng)絡(luò)的強(qiáng)大計(jì)算能力;
3. DL 從輸入到輸出的非線性映射能力;
4. DL 無(wú)需復(fù)雜的特征工程,能夠?qū)W習(xí)高維潛在語(yǔ)義信息;
5. 端到端的訓(xùn)練方式。
11.2 分布式表示
1. 詞級(jí)別表示word-level representation
首先 Mikolov 提出的 word2vec(兩種框架 CBOW 和 skip-gram),斯坦福的 Glove,Facebook 的 fasttext 和 SENNA。使用這幾種詞嵌入方式,一些研究工作使用不同語(yǔ)料進(jìn)行訓(xùn)練,如生物醫(yī)學(xué)領(lǐng)域PubMed、NYT 之類。
2. 字符級(jí)別表示 character-level representation
字符級(jí)別通常是指英文或者是其他具備自然分隔符語(yǔ)種的拆開(kāi)嵌入,在中文中指字級(jí)別嵌入,字符嵌入主要可以降低 OOV 率。文中給出了兩種常用的字符級(jí)別嵌入方式,分別為 CNN、RNN。
著重提一下 18 年 COLING 的一項(xiàng)工作《Contextual String Embeddings for Sequence Labeling》,使用字符級(jí)別的神經(jīng)語(yǔ)言模型產(chǎn)生上下文相關(guān)的文本嵌入。大致思路為使用雙向RNN編碼字符級(jí)別嵌入,將一個(gè)詞的前向和后向隱層狀態(tài)與詞嵌入拼接作為最終詞嵌入向量,如下圖所示。Github 上也開(kāi)源了源碼庫(kù) Flair:
https://github.com/flairNLP/flairgithub.com
3. 混合信息表示 hybrid representation
除了詞級(jí)別表示、字符級(jí)別表示外,一些研究工作還嵌入了其他一些語(yǔ)義信息,如詞匯相似 度、詞性標(biāo)注、分塊、語(yǔ)義依賴、漢字偏旁、漢字拼音等。此外,還有一些研究從多模態(tài)學(xué)習(xí)出發(fā),通過(guò)模態(tài)注意力機(jī)制嵌入視覺(jué)特征。論文也將 BERT 歸為這一類,將位置嵌入、token 嵌入和段嵌入看作是混合信息表示。
11.3 上下文編碼
包括了卷積網(wǎng)絡(luò) CNN、循環(huán)網(wǎng)絡(luò) RNN、遞歸網(wǎng)絡(luò)、Transformer。
11.3.1 CNN
基本框架如下圖所示,句子經(jīng)過(guò) embedding 層,一個(gè) word 被表示為 N 維度的向量,隨后整個(gè)句子表示使用卷積(通常為一維卷積)編碼,進(jìn)而得到每個(gè) word 的局部特征,再使用最大池化操作得到整個(gè)句子的全局特征,可以直接將其送入解碼層輸出標(biāo)簽,也可以將其和局部特征向量一起送入解碼層。
其他一些研究者,開(kāi)始考慮使用 BiLSTM-CNN 的網(wǎng)絡(luò)結(jié)構(gòu),隨之而來(lái)的還有 ID-CNNs 迭代膨脹卷積(個(gè)人認(rèn)為類似多層 N-Gram 語(yǔ)言模型)等。
11.3.2 循環(huán)神經(jīng)網(wǎng)絡(luò) RNN
常用的循環(huán)神經(jīng)網(wǎng)絡(luò)包括 LSTM 和 GRU,在 NLP 中常使用雙向網(wǎng)絡(luò) BiRNN,從左到右和從右到左兩個(gè)方向提取問(wèn)題特征。
補(bǔ)充一個(gè)文中沒(méi)有的網(wǎng)絡(luò)結(jié)構(gòu) ConvLSTM,CNN 與 RNN 更好的結(jié)合方式,只不過(guò)需要將樣本重構(gòu)。
11.3.3 遞歸神經(jīng)網(wǎng)絡(luò) Recursive Neural Networks
遞歸神經(jīng)網(wǎng)絡(luò)相較循環(huán)神經(jīng)網(wǎng)絡(luò),最大區(qū)別是具有樹(shù)狀階層結(jié)構(gòu)。循環(huán)神經(jīng)網(wǎng)絡(luò)一個(gè)很好的特性是通過(guò)神經(jīng)元循環(huán)結(jié)構(gòu)處理變長(zhǎng)序列,而對(duì)于具有樹(shù)狀或圖結(jié)構(gòu)的數(shù)據(jù)很難建模(如語(yǔ)法解析樹(shù))。還有一點(diǎn)特別在于其訓(xùn)練算法不同于常規(guī)的后向傳播算法,而是采用 BPTS (Back Propagation Through Structure)。
雖然遞歸神經(jīng)網(wǎng)絡(luò)理論上感覺(jué)效果不錯(cuò),但實(shí)際應(yīng)用中效果一般,并且很難訓(xùn)練。相較之下 treeLSTM 近些年的研究經(jīng)常被提及,在關(guān)系抽取以及其他任務(wù)上有不少應(yīng)用。
11.3.4 Transformer
Google 的一篇《Attention is all you need》將注意力機(jī)制推上新的浪潮之巔,于此同時(shí) transformer 這一不依賴于 CNN、RNN 結(jié)構(gòu),純堆疊自注意力、點(diǎn)積與前饋神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)也被大家所熟知。此后的研究證明,transformer 在長(zhǎng)距離文本依賴上相較 RNN 有更好的效果。
11.3.5 神經(jīng)語(yǔ)言模型
語(yǔ)言模型是在做一件事:判斷語(yǔ)言是否合理?
發(fā)展歷史:專家語(yǔ)法規(guī)則模型-->統(tǒng)計(jì)語(yǔ)言模型-->神經(jīng)語(yǔ)言模型(具體的介紹可以自行搜索,網(wǎng)上資源挺多)。
著重提一下現(xiàn)有的神經(jīng)語(yǔ)言模型:
1.?word2vec
2.?Glove
3.?fasttext
4.?ELMO
5.?BERT
6.?GPT
7.?GPT2
8.?XLNET
9.?ALBERT
10. RoBERTa
持續(xù)挖坑...... 準(zhǔn)備 github 上維護(hù)一個(gè)預(yù)訓(xùn)練語(yǔ)言模型權(quán)重下載地址的倉(cāng)庫(kù),希望趕緊填平它。
https://github.com/cloudXia777/Pretrained-Model
11.4?解碼層
1.?MLP+softmax
2.?CRF
3.?RNN
4.?Pointer Network
對(duì)于 1、2 應(yīng)該沒(méi)什么要說(shuō)的常規(guī)操作,著重看一下 3 和 4。使用 RNN 解碼,框架圖如下所示。文中所述當(dāng)前輸出(并非隱藏層輸出)經(jīng)過(guò) softmax 損失函數(shù)后輸入至下一時(shí)刻 LSTM 單元,所以這是一個(gè)局部歸一化模型。
DEEP ACTIVE LEARNING FOR NAMED ENTITY RECOGNITION:
Since this is a locally normalized model (Andor et al., 2016), it does not require the costly computation of partition function, and it allows us to significantly speed up training compared to using CRFs.
使用指針網(wǎng)絡(luò)解碼,是將 NER 任務(wù)當(dāng)作先識(shí)別“塊”即實(shí)體范圍,然后再對(duì)其進(jìn)行分類。指針網(wǎng)絡(luò)通常是在 Seq2seq 框架中,如下圖所示。
其他研究方向的NER方法
下面列出各類研究方向的 NER 方法,若想細(xì)致了解每個(gè)方向的文獻(xiàn),請(qǐng)移步原文。
1.?多任務(wù)學(xué)習(xí) Multi-task Learning
2.?深度遷移學(xué)習(xí) Deep Transfer Learning
3.?深度主動(dòng)學(xué)習(xí) Deep Active Learning
4.?深度強(qiáng)化學(xué)習(xí) Deep Reinforcement Learning
5.?深度對(duì)抗學(xué)習(xí) Deep Adversarial Learning
6.?注意力機(jī)制 Neural Attention
NER任務(wù)的挑戰(zhàn)與機(jī)遇
13.1 挑戰(zhàn)
1.?數(shù)據(jù)標(biāo)注
2. 非正式文本(評(píng)論、論壇發(fā)言、tweets 或朋友圈狀態(tài)等),未出現(xiàn)過(guò)的實(shí)體。
13.2 機(jī)遇與未來(lái)可研究方向
1.?多類別實(shí)體
2.?嵌套實(shí)體
3.?實(shí)體識(shí)別與實(shí)體鏈接聯(lián)合任務(wù)
4.?利用輔助資源進(jìn)行基于深度學(xué)習(xí)的非正式文本 NER(補(bǔ)充一點(diǎn),知識(shí)圖譜方向)
5.?NER模型壓縮
6.?深度遷移學(xué)習(xí) for NER
總結(jié)一句,NER 的現(xiàn)有研究較為豐富,想要再開(kāi)花,選好問(wèn)題切入點(diǎn)是關(guān)鍵。
?
點(diǎn)擊以下標(biāo)題查看更多往期內(nèi)容:?
詞嵌入新鮮事:COVID-19特刊
淺談嵌套命名實(shí)體識(shí)別(Nested NER)
生物醫(yī)學(xué)命名實(shí)體識(shí)別(BioNER)最全論文清單
NLP中的Mask全解
BERT在小米NLP業(yè)務(wù)中的實(shí)戰(zhàn)探索
從EMD、WMD到WRD:文本向量序列的相似度計(jì)算
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。
總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來(lái)。
?????來(lái)稿標(biāo)準(zhǔn):
? 稿件確系個(gè)人原創(chuàng)作品,來(lái)稿需注明作者個(gè)人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?
? 如果文章并非首發(fā),請(qǐng)?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認(rèn)每篇文章都是首發(fā),均會(huì)添加“原創(chuàng)”標(biāo)志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請(qǐng)單獨(dú)在附件中發(fā)送?
? 請(qǐng)留下即時(shí)聯(lián)系方式(微信或手機(jī)),以便我們?cè)诰庉嫲l(fā)布時(shí)和作者溝通
????
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁(yè)搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結(jié)
以上是生活随笔為你收集整理的超详综述 | 基于深度学习的命名实体识别的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: Word Embedding News
- 下一篇: 工程之道,深度学习推理性能业界最佳优化实