中文NER涨点神器!基于多元数据的双流Transformer编码模型
?PaperWeekly 原創 ·?作者?|?寧金忠
學校?|?大連理工大學博士生
研究方向?|?信息抽取
本篇論文發表于 ACL 2021,作者聚焦于中文 NER 任務。近些年來,在模型中引入詞匯信息已經成為提升中文 NER 性能的主流方法。已有的中文 NER 詞增強方式主要通過 lattice 結構在模型中引入詞匯的邊界信息和詞嵌入信息。現如今我們使用的漢字從古老的象形文字演化而來,漢字中包含的偏旁部首等結構可以代表某些含義。因此,本文的作者提出在模型中融合進漢字的結構信息(例如部首等)。
論文標題:
MECT: Multi-Metadata Embedding based Cross-Transformer for Chinese Named Entity Recognition
論文鏈接:
https://aclanthology.org/2021.acl-long.121.pdf
中文詞匯增強回顧
中文 NER 的詞匯增強主要分為兩條路線:
1. Dynamic Architecture:通過動態結構,在模型中注入詞匯信息;
2. Adaptive Embedding:將詞匯信息融合到 Embeding 中。
近些年來各大頂會上的中文 NER 詞匯增強相關論文總結如下(參考博文 [1] ):
其具體實現方法總結為:
▲ 詞增強NER模型簡介
已有的詞增強 NER 模型的性能如下圖所示:
▲ 模型實驗結果(表中LEBERT使用的詞表和預訓練詞向量與其他模型不同,結果在此處僅做參考,詳情見論文)
論文方法介紹
文中作者的主要貢獻為:
在中文 NER 模型中使用了多元數據特征(字特征,詞特征以及漢字的結構特征)。
提出了一種能夠將字特征、詞特征和部首特征結合的雙流(two-stream)模型來提高 MECT 方法的性能。
在多個中文 NER 數據集上的結果說明了模型結果的有效性。
▲ The whole architecture
本文模型的整體架構如上圖所示。模型的輸入為中文原始文本,例如圖中所示的“南京市長江大橋”。模型中采用了模型 FLAT 中類似的 encoder 結構,從而可以將漢字以及詞匯的語義 & 邊界信息整合到模型當中。
▲ FLAT
關于 FLAT,不了解的小伙伴可以通過該帖子 [1] 進行了解。
與 FLAT 中的改進 Transformer encoder 不同的是,本文的作者提出了一種使用 Cross-Transformer 模塊的 two-stream 模型。作者把漢字和包含漢字的詞語看作一個“元(Meta)”,把每個漢字的包含的字根看做另外一個“元”。之后使用與 Transformer 中類似的自注意力機制,作者對兩個“元”中的數據進行雙路的交叉計算相關性,從而實現了多元信息的融合。
另外,作者在兩個“元”的自注意力矩陣中加入一個隨機初始化的注意力矩陣來對多元數據之前注意力值的偏差進行校正。
2.1 使用CNN提取Radical-level特征
漢字是象形文字,其字形和字義具有非常密切的聯系。例如,包含“艸”或者“木”的文字通常和植物有關,包含“疒”的文字通常和疾病有關。因此,作者采用漢字中包含的字根(Structural Components)的嵌入特征來表達漢字的結構信息。作者使用的拆分方法是將漢字拆分成無法拆分的最小字根單位(如下圖所示):
▲ 漢字結構信息
之后作者使用如下圖所示的 CNN 網絡來提取 Radical-level 特征。
作者首先對原始文本中的漢字進行拆字,然后把得到的字根特征輸入到 CNN 特征提取器當中,然后使用最大值池化和全連接網絡得到每個漢字的 Radical-level 特征。
2.2 Cross-Transformer模塊
獲取 Radical-level 特征特征后,作者使用 Cross-Transformer 模塊(如下圖所示)來對融合多元數據。
模型的輸入 通過詞嵌入特征和 Radical-level 嵌入特征的線性映射得到:
其中, 和 分別是 lattice 嵌入特征和 Radical-level 特征, 為單位矩陣,每一個線性映射矩陣 均為可學習參數。之后,作者使用和 FLAT 模型一樣的相位位置編碼來計算 Cross-Transformer 的注意力矩陣:
其中 是 lattice 注意力得分, 表示部首注意力得分, 為可學習參數。 為相對位置編碼,和 FLAT 中原本的相對位置編碼相比,進行了一定的簡化:
2.3 Random Attention & 融合方法
Random Attention 是指在注意力矩陣上加上的一個隨機初始化的參數學習矩陣:
關于模型的融合方法,作者將兩路的注意力值拼接以后經過一個線性映射來多元數據中提取的特征。最后,作者 mask 掉提取的詞部分的特征,將提取的字特征通過 CRF 來進行解碼。
實驗結果展示
3.1 主試驗
作者在四個經典的中文 NER 數據集(Weibo,Resume,MSRA,Ontonotes 4.0)上進行了實驗,并且選取 FLAT 作為 baseline。
結果顯示,相比于 baseline 模型 FLAT,在模型中加入漢字結構特征以后,性能有了一定提升。據觀察,在小規模數據集(例如 weibo)或者多類別數據集(Ontonotes 4.0)上,模型的提升更加顯著。
3.2 Cross-Transformer注意力值可視化
▲ Visualization of cross-attention
從上圖中(a)可以看出,Radical 注意力更關注全局的相關性,而 lattice 注意力更關心漢字和詞匯的相關性。
3.3 Radical特征的影響
▲ Visualization of cross-attention
作者利用 Resume 數據集訓練得到的漢字 radical-level embedding 進行了可視化,發現結構相近或者包含字根相近的字,在 radical-level embedding 空間中的距離就越近。結果如上圖所示。
作者發現引入 radical-level 特征,可是使得一些常見的錯誤得到修正。例如在 Ontonotes 4.0 數據集中,“百分之四十三點二(43.2%)”被標注成了 PER 人名。引入 radical-level 特征后可以對該問題進行校正。
3.4 推理速度
▲ Relative inference speed of each model
由于模型采用了 Transformer 編碼結構,模型具有不錯的推理速度。
3.5 消融實驗
▲ 消融試驗方案
▲ 消融實驗結果
作者設計了三個消融實驗:
實驗 A:把 Radical 特征和 lattice 特征拼接,使用 single-stream 模型。
實驗 B:依然使用 two-stream 模型,但兩個 stream 之間不再交叉計算注意力值。
-RA 實驗:指去掉 random attention 的實驗。
實驗結果顯示,模型中的模塊均有效。
結論
本文提出了一個融入漢字結構特征的 two-stream Transformer 編碼模型——MECT,該模型在多個中文 NER 數據集上均取得了很好的效果。
參考文獻
[1] Li X , ?Yan H , ?Qiu X , et al. FLAT: Chinese NER Using Flat-Lattice Transformer[C]. ACL 2020.
[2] Wu S, Song X, Feng Z. MECT: Multi-Metadata Embedding based Cross-Transformer for Chinese Named Entity Recognition[J]. ACL 2021.
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝?稿件基本要求:
? 文章確系個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題
? PaperWeekly 尊重原作者署名權,并將為每篇被采納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬?投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時聯系方式(微信),以便我們在稿件選用的第一時間聯系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
·
·
總結
以上是生活随笔為你收集整理的中文NER涨点神器!基于多元数据的双流Transformer编码模型的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 6月23日客厅放主柜好不好
- 下一篇: 一块V100运行上千个智能体、数千个环境