ACL 2021 | 复旦大学邱锡鹏组:面向不同NER子任务的统一生成框架
?作者?|?劉興賢
學校?|?北京郵電大學碩士生
研究方向?|?自然語言處理
論文題目:
A Unified Generative Framework for Various NER Subtasks
論文地址:
https://arxiv.org/abs/2106.01223
代碼repo:
https://github.com/yhcc/BARTNER
該論文被收錄于 ACL 2021 主會,作者是來自復旦大學的邱錫鵬老師組。
先插句題外話,本文的圖示是我最近看過的文章里表意最明確的一篇,幾乎只看圖就能了解文章表達的意思。
Main Idea
圖 abc 分別展示了 NER 的 flat NER(簡單、扁平實體抽取)、nested NER(嵌套實體抽取)、discontinuous NER(不連續實體抽取)三種不同的子任務。
而對于這樣復雜的子任務,無法使用傳統的標記方法將其納入同一個框架。因此,本文使用了指針方式,使用將標注任務轉化為一個序列生成任務(本文的主要貢獻也正在這里),并使用了 seq2seq 的范式來進行生成,生成過程使用了預訓練模型 BART,這是一個利用從被破壞掉的文本中還原文本的任務作為預訓練目標的模型。
Abstract
命名實體識別(NER)是識別代表句子中實體的跨度的任務。無論實體跨度是嵌套的還是不連續的,NER 任務都可以分為 Flat NER、嵌套 NER 和不連續 NER 子任務。這些子任務主要通過令牌級序列標記或跨度級分類來解決。然而,這些解決方案很難同時處理三種 NER 子任務。
為此,我們提出將 NER 子任務描述為實體跨序列生成任務,該任務可以通過一個統一的序列到序列(Seq2Seq)框架來解決?;谖覀兊慕y一框架,我們可以利用預先訓練的 Seq2Seq 模型來解決所有三種類型的 NER 子任務,而不需要特別設計標記模式或枚舉跨度的方法。
我們利用三種類型的實體表示將實體線性化為序列。我們提出的框架易于實現,并在 8 個英語 NER 數據集上實現了 SOTA 或接近 SOTA 的性能,包括兩個 flat NER 數據集、三個嵌套 NER 數據集和三個不連續 NER 數據集。
Contribution
本文提出了一種統一的生成式的框架來解決 flat NER、nested NER、discontinuous NER 三種不同的子任務。
將預訓練的 seq2seq 模型 BART 融入框架,并利用三種實體表示將實體線性化為一個序列,對探索 BART 在實體序列生成中的應用提供了一定的參考價值。
避免了復雜的標記,而是使用指針方式進行標記,并在 8 個英文數據集上達到或接近 SOTA。
Method
這個圖還是很容易看明白的(這張圖畫的真好看hhh)。
輸入是句子 token,然后得到 token embedding 以及 position embedding,然后喂給一個 BART Encoder,將 encode 出的隱層狀態過一個 MLP 與 token 單純的 token embedding 做加權。
本文將 token 與 tag 的序號分開,上面是 token 部分,而 tag 部分也簡單的得到其tag embedding(與 token 部分使用同一套參數)。
分別得到 token 與 tag的表示后,與 decoder 的當前隱層狀態做點積,然后 concat,過一個 softmax 層得到最終所有 token 以及 tag 的分布。
使用該分布進行生成,得到 token 或者 tag 的序列,并將其解析成抽取出的實體及類型(解析方法如下圖所示)。
最終使用負對數似然函數來作為損失函數,更新參數。
BART 訓練過程中使用了 BPE(用不在句子中出現過的 token 代替頻繁出現的 token 序列)。
此外,本文測試了三種基于指針的定位原始句子中實體的方法:
Span:實體每個起始點與結束點,若不連續則連著寫
BPE:所有的Token位置
Word:只記錄開始位置
Experiment
▲ 針對flat NER的實驗結果
▲ 針對nested NER的實驗結果
▲ 針對discontinuous NER的實驗結果
▲?總體實驗結果
此外,本文還研究了實體在句子中出現的順序與召回率的關系。
可以看到,在 flat NER 與 discontinuous NER 中,召回率都明顯的隨著位置出現的靠后而增加,但嵌套 NER 的情況明顯比較復雜。
原因其實可以想見,后一位置中的實體可以是包含前一實體的更復雜的實體。對前一實體的錯誤預測可能會對后一實體產生負面影響。
▲ 實體在句子中出現的位置順序與召回率的關系
Conclusion
本文將 NER 子任務描述為一個實體生成序列生成問題,從而可以使用統一的 Seq2Seq 模型和指針機制來處理扁平的、嵌套的和不連續的 NER 子任務。Seq2Seq 方式使得能夠順利地整合訓練前的 Seq2Seq 模型 BART,以提高性能。
為了更好地利用 BART,本文測試了三種類型的實體表示方法,以將實體跨度線性化為序列。結果表明,長度更短、更接近連續 BPE 序列的實體表示具有更好的性能。本文提出的方法在 8 個不同的 NER 數據集上都達到了 SOTA 或接近 SOTA 的性能,證明了它對各種 NER 子任務的通用性。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
?????稿件基本要求:
? 文章確系個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題
? PaperWeekly 尊重原作者署名權,并將為每篇被采納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
?????投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時聯系方式(微信),以便我們在稿件選用的第一時間聯系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的ACL 2021 | 复旦大学邱锡鹏组:面向不同NER子任务的统一生成框架的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 厨房能用聚脲美缝吗,哪个牌子好?
- 下一篇: 青岛胶东机场做大巴大约多长时间能到李村东