當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文学习20-End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF（序列标注，2016ACL

發布時間：2024/7/5 编程问答 67 豆豆

生活随笔收集整理的這篇文章主要介紹了论文学习20-End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF（序列标注，2016ACL 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

abstract
1.introduction
2.Architecture
- 2.1 CNN for Character-level Representation
- 2.2 BiLSTM
- - 2.2.1 LSTM單元
  - 2.2.2BiLSTM
- 2.3CRF
- 2.4BiLSTM-CNNs-CRF
3.訓練

Ma, X. and E. Hovy “End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF.”

abstract

最先進的序列標記系統傳統上需要大量的手工特征和數據預處理的特定任務的知識。在這篇論文中，我們介紹了一種新的中立網絡架構，它利用雙向LSTM、CNN和CRF的組合，自動地從字級和字級表示中獲益。我們的系統是真正的端到端的，不需要特征工程或數據預處理，因此適用于廣泛的序列標記任務。我們用兩個數據集來評估我們的系統，這兩個數據集分別用于兩個序列標記任務:Penn Treebank WSJ詞性標記語料庫(POS)和CoNLL 2003命名實體識別語料庫(NER)。我們獲得了最先進的性能，這兩個數據集的準確性為97.55%的POS標簽和91.21%的F1為NER。

利用雙向LSTM、CNN和CRF的組合，自動地從字級和字級表示中獲益
端到端，無需特征工程或數據預處理

1.introduction

摘要語言序列標記是語言深層理解的第一個階段，如詞性標記和命名實體識別，其重要性已被自然語言處理界所認識。自然語言處理(NLP)系統，如句法分析(Nivre and Scholz, 2004;McDonald等人，2005;辜朝明和柯林斯出版社，2010年;馬和趙，2012a;馬和趙，2012b;陳和曼寧，2014;(Ma and Hovy, 2015)和實體共引用解析(Ng, 2010;Ma et al.， 2016)，正變得越來越復雜，部分原因是利用POS標記或NER系統的輸出信息。
大多數傳統高性能序列標簽模型是線性統計模型,包括隱馬爾科夫模型(HMM)和條件隨機域(CRF) (Ratinov和羅斯,2009;Passos et al ., 2014;羅et al ., 2015),嚴重依賴于手工特性和taskspecific資源。例如,英語POS涂畫者受益于精心設計的單詞拼寫功能;正字法的特性和外部資源等地名表廣泛應用于ner。然而,這樣的特定于任務的知識是昂貴的開發(馬和夏,2014),使序列標簽模型難以適應新的任務或新領域。

傳統：HMM,CRF,手工特征代價昂貴

近年來，以分布式詞表示為輸入的非線性神經網絡(又稱詞嵌入)被廣泛地應用于NLP問題，并取得了很大的成功。Collobert等人(2011)提出了一種簡單而有效的前饋中性網絡，通過在固定大小的窗口內使用上下文獨立地對每個單詞的標簽進行分類。最近，循環神經網絡(RNN) (Goller and Kuchler, 1996)及其變體，如長短時記憶(LSTM) (Hochreiter and Schmidhuber, 1997;Gers等人(2000)和門控遞歸單元(GRU) (Cho等人，2014)在序列數據建模方面取得了巨大成功。針對語音識別(Graves et al.， 2013)、詞性標注(Huang et al.， 2015)和NER (Chiu and Nichols, 2015)等序列標記任務，提出了幾種基于rnn的神經網絡模型;(Hu et al.， 2016)，實現與傳統模式的競爭績效。然而，即使是使用分布式表示作為輸入的系統，也會使用它們來增強而不是取代手工制作的功能(例如單詞拼寫和大小寫模式)。當模型僅僅依賴于神經嵌入時，它們的性能會迅速下降。

目前都是用nn來增強手工特征，而非取代。
僅依靠nn，性能會迅速下降。

本文提出了一種用于序列標記的神經網絡結構**它是一個真正的端到端的模型，不需要特定于任務的資源、功能工程或數據預處理，只需要在未標記的語料庫上預先訓練好的詞嵌入即可。因此，我們的模型可以很容易地應用于不同語言和領域的序列標記任務。我們首先使用卷積神經網絡(convolutional neural networks, CNNs) (LeCun et al.， 1989)將一個單詞的字符級信息編碼到它的字符級表示中。然后，我們將字符級和字級表示相結合，并將它們輸入到雙向LSTM (BLSTM)中，以對每個單詞的上下文信息進行建模。在BLSTM之上，我們使用一個連續的CRF來聯合解碼整個句子的標簽。**我們在Penn Treebank的兩個語言序列標記任務上對我們的模型進行了評估(Marcus et al.， 1993)，和NER對CoNLL 2003共享任務的英語數據進行了評估(Tjong Kim Sang和De Meulder, 2003)。我們的端到端模型優于之前的先進系統，POS標簽的準確率為97.55%，NER標簽的準確率為91.21%。本工作的貢獻在于(i)提出了一種用于語言序列標記的新型神經網絡結構。(ii)對兩個經典NLP任務的基準數據集對該模型進行實證評價。(iii)采用真正的端到端系統，達到最先進的性能。

它是一個真正的端到端的模型，不需要特定于任務的資源、功能工程或數據預處理，只需要在未標記的語料庫上預先訓練好的詞嵌入即可。因此，我們的模型可以很容易地應用于不同語言和領域的序列標記任務。
我們首先使用卷積神經網絡(convolutional neural networks, CNNs) (LeCun et al.， 1989)將一個單詞的字符級信息編碼到它的字符級表示中。
然后，我們將字符級和字級表示相結合，并將它們輸入到雙向LSTM (BiLSTM)中，以對每個單詞的上下文信息進行建模。
在BiLSTM之上，我們使用一個連續的CRF來聯合解碼整個句子的標簽。

2.Architecture

CNN+BiLSTM+CRF

2.1 CNN for Character-level Representation

(Santos和Zadrozny, 2014;Chiu和Nichols, 2015)的研究表明，CNN是一種從單詞字符中提取形態學信息(如單詞的前綴或后綴)并將其編碼成神經表征的有效方法。圖1顯示了我們用來提取給定單詞的字符級表示的CNN。CNN與Chiu和Nichols(2015)的CNN類似，只是我們只使用字符嵌入作為CNN的輸入，沒有字符類型特征。在向CNN輸入字符嵌入之前應用一個dropout層(Srivastava et al.， 2014)。

CNN
- 輸入：字符嵌入
- dropout層(CNN之前）

2.2 BiLSTM

2.2.1 LSTM單元

2.2.2BiLSTM

對于許多序列標記任務，同時訪問過去(左)和未來(右)上下文是有益的。然而，LSTM的隱藏狀態ht只從過去獲取信息，對未來一無所知。一個優雅的解決方案是雙向LSTM (BLSTM)，它的有效性已經被以前的工作所證明(Dyer et al.， 2015)?；舅枷胧菍⒚總€序列向前和向后呈現為兩個獨立的隱藏狀態，分別捕獲過去和未來的信息。然后將這兩個隱藏狀態連接起來，形成最終的輸出。

雙向鏈接起來就行。

2.3CRF

對于序列標記(或一般的結構化預測)任務，考慮鄰域內標簽之間的相關性，共同解碼給定輸入語句的最佳標簽鏈是有益的。例如，在詞性標注中，形容詞后面緊跟名詞的可能性比動詞大，而在帶有標準BIO2注釋的NER中(Tjong Kim Sang和Veenstra, 1999)， I-ORG不能跟I-PER。因此，我們聯合使用條件隨機域(CRF)對標簽序列進行建模(Lafferty et al.， 2001)，而不是單獨對每個標簽進行解碼。

可以進行約束。
用貪婪的維特比解碼

2.4BiLSTM-CNNs-CRF

3.訓練

word-embedding:tanford’s publicly available GloVe 100-dimensional embeddings
- glove

總結

以上是生活随笔為你收集整理的论文学习20-End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF（序列标注，2016ACL的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。