日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文学习20-End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF(序列标注,2016ACL

發(fā)布時間:2024/7/5 编程问答 58 豆豆
生活随笔 收集整理的這篇文章主要介紹了 论文学习20-End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF(序列标注,2016ACL 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

文章目錄

  • abstract
  • 1.introduction
  • 2.Architecture
    • 2.1 CNN for Character-level Representation
    • 2.2 BiLSTM
      • 2.2.1 LSTM單元
      • 2.2.2BiLSTM
    • 2.3CRF
    • 2.4BiLSTM-CNNs-CRF
  • 3.訓(xùn)練

Ma, X. and E. Hovy “End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF.”

abstract

最先進(jìn)的序列標(biāo)記系統(tǒng)傳統(tǒng)上需要大量的手工特征和數(shù)據(jù)預(yù)處理的特定任務(wù)的知識。在這篇論文中,我們介紹了一種新的中立網(wǎng)絡(luò)架構(gòu),它利用雙向LSTM、CNN和CRF的組合,自動地從字級和字級表示中獲益。我們的系統(tǒng)是真正的端到端的,不需要特征工程或數(shù)據(jù)預(yù)處理,因此適用于廣泛的序列標(biāo)記任務(wù)。我們用兩個數(shù)據(jù)集來評估我們的系統(tǒng),這兩個數(shù)據(jù)集分別用于兩個序列標(biāo)記任務(wù):Penn Treebank WSJ詞性標(biāo)記語料庫(POS)和CoNLL 2003命名實體識別語料庫(NER)。我們獲得了最先進(jìn)的性能,這兩個數(shù)據(jù)集的準(zhǔn)確性為97.55%的POS標(biāo)簽和91.21%的F1為NER。

  • 利用雙向LSTM、CNN和CRF的組合,自動地從字級和字級表示中獲益
  • 端到端,無需特征工程或數(shù)據(jù)預(yù)處理

1.introduction

摘要語言序列標(biāo)記是語言深層理解的第一個階段,如詞性標(biāo)記和命名實體識別,其重要性已被自然語言處理界所認(rèn)識。自然語言處理(NLP)系統(tǒng),如句法分析(Nivre and Scholz, 2004;McDonald等人,2005;辜朝明和柯林斯出版社,2010年;馬和趙,2012a;馬和趙,2012b;陳和曼寧,2014;(Ma and Hovy, 2015)和實體共引用解析(Ng, 2010;Ma et al., 2016),正變得越來越復(fù)雜,部分原因是利用POS標(biāo)記或NER系統(tǒng)的輸出信息。
大多數(shù)傳統(tǒng)高性能序列標(biāo)簽?zāi)P褪蔷€性統(tǒng)計模型,包括隱馬爾科夫模型(HMM)和條件隨機域(CRF) (Ratinov和羅斯,2009;Passos et al ., 2014;羅et al ., 2015),嚴(yán)重依賴于手工特性和taskspecific資源。例如,英語POS涂畫者受益于精心設(shè)計的單詞拼寫功能;正字法的特性和外部資源等地名表廣泛應(yīng)用于ner。然而,這樣的特定于任務(wù)的知識是昂貴的開發(fā)(馬和夏,2014),使序列標(biāo)簽?zāi)P碗y以適應(yīng)新的任務(wù)或新領(lǐng)域。

  • 傳統(tǒng):HMM,CRF,手工特征代價昂貴

近年來,以分布式詞表示為輸入的非線性神經(jīng)網(wǎng)絡(luò)(又稱詞嵌入)被廣泛地應(yīng)用于NLP問題,并取得了很大的成功。Collobert等人(2011)提出了一種簡單而有效的前饋中性網(wǎng)絡(luò),通過在固定大小的窗口內(nèi)使用上下文獨立地對每個單詞的標(biāo)簽進(jìn)行分類。最近,循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN) (Goller and Kuchler, 1996)及其變體,如長短時記憶(LSTM) (Hochreiter and Schmidhuber, 1997;Gers等人(2000)和門控遞歸單元(GRU) (Cho等人,2014)在序列數(shù)據(jù)建模方面取得了巨大成功。針對語音識別(Graves et al., 2013)、詞性標(biāo)注(Huang et al., 2015)和NER (Chiu and Nichols, 2015)等序列標(biāo)記任務(wù),提出了幾種基于rnn的神經(jīng)網(wǎng)絡(luò)模型;(Hu et al., 2016),實現(xiàn)與傳統(tǒng)模式的競爭績效。然而,即使是使用分布式表示作為輸入的系統(tǒng),也會使用它們來增強而不是取代手工制作的功能(例如單詞拼寫和大小寫模式)。當(dāng)模型僅僅依賴于神經(jīng)嵌入時,它們的性能會迅速下降。

  • 目前都是用nn來增強手工特征,而非取代。
  • 僅依靠nn,性能會迅速下降。

本文提出了一種用于序列標(biāo)記的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)**它是一個真正的端到端的模型,不需要特定于任務(wù)的資源、功能工程或數(shù)據(jù)預(yù)處理,只需要在未標(biāo)記的語料庫上預(yù)先訓(xùn)練好的詞嵌入即可。因此,我們的模型可以很容易地應(yīng)用于不同語言和領(lǐng)域的序列標(biāo)記任務(wù)。我們首先使用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, CNNs) (LeCun et al., 1989)將一個單詞的字符級信息編碼到它的字符級表示中。然后,我們將字符級和字級表示相結(jié)合,并將它們輸入到雙向LSTM (BLSTM)中,以對每個單詞的上下文信息進(jìn)行建模。在BLSTM之上,我們使用一個連續(xù)的CRF來聯(lián)合解碼整個句子的標(biāo)簽。**我們在Penn Treebank的兩個語言序列標(biāo)記任務(wù)上對我們的模型進(jìn)行了評估(Marcus et al., 1993),和NER對CoNLL 2003共享任務(wù)的英語數(shù)據(jù)進(jìn)行了評估(Tjong Kim Sang和De Meulder, 2003)。我們的端到端模型優(yōu)于之前的先進(jìn)系統(tǒng),POS標(biāo)簽的準(zhǔn)確率為97.55%,NER標(biāo)簽的準(zhǔn)確率為91.21%。本工作的貢獻(xiàn)在于(i)提出了一種用于語言序列標(biāo)記的新型神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。(ii)對兩個經(jīng)典NLP任務(wù)的基準(zhǔn)數(shù)據(jù)集對該模型進(jìn)行實證評價。(iii)采用真正的端到端系統(tǒng),達(dá)到最先進(jìn)的性能。

  • 它是一個真正的端到端的模型,不需要特定于任務(wù)的資源、功能工程或數(shù)據(jù)預(yù)處理,只需要在未標(biāo)記的語料庫上預(yù)先訓(xùn)練好的詞嵌入即可。因此,我們的模型可以很容易地應(yīng)用于不同語言和領(lǐng)域的序列標(biāo)記任務(wù)。
  • 我們首先使用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, CNNs) (LeCun et al., 1989)將一個單詞的字符級信息編碼到它的字符級表示中。
  • 然后,我們將字符級和字級表示相結(jié)合,并將它們輸入到雙向LSTM (BiLSTM)中,以對每個單詞的上下文信息進(jìn)行建模。
  • 在BiLSTM之上,我們使用一個連續(xù)的CRF來聯(lián)合解碼整個句子的標(biāo)簽。

2.Architecture

CNN+BiLSTM+CRF

2.1 CNN for Character-level Representation

(Santos和Zadrozny, 2014;Chiu和Nichols, 2015)的研究表明,CNN是一種從單詞字符中提取形態(tài)學(xué)信息(如單詞的前綴或后綴)并將其編碼成神經(jīng)表征的有效方法。圖1顯示了我們用來提取給定單詞的字符級表示的CNN。CNN與Chiu和Nichols(2015)的CNN類似,只是我們只使用字符嵌入作為CNN的輸入,沒有字符類型特征。在向CNN輸入字符嵌入之前應(yīng)用一個dropout層(Srivastava et al., 2014)。

  • CNN
    • 輸入:字符嵌入
    • dropout層(CNN之前)

2.2 BiLSTM

2.2.1 LSTM單元


2.2.2BiLSTM

對于許多序列標(biāo)記任務(wù),同時訪問過去(左)和未來(右)上下文是有益的。然而,LSTM的隱藏狀態(tài)ht只從過去獲取信息,對未來一無所知。一個優(yōu)雅的解決方案是雙向LSTM (BLSTM),它的有效性已經(jīng)被以前的工作所證明(Dyer et al., 2015)。基本思想是將每個序列向前和向后呈現(xiàn)為兩個獨立的隱藏狀態(tài),分別捕獲過去和未來的信息。然后將這兩個隱藏狀態(tài)連接起來,形成最終的輸出。

  • 雙向鏈接起來就行。

2.3CRF

對于序列標(biāo)記(或一般的結(jié)構(gòu)化預(yù)測)任務(wù),考慮鄰域內(nèi)標(biāo)簽之間的相關(guān)性,共同解碼給定輸入語句的最佳標(biāo)簽鏈?zhǔn)怯幸娴摹@?#xff0c;在詞性標(biāo)注中,形容詞后面緊跟名詞的可能性比動詞大,而在帶有標(biāo)準(zhǔn)BIO2注釋的NER中(Tjong Kim Sang和Veenstra, 1999), I-ORG不能跟I-PER。因此,我們聯(lián)合使用條件隨機域(CRF)對標(biāo)簽序列進(jìn)行建模(Lafferty et al., 2001),而不是單獨對每個標(biāo)簽進(jìn)行解碼。

  • 可以進(jìn)行約束。
  • 用貪婪的維特比解碼

2.4BiLSTM-CNNs-CRF

3.訓(xùn)練

  • word-embedding:tanford’s publicly available GloVe 100-dimensional embeddings
    • glove

總結(jié)

以上是生活随笔為你收集整理的论文学习20-End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF(序列标注,2016ACL的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。