當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Paper之ACLEMNLP：2009年~2019年ACL计算语言学协会年会EMNLP自然语言处理的经验方法会议历年最佳论文简介及其解读

發布時間：2025/3/21 编程问答 37 豆豆

生活随笔收集整理的這篇文章主要介紹了 Paper之ACLEMNLP：2009年~2019年ACL计算语言学协会年会EMNLP自然语言处理的经验方法会议历年最佳论文简介及其解读小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Paper之ACL&EMNLP：2009年~2019年ACL計算語言學協會年會&EMNLP自然語言處理會的經驗方法會議歷年最佳論文簡介及其解讀

ACL計算語言學協會年會&EMNLP自然語言處理會的簡介

ACL

EMNLP

歷年經典論文

BERT: Pre-training of Deep Bidirectional Transformers for Language UnderstandingBERT: 語言理解的深層雙向轉換器的預訓練

Semi-Supervised Learning for Neural Machine Translation神經機器翻譯的半監督學習機制

Know What You Don’t Know: Unanswerable Questions for SquAD知道你所不知道的：針對SquAD中不可回答的問題

GLUE: A MULTI-TASK BENCHMARK AND ANALYSIS PLATFORM FOR NATURAL LANGUAGE UNDERSTANDINGGLUE: 一個用于自然語言理解的多任務基準測試和分析平臺

Linguistically-Informed Self-Attention for Semantic Role Labeling用于語義角色標注的基于語言學信息的自我注意力方法

OpenKiwi: An Open Source Framework for Quality EstimationOpenKiwi: 一個用于質量評估的開源框架

Bridging the Gap between Training and Inference for Neural Machine Translation架起一座在基于神經元的機器翻譯訓練和推理之間的橋梁

Do you know that Florence is packed with visitors?Evaluating state-of-the-art models of speaker commitment你知道佛羅倫薩到處都是游客嗎?評估說話者結論確定性的最新模型

相關文章
NLP：自然語言處理技術的簡介、發展歷史、案例應用之詳細攻略
Paper之ACL&EMNLP：2009年~2019年ACL計算語言學協會年會&EMNLP自然語言處理的經驗方法會議歷年最佳論文簡介及其解讀

ACL計算語言學協會年會&EMNLP自然語言處理會的簡介

ACL

? ? ? ?ACL即Annual Meeting of the Association for Computational Linguistics。ACL是計算語言學領域的第一次會議，涉及自然語言計算方法的廣泛研究領域。計算語言學協會(ACL)是主要的國際科學和專業協會，為從事涉及人類語言的計算問題的人們服務，該領域通常被稱為計算語言學或自然語言處理(NLP)。該協會成立于1962年，最初名為機器翻譯和計算語言學協會(AMTCL)， 1968年成為ACL。ACL的活動包括每年夏天舉行年會和贊助由麻省理工學院出版社出版的《計算語言學》雜志;該會議和雜志是該領域的主要出版物。ACL是自然語言處理與計算語言學領域最高級別的學術會議，由計算語言學協會主辦，每年一屆。
官網：https://www.aclweb.org/
會議主題：信息提取、信息檢索和問答系統；語言和視覺；語言理論和心理語言學；機器學習；機器翻譯和多語言；分割、標記和語法分析；語義學；情感分析和觀點挖掘；社交媒體和計算社交科學；口語處理；概述、生成、論述和對話；文本挖掘和自然語言分析。

EMNLP

? ? ? ?EMNLP即Conference on Empirical Methods in Natural Language Processing。會議是國際學術組織主辦和發起的系列國際學術會議。EMNLP 自然語言處理實證方法會議（Conferenceon Empirical Methods in Natural Language Processing）由ACL當中對語言數據和經驗方法有特殊興趣的團體主辦，始于1996年。EMNLP是由國際計算語言學協會下屬特殊興趣小組SIGDAT發起并組織的系列會議，是自然語言處理領域頂級的國際學術會議之一。創立之初旨在關注統計機器學習方法在自然語言處理領域的應用，近幾年隨著基于大規模數據的機器學習方法（尤其是深度學習）的發展，使該會議迅速發展，會議人數逐年增加。
官網：https://www.emnlp-ijcnlp2019.org/

歷年經典論文

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
BERT: 語言理解的深層雙向轉換器的預訓練

論文作者	Jacob Devlin Ming-Wei Chang Kenton Lee Kristina Toutanova
論文出處	In Proceedings of the 2019 Annual Conference of the North American Chapter of the Association for Computational Linguistics https://arxiv.org/abs/1810.04805
論文摘要	我們引入了一種新的語言表示模型，稱為BERT，它代表變壓器的雙向編碼器表示。不同于最近的語言表示模型(Peters et al.， 2018a;(Radford et al.， 2018)， BERT的設計是通過在所有層中對左、右上下文進行聯合條件作用，來預先訓練來自未標記文本的深層雙向表示。因此，只需一個額外的輸出層，就可以對預先訓練的BERT模型進行優化，從而為各種任務(如回答問題和語言推斷)創建最先進的模型，而無需對特定于任務的體系結構進行大量修改。伯特概念簡單，經驗豐富。它獲得新的先進的結果十一自然語言處理任務,包括推動膠分數80.5%(7.7%點絕對改進),MultiNLI精度86.7%絕對改善(4.6%),球隊v1.1問答測試F1 93.2(1.5點絕對改進)和陣容v2.0測試F1到83.1(5.1點絕對改善)。
研究問題	文章介紹一種新的語言表示模型BERT（Bidirectional Encoder Representations from Transformers），通過聯合上下文信息從未標記文本中預訓練深層雙向表示形式，只需一個額外的輸出層，就可以對預訓練模型進行調整，在不需要對特定任務的體系結構進行大量修改的前提下，在多種語言相關任務上獲得。
研究方法	模型包含預訓練和微調兩個步驟：在預訓練階段，對不同訓練任務的未標記數據進行訓練。在微調階段，首先用預訓練參數初始化BERT模型，然后，使用來自下游任務的標記數據對預訓練的參數進行微調。 BERT是一個多層的雙向Transformer，輸入包括三個部分，分別為詞向量、單詞所屬句子向量和單詞的位置向量，形象的表示如下圖所示，其中[CLS]和[SEP]是放在每個輸入最前和用戶分隔句子的特殊符號。文章提出兩種無監督任務來預訓練BERT，分別是屏蔽語言模型（Masked Language Model, MLM）和下句預測模型（Next Sentence Prediction, NSP）：MLM通過屏蔽一句話中部分詞然后讓模型來預測屏蔽詞來訓練模型。在實驗設置中，大約15%的詞被隨機屏蔽。但是這樣的訓練方法也有缺陷，屏蔽詞相當于從數據集中抹去，且可能預訓練階段與微調階段不一致。因此，對于屏蔽詞有如下三種處理方式：80%用[MASK]替換，10%用隨機的詞語替換，另外10%不做改變。NSP任務是為了增強模型對句子間關系的理解能力，訓練時選擇的句對A、B中，B有50%的概率真的是A的下一句，50%的概率不是A的下一句。預訓練語料使用BooksCorpus和英語維基百科的文本段落。
研究結果	模型微調測試了11個自然語言處理任務上的效果，包括General Language Understanding Evaluation(GLUE)基準測試集中的8項評測、SQuAD 1.1和SQuAD 2.0兩個閱讀理解數據集和Situations With Adversarial Generations (SWAG)數據集。BERT均穩定優于基線方法，下表展示了GLUE上的對比結果。文章提出的BERT模型在11項自然語言處理任務上取得了最先進的效果。由語言模型轉移學習帶來的模型效果改進表明，豐富的、無監督的預訓練是許多語言理解系統的組成部分。特別地，即使是資源匱乏的任務也可以從深層的單向架構中獲益。文章主要貢獻是進一步將這些發現推廣到深層的雙向架構，允許相同的預訓練模型成功地應用于廣泛的NLP任務。

Semi-Supervised Learning for Neural Machine Translation
神經機器翻譯的半監督學習機制

論文作者	Yong Cheng, Wei Xu, Zhongjun He, Wei He, Hua Wu, Maosong Sun and Yang Liu
論文出處	Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics https://link.springer.com/chapter/10.1007/978-981-32-9748-7_3
論文摘要	近年來，端到端神經機器翻譯(NMT)取得了顯著的進展，但NMT系統僅依賴于并行語料庫進行參數估計。由于平行語料庫在數量、質量、覆蓋等方面都存在一定的局限性，尤其是對于資源貧乏的語言而言，利用單語語料庫來提高網絡語言機器翻譯的研究越來越受到人們的關注。我們提出了一種半監督的方法來訓練NMT模型連接標記(平行語料庫)和未標記(單語語料庫)的數據。其核心思想是使用自動編碼器重建單語語料庫，其中源-目標和目標-源轉換模型分別充當編碼器和解碼器。我們的方法不僅可以利用目標語言的單語語料庫，而且可以利用源語言的單語語料庫。在漢英數據集上的實驗表明，我們的方法比最先進的SMT和NMT系統取得了顯著的改進。
研究問題	近年來，端到端神經機器翻譯(neural machine translation, NMT)取得了顯著的進展，但NMT系統僅依靠并行語料庫進行參數估計。由于平行語料庫在數量、質量和覆蓋范圍等方面都存在一定的局限性，尤其是對資源相對較少的語言而言。所以利用單語語料庫來提高網絡機器翻譯的性能就變得很有吸引力了。文章就提出了一種半監督的方法來訓練NMT模型。其核心思想是使用一個自編碼器重建單語語料庫，其中源-目標和目標-源轉換模型分別充當編碼器和解碼器。該方法不僅可以利用目標語的單語語料庫，而且還可以利用源語的單語語料庫。
研究方法	首先，將觀察到的目標句編碼為潛在的源句（圖中藍色箭頭的過程）。然后，使用源到源的翻譯模型，對源句進行譯碼（圖中黃色箭頭的過程），利用源到目標的模型重構所觀察到的目標句。
研究結果	用文章的方法和最先進的SMT和NMT方法進行比較，實驗結果圖如下：文章提出了一種訓練神經機器翻譯模型的半監督方法。其核心思想是在單語語料庫上引入自動編碼器，采用源對目標和目標對源的翻譯模型作為編碼器和譯碼器。在漢英NIST數據集上的實驗表明，與最先進的SMT和NMT方法進行，該方法帶來了顯著的改善。

Know What You Don’t Know: Unanswerable Questions for SquAD
知道你所不知道的：針對SquAD中不可回答的問題

論文作者	Pranav Rajpurkar, Robin Jia, Percy Liang
論文出處	Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics. 2018 https://arxiv.org/abs/1806.03822
論文摘要	摘要閱讀理解系統通常可以在上下文文檔中找到問題的正確答案，但是對于沒有在上下文中說明正確答案的問題，它們也往往會做出不可靠的猜測。現有的數據集要么只關注可回答的問題，要么使用易于識別的自動生成的不可回答的問題。為了解決這些問題，我們介紹了斯坦福大學問答數據集(SQuAD)的最新版本——SQuAD 2.0。SQuAD 2.0整合了現有的數據和超過5萬個由眾包工人寫的無法回答的問題，使之看起來與可以回答的問題相似。要想在班長2.0中表現出色，系統不僅要盡可能地回答問題，還要確定什么時候段落中不支持回答，并且避免回答。對于現有的模型來說，SQuAD 2.0是一項具有挑戰性的自然語言理解任務:一個強大的神經系統，在SQuAD 1.1上得到86%的F1，在SQuAD 2.0上卻只能得到66%的F1。
研究問題	閱讀理解系統（模型）通常可以在上下文文檔中找到問題的正確答案，但對于沒有在上下文中說明正確答案的問題，它們給出的答案也不那么可靠。現有的數據集要么只關注可回答的問題，要么使用容易識別的自動生成的不可回答的問題作為數據集。為了彌補這些不足，文章介紹了斯坦福問答數據集(SQuAD)的最新版本——SQuAD 2.0，它整合了現有的SQuAD中可回答的問題和50000多個由大眾工作者編寫的難以回答的問題，其中那些難以回答的問題與可回答的問題題目設置相似。為了在SQuAD 2.0中表現的更好，系統不僅要在可能的情況下回答問題，還要確定什么時候段落的上下文不支持回答，并且避免回答問題。SQuAD 2.0數據集是自然語言理解任務中對現有模型的一個挑戰。
研究方法	數據集：在Daemo平臺上雇傭了眾包工作人員來編寫無法回答的問題。每個任務由來自SQuAD 1.1的一整篇文章組成。對于文章中的每個段落，工作人員最多可提出5個僅憑段落是無法回答的問題，同時還要參考段落中出現的實體并給出一個合理的答案。同時給工作人員展示SQuAD 1.1中的問題作為參考，盡量使難以回答的那些問題與可回答的問題相似。
研究結果	文章評估了三種現有的模型架構在兩個數據集上的表現，讓這些模型不僅去學習答案的分布，而且也去預測一個問題是不可回答問題的概率。當模型預測某個問題無法回答的概率超過某個閾值時，模型就放棄學習答案分布。下表展示了三個模型在兩個數據集（SQuAD 1.1和SQuAD 2.0）上的表現，結果顯示：表現最好的模型（DocQA + ELMo）在SQuAD 2.0上與人類仍有23.2的差距，意味著模型有很大的改進空間；在兩個數據集上運用相同模型架構，相比于SQuAD1.1，最優模型和人的F1值差距在SQuAD 2.0上更大，說明對現有模型來說SQuAD 2.0是一個更難學習的數據。文章在SQuAD 1.1數據集上利用TFIDF和規則隨機生成了一些難以回答的問題，仍采用相同的模型進行對比。結果顯示（如下表）最好的模型還是在SQuAD 2.0數據集上表現最低，再次證明了SQuAD 2.0對現有的語言理解模型來說是一個有難度的挑戰。文章證明了SQuAD 2.0是一個具有挑戰性的、多樣化的、大規模的數據集，它迫使模型去學習什么情況下一個問題在給定的環境中是無法回答的。我們有理由相信，SQuAD 2.0將會促進新的閱讀理解模型的發展，這些模型能夠知道他們不知道的東西是什么，從而能在更深層次上理解語言文字。

GLUE: A MULTI-TASK BENCHMARK AND ANALYSIS PLATFORM FOR NATURAL LANGUAGE UNDERSTANDING
GLUE: 一個用于自然語言理解的多任務基準測試和分析平臺

論文作者	Alex Wang, Amanpreet Singh, Julian Michael, Felix Hill，Omer Levy& Samuel R. Bowman
論文出處	Proceedings of the International Conference on Learning Representations (ICLR). 2019 https://arxiv.org/abs/1804.07461
論文摘要	要使自然語言理解(NLU)技術在實踐和作為科學研究對象方面發揮最大的作用，它必須是通用的:它必須能夠以一種不專門針對任何特定任務或數據集的方式處理語言。為了實現這一目標，我們引入了通用語言理解評估基準(GLUE)，這是一個工具，用于評估和分析模型在現有NLU任務的不同范圍內的性能。GLUE與模型無關，但它鼓勵在任務之間共享知識，因為某些任務的訓練數據非常有限。我們還提供了一個手工制作的診斷測試套件，可以對NLU模型進行詳細的語言分析。我們評估了基于當前多任務和轉移學習方法的基線，發現它們并不能立即在每個任務單獨的模型訓練的總體性能上有實質性的改進，這表明在開發通用的和魯棒的NLU系統方面還有改進的空間。
研究問題	人類理解語言的能力是靈活的、強健的。相比之下，單詞級以上的大多數自然語言理解（Natural Language Understanding, NLU）模型都是為特定的任務設計的。我們期望開發一個能夠學習在不同領域執行一系列不同語言任務的更統一的模型，它必須能夠以一種不局限于單個任務、類型或數據集的方式來理解人類的語言。為了實現這一目標，文章設計了一個通用語言理解評估基準（General Language Understanding Evaluation, GLUE）用于評估模型在不同的現有NLU任務集上的性能。
研究方法	文章設計了一個通用語言理解評估基準（General Language Understanding Evaluation, GLUE)，它包含一組NLU任務，包括問答系統、情感分析和文本蘊涵，以及一個用于模型評估、比較和分析的在線平臺。GLUE傾向于讓模型在任務之間共享一般的語言知識。GLUE還提供了一個人工設計的測試集（診斷集），可以對模型進行詳細的分析。為了評測這個GLUE評估基準，文章在公共數據集上評估了句子表示的baseline和最優模型，下表展示了數據集的任務表述和相關的統計信息。數據集的任務表述和統計信息如上表所示。
研究結果	結果顯示如下表所示，針對所有任務的多任務訓練比針對每個任務單獨訓練模型的效果更好。然而，最佳模型的低性能表明模型仍存在改進空間。首先，文章實現了一個通用語言理解評估基準（GLUE基準），包含9個句子或句對的NLU任務。所有任務建立在帶標注的數據集上，數據集覆蓋了各種文本類型、不同數據規模和不同難度系數。其次，建立了一個主要基于私有評測數據的在線模型評估平臺。該平臺與模型無關，并且可以評估任何能夠在所有9個任務上產生結果的模型。然后，文章還構建了專門的診斷評價數據集，以用作誤差分析、模型的定性比較以及對抗性數據的補充。最后，文章實驗了句子表示學習的幾種主要現有方法的結果。

Linguistically-Informed Self-Attention for Semantic Role Labeling
用于語義角色標注的基于語言學信息的自我注意力方法

論文作者	Emma Strubell, Patrick Verga, Daniel Andor, David Weissand Andrew McCallum
論文出處	Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing ?
論文摘要	目前最先進的語義角色標注(SRL)使用深度神經網絡，沒有明確的語言特征。然而，之前的工作已經表明，黃金語法樹可以顯著提高SRL解碼，這表明通過顯式語法建模提高準確性的可能性。在這項工作中，我們提出了基于語言信息的自我注意(LISA):一個神經網絡模型，它將多頭自我注意與跨依賴分析、詞性標注、謂詞檢測和SRL的多任務學習相結合。與之前需要進行大量預處理來準備語言特性的模型不同，LISA可以僅使用原始標記作為輸入來合并語法，僅對序列進行一次編碼，以便同時對所有謂詞執行解析、謂詞檢測和角色標記。語法是通過訓練一個注意頭來關注每個標記的語法父級來合并的。此外，如果已經有了高質量的語法解析，那么可以在測試時對其進行有益的注入，而無需對SRL模型進行重新培訓。在CoNLL-2005 SRL上的實驗中，LISA使用預測謂詞和標準word embeddings為模型實現了新的最先進的性能，在newswire上獲得了比以前的最先進水平高2.5 F1的絕對水平，在域外數據上達到了超過3.5 F1的水平，誤差減少了近10%。在ConLL-2012英文SRL中，我們也顯示出超過2.5 F1的改進。通過上下文編碼(ELMo)的單詞表示形式，LISA的性能也超過了最先進的技術，在news上超過了1.0 F1，在out- domain文本上超過了2.0 F1。
研究問題	語義角色標注（Semantic Role Labeling, SRL）是一種提取文本高級表示的技術。目前最先進的基于深度神經網絡的語義角色標注模型并沒有顯式使用文本的語言特征。然而，有研究已經指出，語法樹可以有效改善SRL任務。鑒于此，文章提出了一種用于語義角色標注的基于語言學的自注意力方法（linguistically-informed self-attention，LISA）。該模型將多頭自注意力機制（multi-head self-attention）與多任務學習相結合，包括句法依賴解析、詞性標注、謂詞檢測和語義角色標記。與先前需要大量預處理來準備語言特征的模型不同，LISA可以僅使用原始的token對序列進行一次編碼，來同時執行多個預測任務。
研究方法	文章設計了一個高效的利用語言信息有效執行端到端語義角色標注任務的神經網絡模型。該模型融合了神經網絡的注意力機制預測句法依賴關系，并在4個相關任務上進行了多任務學習。下圖（左）是模型結構：詞向量輸入到具有多頭注意力機制的J層，在p層訓練自注意力機制去關注父節點的語義信息。P層的詳細操作見下圖（右）。具體地，模型的基礎是一個多頭自注意力機制的token編碼，基于ELMo預訓練得到的token表示結合一個由正弦函數確定的位置編碼向量學習H個注意頭，拼接后組成每個token的最終自注意力表示。句法信息的自注意力機制將注意力中的key、value和query均增加語義解析信息，其中key、value分別對應父節點和依賴關系。最后，共享模型中較低層的參數來預測POS詞性標記和謂詞。
研究結果	文章把LISA模型和四個先進的基線方法比較，下表的結果顯示，未加入語義信息的模型已經實現了現有的最優模型性能（如紅框所示），當LISA加入自己的語義解析時模型性能并沒有很大的提升（如綠框所示），但當再加入了目前最優的D&M語義解析以后，模型性能有了較大的提升。Gold表示加入了最優的語義解析，以期模型能有更好的表現。文章提出了一種多任務神經網絡模型，該模型有效地融合了豐富的語言信息用于語義角色標注。通過一系列實驗證明了LISA的性能優于最先進的現有模型。具體實驗結果：在CoNLL-2005SRL數據集上，LISA模型在謂詞預測、詞嵌入任務上比當前最好的算法在F1值上高出了2.5（新聞專線數據）和3.5以上（其他領域數據），減少了約10%的錯誤。在ConLL-2012英文角色標記任務上，該方法也獲得了2.5F1值的提升。LISA同時也比當前最好的基于上下文的詞表示學習方法（ELMo）高出了1.0的F1（新聞專線數據）和多于2.0的F1值（其他領域數據）。

OpenKiwi: An Open Source Framework for Quality Estimation
OpenKiwi: 一個用于質量評估的開源框架

論文作者	Fabio Kepler、Jonay Trenous、Marcos Treviso、Miguel Vera、Andre F. T. Martins
論文出處	Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. 2019 https://arxiv.org/abs/1902.08646
論文摘要	我們將介紹OpenKiwi，這是一個基于pytor的用于翻譯質量評估的開源框架。OpenKiwi支持單詞級和句子級質量評估系統的培訓和測試，實施WMT 2015-18質量評估運動的獲獎系統。我們對來自2018年WMT(英德SMT和NMT)的兩個數據集上的OpenKiwi進行基準測試，在單詞級任務上獲得最先進的性能，在句子級任務上接近最先進的性能。
研究問題	文章介紹了一個基于PyTorch的用于翻譯質量評估的開源框架——OpenKiwi。該框架支持單詞級和句子級的質量評估系統的訓練和測試，實現和集成了WMT 2015-18質量評估比賽的獲獎系統。文章在WMT2018的兩個數據集（English-German SMT and NMT））上對OpenKiwi進行基準測試。實驗結果證明了，該框架在單詞級任務上實現了最先進的性能，在句子級任務上實現了幾乎最先進的性能。
研究方法	質量評估(Quality Estimation，QE)提供了機器翻譯和人工翻譯之間缺失的一環，目標是在沒有參考譯文的情況下評估翻譯系統的質量。句子級的質量評估旨在預測整個翻譯句子的質量，如基于人后期編輯所花費的時間，或者修改它需要的編輯操作數。單詞級別質量評估的目標是給機器翻譯的每個詞、單詞之間的間隙（根據上下文需要插入的）和源語言單詞(原句中被錯譯或省略的單詞)分配質量標簽。下圖是一個單詞級標注示例。文章研發的OpenKiwi（https://github. com/Unbabel/OpenKiwi）實現和集成了WMT 2015-18質量評估比賽的獲獎系統，且允許輕松地添加和運行新模型，而不需要過多地關注輸入數據處理、輸出生成和評估。OpenKiwi基于PyTorch深度學習框架實現，可以單獨運行或通過API集成到其他項目。此外，OpenKiwi提供了根據WMT2018數據的預訓練模型，并支持根據新數據訓練新QE模型。文章對該框架進行了基準測試，使用了WMT 2018質量評估比賽的數據集，結果顯示，這些系統的集成版本表現最好，堆疊的架構在預測單詞級標簽方面非常有效。文章還比較了另一個現有的開源工具deepQuest，在單詞級和句子級均獲得更優的表現。
研究結果	文章介紹了一個新的機器翻譯質量評估（QE）開源框架—OpenKiwi。OpenKiwi是在PyTorch中實現的，并支持在新數據上訓練單詞級和句子級的QE系統。它在單詞級和句子級上都優于其他開源工具包，并產生了新的最先進的單詞級QE結果。OpenKiwi一經發布就作為WMT 2019 QE的基線系統。此外，所有WMT 2019 QE的單詞、句子和文檔級任務的獲獎系統都使用OpenKiwi作為其構建基礎。

Bridging the Gap between Training and Inference for Neural Machine Translation
架起一座在基于神經元的機器翻譯訓練和推理之間的橋梁

論文作者	Wen Zhang, Yang Feng, Fandong Meng, Di You, Qun Liu
論文出處	Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics.（2019）. https://arxiv.org/abs/1906.02448
論文摘要	神經機器翻譯(NMT)以根據上下文詞預測下一個詞的方式順序生成目標詞。在訓練時，它以地面真值詞作為上下文進行預測，而在推理時，它必須從頭開始生成整個序列。美聯儲背景的這種差異導致了錯誤的累積。此外，單詞級訓練要求生成的序列與地面真值序列嚴格匹配，從而導致對不同但合理的翻譯進行過度校正。本文針對這一問題，不僅從地面真值序列中提取上下文詞，而且在訓練過程中通過模型從預測序列中提取上下文詞，其中預測序列被選擇為句子級最優。在中文->英文和WMT'14英文->德文翻譯任務上的實驗結果表明，我們的方法可以在多個數據集上取得顯著的改進。
研究問題	神經機器翻譯(Neural Machine Translation, NMT)是根據上下文預測下一個詞，從而依次生成目標詞。訓練時用真值詞作為上下文進行預測，而推理時必須從頭開始生成整個序列，這會導致誤差的積累。此外，單詞級訓練要求生成的序列與真值序列嚴格匹配會導致對不同但合理的翻譯的過度矯正。針對這一問題，文章提出了一種過矯正恢復的方法。該方法不僅從真值序列中提取上下文，而且通過訓練模型從預測序列中提取上下文，即翻譯過程中模型不需要再逐詞對比標準來確定損失函數。在中文→英文和英語→德語的翻譯任務的實驗結果表明，該方法可以在多個數據集上實現顯著的改進。
研究方法	模型主要結構如上圖所示，核心思想是：不僅使用真值序列進行約束，在訓練過程中，也利用訓練模型預測出的上一個詞語作為其中的備選詞語來約束模型。對于oracle詞的選擇有兩種方法，一種是用貪心搜索算法在詞級上選擇，另一種是在句級上選擇最優的oracle序列。在詞語級的選擇上，在時間步為j時，獲取j-1時間步模型預測出的每個詞語的預測分數。為了提高模型的魯棒性，在預測分數的基礎上加上Gumbel noise，取分數最高的詞語作為此時的 Oracle Word。在句子級的選擇上，使用集束搜索，選擇集束寬為 k 的句子，然后計算每個句子的BLEU分數，選擇分數最高的句子。對于生成的實際句子超出或短于這一長度的情況，文章采用強制解碼的方式進行干預。最終選擇的Oracle Word也會和真值序列的詞語混合，然后使用衰減式采樣（Decay Sampling）的方法從中挑選出作為約束模型訓練的詞。文章對NIST中文→英文（Zh→En）和WMT14英語→德語（En→De）的翻譯任務進行了實驗。結果表明，文章提出的方法可以在多個數據集上實現提升。同時在RNNsearch模型和Transformer模型上也驗證了該方法。結果表明，新方法可以顯著提高兩種模型的性能。
研究結果	端到端的NMT模型在訓練時逐字逐句地生成翻譯，將真實單詞作為上下文，而不是將模型生成的前一個單詞作為上下文進行推理。為了減少訓練和推理之間的差異，在預測一個單詞時，文章使用抽樣方法將真實單詞或先前預測的單詞作為上下文輸入。被預測的單詞（稱為oracle單詞）可以通過單詞級或句子級優化生成。與詞級oracle相比，句子級oracle進一步賦予了該模型過度矯正恢復的能力。通過兩個基線模型和實際翻譯任務的相關工作驗證了該方法的有效性，并對所有數據集進行了顯著的改進。文章還指出，句子級的oracle優于單詞級別的oracle。

Do you know that Florence is packed with visitors?Evaluating state-of-the-art models of speaker commitment
你知道佛羅倫薩到處都是游客嗎?評估說話者結論確定性的最新模型

論文作者	Nanjiang Jiang, Marie-Catherine de Marneffe
論文出處	Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. 2019. https://www.aclweb.org/anthology/P19-1412/
論文摘要	當演講者瑪麗問道:“你知道佛羅倫薩擠滿了游客嗎?”，我們會讓她相信佛羅倫薩到處都是游客，但如果她問:“你認為佛羅倫薩到處都是游客嗎?”推斷說話人的承諾(又稱事件真實性)對于信息提取和問題回答是至關重要的。在這里，我們通過分析一個具有挑戰性的自然數據集上模型錯誤的語言相關性，來探索語言缺陷驅動現有說話人承諾模型錯誤模式的假設。我們在承諾庫(CommitmentBank)上評估了兩種最先進的演講者承諾模型，承諾庫是一個自然發生的英語會話數據集。承諾庫由演講者對附加詞(在我們的例子中是“Florence is packed with visitors”)的內容進行了注釋，附加詞是在四種取消句的環境(否定、情態、問題、條件)下嵌入動詞(“know”、“think”)。根據語言特征對項目進行分類可以發現不對稱的錯誤模式:雖然這些模型在某些類(如否定)上取得了良好的性能，但它們未能推廣到自然語言中的各種語言結構(如條件句)，突出了改進的方向。
研究問題	當一個演講者問“你知道佛羅倫薩擠滿了游客嗎”時，我們可能會相信，但如果她問的是“你認為佛羅倫薩擠滿了游客嗎”，我們可能就不會相信了。推斷說話者承諾（或稱事件真實性）對于信息抽取和問答均至關重要。對說話者承諾的預測，是判斷說話者在句子中對某一事件承諾到何種程度，是實際的、非實際的還是不確定的。本篇文章通過在數據集上分析模型誤差的語言相關性，來探討語言缺陷會導致說話者承諾模型出現錯誤模式的假設。
研究方法	評估數據集選取的CommitmentBank包含1200條數據，涉及四種包含時態嵌入動詞的取消蘊涵環境(否定句、情態動詞、疑問句、條件句)。對于每條數據，從Mechanical Turk尋找至少8個母語為英語的人標注其說話者承諾。文章評估了兩種最先進的說話者承諾模型：Stanovsky等人提出的基于規則的方法和Rudinger等人提出的神經網絡方法，結果顯示基于規則的模型表現得更好，但整體表現均不是很好，因為CommitmentBank與其他任何數據集相比，其相關性更低，絕對錯誤率更高。
研究結果	文章在CommitmentBank上評估了兩種最先進的說話者承諾模型。研究發現，帶有語言學知識的模型比基于LSTM的模型表現更好，這表明如果想要在這樣的有挑戰性的自然語言數據中捕捉說話者承諾信息的話，語言學知識是必不可少的。根據語言特征對標注數據進行分類可以發現不對稱的錯誤模式。雖然模型在某些情況下（如否定）取得了良好的性能，但很難泛化到其他更豐富的自然語言的語言學結構（如條件句），從而指出了研究的改進方向。

總結

以上是生活随笔為你收集整理的Paper之ACLEMNLP：2009年~2019年ACL计算语言学协会年会EMNLP自然语言处理的经验方法会议历年最佳论文简介及其解读的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：成功解决安装pywin32时出现pyt
下一篇： Tool：微信使用技巧之手把手教你如何在

编程问答

Paper之ACLEMNLP：2009年~2019年ACL计算语言学协会年会EMNLP自然语言处理的经验方法会议历年最佳论文简介及其解读

ACL計算語言學協會年會&EMNLP自然語言處理會的簡介

ACL

EMNLP

歷年經典論文

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding BERT: 語言理解的深層雙向轉換器的預訓練

Semi-Supervised Learning for Neural Machine Translation 神經機器翻譯的半監督學習機制

Know What You Don’t Know: Unanswerable Questions for SquAD 知道你所不知道的：針對SquAD中不可回答的問題

GLUE: A MULTI-TASK BENCHMARK AND ANALYSIS PLATFORM FOR NATURAL LANGUAGE UNDERSTANDING GLUE: 一個用于自然語言理解的多任務基準測試和分析平臺

Linguistically-Informed Self-Attention for Semantic Role Labeling 用于語義角色標注的基于語言學信息的自我注意力方法

OpenKiwi: An Open Source Framework for Quality Estimation OpenKiwi: 一個用于質量評估的開源框架

Bridging the Gap between Training and Inference for Neural Machine Translation 架起一座在基于神經元的機器翻譯訓練和推理之間的橋梁

Do you know that Florence is packed with visitors?Evaluating state-of-the-art models of speaker commitment 你知道佛羅倫薩到處都是游客嗎?評估說話者結論確定性的最新模型

總結

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
BERT: 語言理解的深層雙向轉換器的預訓練

Semi-Supervised Learning for Neural Machine Translation
神經機器翻譯的半監督學習機制

Know What You Don’t Know: Unanswerable Questions for SquAD
知道你所不知道的：針對SquAD中不可回答的問題

GLUE: A MULTI-TASK BENCHMARK AND ANALYSIS PLATFORM FOR NATURAL LANGUAGE UNDERSTANDING
GLUE: 一個用于自然語言理解的多任務基準測試和分析平臺

Linguistically-Informed Self-Attention for Semantic Role Labeling
用于語義角色標注的基于語言學信息的自我注意力方法

OpenKiwi: An Open Source Framework for Quality Estimation
OpenKiwi: 一個用于質量評估的開源框架

Bridging the Gap between Training and Inference for Neural Machine Translation
架起一座在基于神經元的機器翻譯訓練和推理之間的橋梁

Do you know that Florence is packed with visitors?Evaluating state-of-the-art models of speaker commitment
你知道佛羅倫薩到處都是游客嗎?評估說話者結論確定性的最新模型