ACL 2020 | 多编码器是否能够捕获篇章级信息?
?PaperWeekly 原創 ·?作者|李北
單位|小牛翻譯?/?東北大學NLP實驗室
研究方向|神經機器翻譯、深層網絡建等
?
本文驗證了多編碼器在篇章級翻譯任務上性能的提升并不是來源于上下文編碼器對篇章級語義信息的編碼,其更像是一個噪聲生成器,為模型的訓練提供了額外的訓練信號。
其次,在解碼階段屏蔽上下文編碼器對 BLEU 并沒有影響,進一步證明了上下文編碼器在訓練中類似于 dropout 作用。此外,本文提出一種基于高斯噪聲的魯棒性訓練手段,可以達到和多編碼器可比的性能,并在不同規模數據集上驗證了方法的有效性。本文已被 ACL 2020 收錄。
論文標題:Does Multi-Encoder Help? A Case Study on Context-Aware Neural Machine Translation
論文來源:ACL 2020
論文鏈接:https://arxiv.org/abs/2005.03393
代碼鏈接:https://github.com/libeineu/Context-Aware
篇章級翻譯模型
近年來,神經機器翻譯(Neural Machine Translation)已經取得了突破性的進展,尤其是目前基于自注意力機制的 Transformer [1] 模型掀起學術界的廣泛關注,同時在工業界中也被廣泛應用。
目前神經機器翻譯模型通常采用編碼器-解碼器(Encoder-Decoder)[2] 的框架來完成源語言序列到目標語言序列的轉換。其中,編碼器對源語序列進行編碼,得到稠密的實數向量表示,進而提取源語序列中的語義信息。之后解碼器再利用該表示逐詞地生成目標語序列。
目前的主流神經機器翻譯模型都是基于句子級的,模型學習的是不同源語句子與目標語句子之間的映射關系,但是忽略了一個篇章中句子之間的上下文信息。然而在一些篇章翻譯的場景中,句子間的上下文信息是不可或缺的。
比如在出現一些指代或者一詞多義的情況中,在當前句子無法做出區分時,往往需要根據句子間的上下文來確定其正確形式或詞義,從而生成更連貫、一致的譯文。這種編碼上下文信息的建模方法通常被稱為篇章級翻譯(Context-Aware Machine Translation)。
如何高效地對額外的篇章級信息進行建模一直以來廣受關注。目前有兩種常見的做法來編碼篇章信息:第一種是將當前句子的上下文與其進行拼接,得到一個多句的輸入序列,將該序列作為輸入送入模型,同時不需要修改模型結構;另外一種是采用多編碼器(Multi-encoder)結構,通過額外的編碼器來對上下文信息進行特征提取,之后與源語信息進行融合后用于目標語生成。
對比單編碼器結構,多編碼器可以更有效地對源語的上下文信息進行建模,其翻譯性能更加顯著。一些研究工作已經通過機器翻譯的自動評價指標 BLEU 和一些專用測試指標來證明其方法的有效性。然而,由于篇章級的平行雙語語料資源比較稀缺,常用的數據集規模比較小,其翻譯性能也存在較大的波動。
例如,在小數據集上(IWSLT 等)合理地調整 dropout 的閾值能夠明顯的改善翻譯質量。同時研究者發現在一些任務中,BLEU 值的提升不僅僅來自于多編碼器提供的額外源語相關信息,還來自于魯棒性訓練,額外的編碼器可以看作一個噪音生成器來提供更多的訓練信號。因此,研究者通過在一些篇章級翻譯任務上對多編碼器結構進行實驗,進一步證實這個觀點。
模型結構
篇章級翻譯模型通過在翻譯過程中結合句子間的上下文信息來獲得更好的翻譯結果,目前,這種端到端的模型大體可以分為兩類:單編碼器模型(Single-encoder)[3] 和多編碼器模型 [4] [5] [6]。單編碼器模型做法比較簡單,不改變模型結構,通過將模型輸入進行拼接的方式來捕捉句子間上下文信息。
多編碼器模型通過額外的編碼器結構來對上下文信息進行表示,然后結合到整體翻譯模型中。此外,一些研究人員通過共享編碼器或者采用更復雜的網絡結構對上下文表示進行抽取 [7] [8],也可以近似看作是多編碼器結構。
在多編碼器結構中,根據解碼端對源語表示與上下文表示的集成方式,可以大致分為內部集成(Inside Integration)和外部集成(Outside Integration)兩類。其中,外部集成 [5] [7] [8] 是指將源語編碼器和上下文編碼器的編碼結果在送入解碼器之前進行融合,得到一個統一的表示,具體融合方法可以采用注意力操作和門控的方式。
與之相反,內部集成的方法是指將兩個編碼結果分開獨立地送入解碼器結構中,可以采取串行計算 [6] 與并行計算 [4] 兩種融合方式。下圖展示了外部集成和內部集成(并行)的模型結構:
▲ 圖:多編碼器結構的兩類集成方式
訓練方式
由于篇章級雙語數據相對較少,無法滿足多編碼器訓練所需,因此需要采取一些方法來緩解數據稀缺的問題。常見的方法有兩種:一種是參數共享 [5] [7],通過共享上下文編碼器和源語端編碼器的部分或全部參數,來減輕模型訓練負擔;
另一種是兩階段訓練 [6] [8],首先使用雙語數據對句子級翻譯模型進行預訓練,然后在多編碼器模型訓練時復用其參數,繼續訓練剩余參數或全體參數。為了選取合適的基線,研究者首先對比了兩種訓練策略,結果如下表所示:
▲ 表:不同訓練策略的BLEU性能比
其中,多編碼器模型采用外部集成的方式;WS 為共享了上下文編碼器與源語端編碼器的前 n-1 層參數;TS 為采取兩階段訓練方式,在句子級模型基礎上訓練整體模型??梢钥吹?#xff0c;兩種策略都能取得顯著提升,同時兩階段訓練的方式相比參數共享具有些許的優勢。
其次,單層的上下文編碼器也能取得和 6 層可比的結果,這可能是由于訓練數據有限,所以不需要太復雜的模型。因此,研究者在之后的實驗中采用了單層上下文編碼器及兩階段訓練的策略來訓練多編碼器模型。
不同上下文輸入的對比
為了探究多編碼器結構對最終翻譯性能的影響,研究者提出了三種不同的上下文來進行對比實驗:
真實上下文(Context):當前待翻譯句子的前一句。
隨機上下文(Random):在詞典中隨機采樣構造的偽上下文。
固定上下文(Fixed):固定的一個句子。
此外,研究者在多個語種的翻譯任務上進行實驗,數據規模及實驗結果如下表所示:
?
▲ 表:數據集規模
▲ 表:上下文對比實驗結果
?
其中 Zh-En 和 Fr-En 的數據來自于 IWSLT 的評測數據,En-De 數據來自 WMT 評測數據,而 En-Ru 數據來自于 Opensubtile。上表展示了多個篇章級模型在接收不同輸入的條件下在上述 4 個數據集的翻譯性能。為了保證結論的嚴謹性,研究人員分別在 dropout 為 0.1 和 0.3 的條件下進行實驗。從表中可以觀測到如下幾個現象:
多編碼器模型對比單編碼器和句子級模型在 4 個數據集上有明顯的性能提升
改變 dropout 的大小可以有效地緩解小數據集上的過擬合問題,顯著地提升模型的翻譯性能
內部集成與外部集成的方法均帶來不小的 BLEU 值提升。然而隨著 dropout 值的增大,整體模型性能有了更大提升,但與句子級模型的差別變得更小。
隨機上下文和固定上下文并沒有提供真實的上下文信息,卻得到了與真實上下文相似的提升。這里進一步驗證了 BLEU 值的提升并不是來自于額外的上下文信息,而是類似于引入了噪聲信號,起到了正則化的作用。
魯棒性訓練
前文提到,多編碼器可能起到了噪聲產生器的作用,為模型提供更多訓練信號。為了進一步驗證這種假設,研究者在推理的時候屏蔽了上下文編碼器生成的編碼表示,結果如下表所示:
▲ 表:在推理時屏蔽上下文信息
表中觀測到屏蔽上下文信息后,BLEU 值并沒有下降,在一些測試集上甚至會略有提升,進一步確認了 BLEU 的提升不僅來自于上下文信息,更像是一種噪聲生成器。簡單來說上下文編碼器得到表示作為一種噪聲對網絡的整體訓練起到了正則化的作用。
此外,受啟發于外部集成的方式,研究者提出使用一個高斯分布來模擬上下文編碼器的作用,在源語編碼器表示基礎上直接添加一個高斯噪聲,用來探究上下文編碼器是否起到類似的作用,結果如下表所示:
▲ 表:高斯噪音對比
可以看到,添加高斯噪音進行訓練可以進一步提升模型的性能,甚至比多編碼器外部集成方法略好一些,然而二者結合在一起沒有帶來疊加的效果。這更說明了多編碼器本質上起到了類似噪聲生成器的作用,噪聲的疊加并不能帶來明顯的增益。
更大規模的訓練
由于篇章級雙語數據較為稀缺,上述大部分實驗數據集相對較小。為了探究不同規模數據是否具有相同的現象,研究者使用 500k 至 5M 的中英雙語數據進行實驗,分別對比了句子級模型,隨機上下文和添加高斯噪聲三種方法的翻譯性能。結果如下圖所示:
▲ 圖:不同規模數據對比
隨著數據規模增加,基線模型性能顯著提升。而在不同規模的數據中,后兩種方法對比基線均有一些優勢,但是差距卻隨著數據規模增加而減少。這也符合我們的認知,更大的數據規模往往會緩解過擬合的問題,因此魯棒性訓練帶來的提升也隨之減小。
參考文獻
[1] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Advances in neural information processing systems. 2017: 5998-6008.
[2] Sutskever I , Vinyals O , Le Q V . Sequence to Sequence Learning with Neural Networks[J]. Advances in neural information processing systems, 2014.
[3] Tiedemann J , Scherrer Y . Neural Machine Translation with Extended Context[C]// Proceedings of the Third Workshop on Discourse in Machine Translation. 2017.
[4] Jean S , Lauly S , Firat O , et al. Does Neural Machine Translation Benefit from Larger Context?[J]. 2017.
[5] Voita E , Serdyukov P , Sennrich R , et al. Context-Aware Neural Machine Translation Learns Anaphora Resolution[J]. 2018.
[6] Zhang J , Luan H , Sun M , et al. Improving the Transformer Translation Model with Document-Level Context[J]. 2018.
[7] Miculicich L , Ram D , Pappas N , et al. Document-Level Neural Machine Translation with Hierarchical Attention Networks[J]. 2018.
[8] Maruf S , Martins, André F. T, Haffari G . Selective Attention for Context-aware Neural Machine Translation[J]. 2019.
作者及團隊介紹
李北,東北大學自然語言處理實驗室 2020級博士生。研究方向:神經機器翻譯、深層網絡建模,篇章級翻譯,解碼加速等,在 ACL、WMT、NLPCC、CCMT、中文信息學報等會議、雜志發表學術論文若干。??
研究團隊為小牛翻譯,核心成員來自東北大學自然語言處理實驗室,由姚天順教授創建于 1980 年,現由朱靖波教授、肖桐博士領導,長期從事計算語言學的相關研究工作,主要包括機器翻譯、語言分析、文本挖掘等。團隊研發的小牛翻譯系統已經得到廣泛應用,目前支持 304種語言互譯,通過小牛翻譯開放平臺(https://niutrans.com/)讓機器翻譯技術賦能全球企業。
?
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的ACL 2020 | 多编码器是否能够捕获篇章级信息?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 年底离职率高的5大原因 很多人都是为了辞
- 下一篇: 开个小超市要投资多少钱 要结合当地的情况