當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

EMNLP2018论文解读 | 利用篇章信息提升机器翻译质量

發(fā)布時間：2024/10/8 编程问答 32 豆豆

生活随笔收集整理的這篇文章主要介紹了 EMNLP2018论文解读 | 利用篇章信息提升机器翻译质量小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

《使用篇章上下文提升 Transformer 翻譯模型》是搜狗和清華大學(xué)天工研究院合作發(fā)表在 EMNLP 2018 的工作。機(jī)器翻譯在搜狗公司的多個產(chǎn)品線得到廣泛應(yīng)用，包括搜狗英文搜索、搜狗輸入法、搜狗翻譯 APP、搜狗旅行翻譯寶等。許多產(chǎn)品場景下，都需要使用句子的上下文信息來幫助翻譯。

為此，我們提出了一個基于自注意力翻譯模型 Transformer 的篇章級別翻譯模型，利用豐富的上下文信息來幫助進(jìn)行句子的翻譯。與此同時，該模型對機(jī)器翻譯領(lǐng)域篇章級別翻譯質(zhì)量的提升也有貢獻(xiàn)。

篇章翻譯可以解決機(jī)器翻譯中的上下文依賴等問題，是機(jī)器翻譯的重要研究問題，也是今年的一個熱點(diǎn)，我們的模型是在 Transformer 效果上最好的之一。?

論文方法

已有的考慮篇章上下文的 NMT 工作主要存在以下幾個問題：?

1. 大多數(shù)方法是基于循環(huán)神經(jīng)網(wǎng)絡(luò)的翻譯模型 RNNsearch 的，無法移植到最新的基于自注意力的翻譯模型 Transformer 上；

2. 大多數(shù)只在解碼器端利用篇章上下文信息，而沒有在源端編碼時使用；?

3. 只能使用篇章級別的語料進(jìn)行訓(xùn)練，但是篇章級別的語料規(guī)模比句級別語料小的多。

我們針對以上幾個問題進(jìn)行改進(jìn)。首先先在建模方面，我們通過在自注意力模型上添加模塊來融入篇章上下文信息（圖 1），其中紅色部分是我們新增的模塊。最左邊這一列是上下文編碼器，其輸入是源端待翻譯的句子同一個文檔中的前 k 個句子。上下文編碼器是一個多層結(jié)構(gòu)，每一層都包含一個自注意力層和一個前向?qū)?#xff08;類似于 Transformer 的編碼器）。

▲?圖1. 本文提出的模型

但是在實(shí)驗(yàn)中我們發(fā)現(xiàn)，上下文編碼器只用 1 層就達(dá)到了很好的效果，使用更多層不僅不能得到更好的效果，還會對模型的計(jì)算效率產(chǎn)生負(fù)面影響。接下來，我們使用 multi-head 注意力機(jī)制將得到的篇章上下文的隱層表示同時融入到源端編碼器和解碼器中。我們將此稱為上下文注意力（Context Attention）。?

為了得到更好的模型，我們采用了兩步訓(xùn)練法來利用充足的句級別語料。第一步，我們使用所有可用語料（包括句級別和篇章級別）訓(xùn)練一個標(biāo)準(zhǔn)的自注意力翻譯模型。第二步，我們再使用篇章級別的語料訓(xùn)練我們加入的模塊。在這一步，我們會凍結(jié)其他參數(shù)，防止模型在較小規(guī)模的篇章級別語料上過擬合。?

實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)（表 1）表明，我們的方法顯著好于 Transformer 和基于 RNNsearch 的篇章翻譯模型。

▲?表1. 實(shí)驗(yàn)結(jié)果

點(diǎn)擊以下標(biāo)題查看更多論文解讀：?

網(wǎng)絡(luò)表示學(xué)習(xí)綜述：一文理解Network Embedding
神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索（NAS）綜述
從傅里葉分析角度解讀深度學(xué)習(xí)的泛化能力
哈佛NLP組論文解讀：基于隱變量的注意力模型
ACL2018高分論文：混合高斯隱向量文法
COLING 2018最佳論文：序列標(biāo)注經(jīng)典模型復(fù)現(xiàn)
一文解析OpenAI最新流生成模型「Glow」

#投稿通道#

?讓你的論文被更多人看到?

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體，縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢？ 答案就是：你不認(rèn)識的人。

總有一些你不認(rèn)識的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁，促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞，迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵高校實(shí)驗(yàn)室或個人，在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容，可以是最新論文解讀，也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個，讓知識真正流動起來。

??來稿標(biāo)準(zhǔn)：

? 稿件確系個人原創(chuàng)作品，來稿需注明作者個人信息（姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向）?

? 如果文章并非首發(fā)，請?jiān)谕陡鍟r提醒并附上所有已發(fā)布鏈接?

? PaperWeekly 默認(rèn)每篇文章都是首發(fā)，均會添加“原創(chuàng)”標(biāo)志

? 投稿郵箱：

? 投稿郵箱：hr@paperweekly.site?

? 所有文章配圖，請單獨(dú)在附件中發(fā)送?

? 請留下即時聯(lián)系方式（微信或手機(jī)），以便我們在編輯發(fā)布時和作者溝通

現(xiàn)在，在「知乎」也能找到我們了

進(jìn)入知乎首頁搜索「PaperWeekly」

點(diǎn)擊「關(guān)注」訂閱我們的專欄吧

關(guān)于PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學(xué)術(shù)平臺。如果你研究或從事 AI 領(lǐng)域，歡迎在公眾號后臺點(diǎn)擊「交流群」，小助手將把你帶入 PaperWeekly 的交流群里。

▽ 點(diǎn)擊 |?閱讀原文?| 下載論文 & 源碼

總結(jié)

以上是生活随笔為你收集整理的EMNLP2018论文解读 | 利用篇章信息提升机器翻译质量的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：两行代码玩转 Google BERT 句
下一篇：经典论文复现 | 基于标注策略的实体和关