日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 >

EMNLP2018论文解读 | 利用篇章信息提升机器翻译质量

發布時間:2024/10/8 45 豆豆
生活随笔 收集整理的這篇文章主要介紹了 EMNLP2018论文解读 | 利用篇章信息提升机器翻译质量 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.


《使用篇章上下文提升 Transformer 翻譯模型》是搜狗和清華大學天工研究院合作發表在 EMNLP 2018 的工作。機器翻譯在搜狗公司的多個產品線得到廣泛應用,包括搜狗英文搜索、搜狗輸入法、搜狗翻譯 APP、搜狗旅行翻譯寶等。許多產品場景下,都需要使用句子的上下文信息來幫助翻譯。




為此,我們提出了一個基于自注意力翻譯模型 Transformer 的篇章級別翻譯模型,利用豐富的上下文信息來幫助進行句子的翻譯。與此同時,該模型對機器翻譯領域篇章級別翻譯質量的提升也有貢獻。


篇章翻譯可以解決機器翻譯中的上下文依賴等問題,是機器翻譯的重要研究問題,也是今年的一個熱點,我們的模型是在 Transformer 效果上最好的之一。?



論文方法


已有的考慮篇章上下文的 NMT 工作主要存在以下幾個問題:?


1. 大多數方法是基于循環神經網絡的翻譯模型 RNNsearch 的,無法移植到最新的基于自注意力的翻譯模型 Transformer 上;


2. 大多數只在解碼器端利用篇章上下文信息,而沒有在源端編碼時使用;?


3. 只能使用篇章級別的語料進行訓練,但是篇章級別的語料規模比句級別語料小的多。


我們針對以上幾個問題進行改進。首先先在建模方面,我們通過在自注意力模型上添加模塊來融入篇章上下文信息(圖 1),其中紅色部分是我們新增的模塊。最左邊這一列是上下文編碼器,其輸入是源端待翻譯的句子同一個文檔中的前 k 個句子。上下文編碼器是一個多層結構,每一層都包含一個自注意力層和一個前向層(類似于 Transformer 的編碼器)。


?圖1. 本文提出的模型


但是在實驗中我們發現,上下文編碼器只用 1 層就達到了很好的效果,使用更多層不僅不能得到更好的效果,還會對模型的計算效率產生負面影響。接下來,我們使用 multi-head 注意力機制將得到的篇章上下文的隱層表示同時融入到源端編碼器和解碼器中。我們將此稱為上下文注意力(Context Attention)。?


為了得到更好的模型,我們采用了兩步訓練法來利用充足的句級別語料。第一步,我們使用所有可用語料(包括句級別和篇章級別)訓練一個標準的自注意力翻譯模型。第二步,我們再使用篇章級別的語料訓練我們加入的模塊。在這一步,我們會凍結其他參數,防止模型在較小規模的篇章級別語料上過擬合。?


實驗結果


實驗(表 1)表明,我們的方法顯著好于 Transformer 和基于 RNNsearch 的篇章翻譯模型。


?表1. 實驗結果




點擊以下標題查看更多論文解讀:?


  • 網絡表示學習綜述:一文理解Network Embedding

  • 神經網絡架構搜索(NAS)綜述

  • 從傅里葉分析角度解讀深度學習的泛化能力

  • 哈佛NLP組論文解讀:基于隱變量的注意力模型

  • ACL2018高分論文:混合高斯隱向量文法

  • COLING 2018最佳論文:序列標注經典模型復現

  • 一文解析OpenAI最新流生成模型「Glow」




#投 稿 通 道#

?讓你的論文被更多人看到?



如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢? 答案就是:你不認識的人。


總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?


PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得技術干貨。我們的目的只有一個,讓知識真正流動起來。


??來稿標準:

? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?

? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?

? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志


? 投稿郵箱:

? 投稿郵箱:hr@paperweekly.site?

? 所有文章配圖,請單獨在附件中發送?

? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通




?


現在,在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧



關于PaperWeekly


PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。


▽ 點擊 |?閱讀原文?| 下載論文 & 源碼

總結

以上是生活随笔為你收集整理的EMNLP2018论文解读 | 利用篇章信息提升机器翻译质量的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。