EMNLP2018论文解读 | 三种提升多语言翻译模型的高效策略
本文(《三種提升一對多多語言翻譯策略》)是搜狗和中科院自動化所合作發表在 EMNLP 2018 上的工作。搜狗翻譯目前采用業界領先的神經網絡機器翻譯框架支持 60 種以上不同語言之間的互譯,考慮到當前支持單一語言對的翻譯模型需要較大規模存儲和計算資源,而支持一對多多語言翻譯模型雖然能較好的解決資源占用卻面臨著翻譯質量不高的問題,所以搜狗翻譯對實現和優化多語言翻譯模型存在客觀需要。
論文方法
當前主流的一對多的多語言翻譯模型在該研究之前還存在一定的不合理性。 這種不合理性主要體現在不同語言都包含其特有的語義信息和句法結構,用同一套分布式向量表征會導致模型存在相應的偏差。?
鑒于此,該工作提出了三種策略,改進了多語言翻譯框架來提升多語言神經翻譯模型的翻譯質量。
▲?圖1. “一到多”多語言翻譯示意圖
該策略首先將目標端句子初始位置加上表征翻譯方向的標簽,指示翻譯生成的方向。其次,考慮對于不同的語言而言,結構具有不一致性,這里針對不同的語言嘗試使用不同的位置向量來表征相應的時序信息。該工作對比了絕對位置和相對位置兩種不同的建模方式。
最后,由于神經網絡結構的隱層向量包含著語義信息和句法結構,區別于使用同一套隱層單元表示不同的語言,該策略采用了共享和特有的方式,其中共享一部分隱層向量表征不同語言的共性,而其他部分隱層向量用來表示不同語言特有的屬性。?
▲?圖2. 解碼器網絡隱層狀態表示圖。其中,藍色表示共享的單元,黃色、綠色、紅色分別表示不同具備不同語言特征的隱層單元。
實驗結果
該工作是針對當前多語言翻譯模型的表征問題來提升多語言翻譯性能的一次嘗試,將不同語言特有屬性融合到翻譯模型當中,取得了顯著的提升。
▲?表1.?我們的方法在中英日和英德法兩個翻譯任務上的表現。其中,Indiv表示僅包含雙語句對的模型翻譯結果。O2M是我們復現的谷歌多語言翻譯模型,作為基線系統。①, ②和 ③分別代表我們提出的三種不同的策略。
▲?圖3.?不同共享隱層單元數的比較
點擊以下標題查看更多往期內容:?
自動機器學習(AutoML)最新綜述
自然語言處理中的語言模型預訓練方法
從傅里葉分析角度解讀深度學習的泛化能力
深度解讀DeepMind新作:史上最強GAN圖像生成器
兩行代碼玩轉Google BERT句向量詞向量
這16篇最新論文,幫你輕松積攢知識點
TensorSpace:超酷炫3D神經網絡可視化框架
NIPS 2018:基于條件對抗網絡的領域自適應方法
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢? 答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
??來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
? 投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
?
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 下載論文
總結
以上是生活随笔為你收集整理的EMNLP2018论文解读 | 三种提升多语言翻译模型的高效策略的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 小数据福音!BERT在极小数据下带来显著
- 下一篇: 深度学习工具那么多,究竟哪款最适合你?|