日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

ICLR 2020 | 多模态下使用图片信息显著增强机器翻译效果

發布時間:2024/10/8 编程问答 57 豆豆
生活随笔 收集整理的這篇文章主要介紹了 ICLR 2020 | 多模态下使用图片信息显著增强机器翻译效果 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

論文標題:

Neural Machine Translation with Universal Visual Representation

論文作者:

Zhuosheng Zhang, Kehai Chen, Rui Wang, Masao Utiyama, Eiichiro Sumita, Zuchao Li, Hai Zhao

論文鏈接:

https://openreview.net/forum?id=Byl8hhNYPS

收錄情況:

ICLR 2020 (Spotlight)

代碼鏈接:

https://github.com/cooelf/UVR-NMT


長期以來,機器翻譯都只涉及到文本之間的轉換,但實際上,人的感知功能可以是“多模態”的。

本文提出一種通用的視覺表征,將圖片信息融合到機器翻譯模型中。

使用這種視覺知識融合方法,不需要額外的雙語-圖片標注數據,模型就能夠在多個數據集上取得顯著的效果提升。

多模態與機器翻譯

機器翻譯是兩種語言間的轉換,比如“A dog is playing in the snow”翻譯為中文就是“小狗在雪地里玩耍”。

但人類理解世界不只是用文字,還有視覺、聽覺等感知能力;并且翻譯的過程需要保持“語義”不變。比如下面的圖:

講中文的人會說“小狗在雪地里玩耍”,而講英文的人會說“A dog is playing in the snow”。也就是說,人們對客觀世界的本質認知是相同的,只是“方法”不同,體現在語言上,就是語法上的差異。

為此,我們可以假設在機器翻譯模型中,融入這種“客觀的世界知識”,比如把圖片信息加入,以此期望增強翻譯能力。同時考慮文本和圖片,這就是一種多模態。

然而,過去的翻譯-圖片研究大都需要大量的雙語-圖片標注數據,這在數據上成為一個研究的瓶頸。本文針對這種情況,提出“通用的視覺表示”,僅用單語-圖片標注數據,就能顯著提高機器翻譯的效果。

本文的方法在數據集EN-RO,EN-DE,EN-FR上均有約一個BLEU值的提高,這說明了本方法的有效性。

具體來說,本文貢獻如下:

  • 提出一種通用的視覺表示方法,無需雙語-圖片標注語料;

  • 該方法可以在只有文本的數據集上使用;

  • 實驗證明了該方法效果提升的一致性。

在閱讀完本文之后,讀者可以思考下述問題:

  • 如果要翻譯單語-圖片數據集中沒有的語言,可以怎么做?

  • 在融合步驟,是否可以有其他的方法進行融合?

  • 你認為本文這種方法從邏輯上是否真的有效?為什么?

通用視覺表示

本節來介紹本文的方法。

首先我們有一個單語-圖片數據集,也就是,其中的每條數據都是一張圖片和對圖片的描述。

這個描述的句子為,把其中的停用詞去掉后得到了,它所描述的圖片是。

然后,對中的每個詞,計算它在整個數據集中的TF-IDF值,然后取中TF-IDF值最大的前個詞作為這個圖片的主題詞,也就是和圖片最相關的個詞。

這樣一來,每個圖片都有它主題詞,同時,每個詞都有可能同時是多個圖片的主題詞。我們可以把這看成一個“主題詞-圖片”查詢表,輸入一個詞,就可以在表中查詢以為主題的所有圖片。

那么,現在輸入一個句子,我們就可以按照同樣的步驟:

1.去除停用詞;

2.計算每個詞的TF-IDF;

3.取前個TF-IDF最高的詞;

4.在查詢表中找到所有對應的圖片;

5.按照出現次數的多少排序,取出前個出現次數最多的圖片(因為多個詞可能對應同一個圖片),得到集合。

現在,這個圖片集合就可以認為是和輸入句子對應的視覺信息,可以用它去增強翻譯效果了。下圖是流程示意圖:

在機器翻譯中融合圖片信息

為了把圖片融合進去,我們首先用一個預訓練的ResNet提取圖片集的表示,然后計算與。

這里,是Transformer Encoder的最后一層,是用ResNet得到的圖片集的表示,使用sigmoid計算。

在Decoder端,直接把送入即可。融合步驟如下所示:

實驗

我們在三個數據集上進行實驗:WMT16 En-RO, WMT14 EN-DE和WMT14 EN-FR。這三個數據集大小從小到大增加,從而在不同大小的數據集上都能驗證該方法。

下表是在這三個數據集上的結果,++表示顯著更優。

可以看到,和基線模型(Trans.(base/big))相比,本文的方法(+VR)在三個數據集上都能得到顯著的提升,平均提升約一個BLEU值。同時,只引入了很少的參數量,這就不會使訓練時間幾乎不會增加。

下表是在數據集Multi30K上的結果,這是一個多模態數據集。可以看到,即使在多模態設置下,本文方法依舊能夠取得顯著結果。

最后,我們來看看每個句子對應的圖片集的大小,和手動控制參數的影響。

下圖分別是兩個因素的影響結果。從圖片數量來看,并不是越多的圖片數量越好,也不是越少越好,而是在的區間較好。這是因為,過少的圖片信息不充分,過多的圖片噪聲太多。

參數控制的是圖片信息融合的程度,可以看到,無論融合多少,效果都比不融合圖片信息要好,這說明多模態是有效果的。

而且,手動控制它都沒有模型自動學習好,這也說明模型對不同的輸入句子,需要的視覺信息也是不同的。

小結

本文提出了一種簡單、有效的多模態視覺知識融合方法——首先構建從主題詞到圖片的查詢表,然后對輸入句子找到相關的圖片,然后使用ResNet提取圖片信息融入到機器翻譯模型中。

使用這種方法,可以避免對大規模雙語-圖片數據的依賴。實驗結果也表明,這種方法可以一致地提高翻譯效果。

思考題討論

  • 如果要翻譯單語-圖片數據集中沒有的語言,可以怎么做?

    比如沒有日語,我們可以用一個日語的image caption模型去自動標注每個圖片的描述。

    或者可以用X-日語的機器翻譯得到圖片翻譯后的描述;或者直接用一個現有的詞典,把圖片的主題詞直接翻譯成日語。其他方法亦可。

  • 在融合步驟,是否可以有其他的方法進行融合?

    另外一個簡單的方法是,把ResNet得到的圖片表示和句子一起,送入Encoder,再像往常一樣解碼。

  • 你認為本文這種方法從邏輯上是否真的有效?為什么?

    見仁見智,筆者傾向于有效,但是作用不大,因為只從模型的角度難以驗證圖片和文本之間語義的相關性,至于效果的提升,有可能是ResNet和Aggregate的共同結果。

    筆者認為,可以考慮加一個圖片預測描述的任務,和翻譯一起學習;再將ResNet替換為普通的CNN進行實驗。

????

現在,在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

關于PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。

總結

以上是生活随笔為你收集整理的ICLR 2020 | 多模态下使用图片信息显著增强机器翻译效果的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。