當(dāng)前位置：首頁 >

ICLR 2020 | 多模态下使用图片信息显著增强机器翻译效果

發(fā)布時(shí)間：2024/10/8 65 豆豆

生活随笔收集整理的這篇文章主要介紹了 ICLR 2020 | 多模态下使用图片信息显著增强机器翻译效果小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

論文標(biāo)題：

Neural Machine Translation with Universal Visual Representation

論文作者：

Zhuosheng Zhang, Kehai Chen, Rui Wang, Masao Utiyama, Eiichiro Sumita, Zuchao Li, Hai Zhao

論文鏈接：

https://openreview.net/forum?id=Byl8hhNYPS

收錄情況：

ICLR 2020 (Spotlight)

代碼鏈接：

https://github.com/cooelf/UVR-NMT

長期以來，機(jī)器翻譯都只涉及到文本之間的轉(zhuǎn)換，但實(shí)際上，人的感知功能可以是“多模態(tài)”的。

本文提出一種通用的視覺表征，將圖片信息融合到機(jī)器翻譯模型中。

使用這種視覺知識(shí)融合方法，不需要額外的雙語-圖片標(biāo)注數(shù)據(jù)，模型就能夠在多個(gè)數(shù)據(jù)集上取得顯著的效果提升。

多模態(tài)與機(jī)器翻譯

機(jī)器翻譯是兩種語言間的轉(zhuǎn)換，比如“A dog is playing in the snow”翻譯為中文就是“小狗在雪地里玩耍”。

但人類理解世界不只是用文字，還有視覺、聽覺等感知能力；并且翻譯的過程需要保持“語義”不變。比如下面的圖：

講中文的人會(huì)說“小狗在雪地里玩耍”，而講英文的人會(huì)說“A dog is playing in the snow”。也就是說，人們對客觀世界的本質(zhì)認(rèn)知是相同的，只是“方法”不同，體現(xiàn)在語言上，就是語法上的差異。

為此，我們可以假設(shè)在機(jī)器翻譯模型中，融入這種“客觀的世界知識(shí)”，比如把圖片信息加入，以此期望增強(qiáng)翻譯能力。同時(shí)考慮文本和圖片，這就是一種多模態(tài)。

然而，過去的翻譯-圖片研究大都需要大量的雙語-圖片標(biāo)注數(shù)據(jù)，這在數(shù)據(jù)上成為一個(gè)研究的瓶頸。本文針對這種情況，提出“通用的視覺表示”，僅用單語-圖片標(biāo)注數(shù)據(jù)，就能顯著提高機(jī)器翻譯的效果。

本文的方法在數(shù)據(jù)集EN-RO，EN-DE，EN-FR上均有約一個(gè)BLEU值的提高，這說明了本方法的有效性。

具體來說，本文貢獻(xiàn)如下：

提出一種通用的視覺表示方法，無需雙語-圖片標(biāo)注語料；
該方法可以在只有文本的數(shù)據(jù)集上使用；
實(shí)驗(yàn)證明了該方法效果提升的一致性。

在閱讀完本文之后，讀者可以思考下述問題：

如果要翻譯單語-圖片數(shù)據(jù)集中沒有的語言，可以怎么做？
在融合步驟，是否可以有其他的方法進(jìn)行融合？
你認(rèn)為本文這種方法從邏輯上是否真的有效？為什么？

通用視覺表示

本節(jié)來介紹本文的方法。

首先我們有一個(gè)單語-圖片數(shù)據(jù)集，也就是，其中的每條數(shù)據(jù)都是一張圖片和對圖片的描述。

這個(gè)描述的句子為，把其中的停用詞去掉后得到了，它所描述的圖片是。

然后，對中的每個(gè)詞，計(jì)算它在整個(gè)數(shù)據(jù)集中的TF-IDF值，然后取中TF-IDF值最大的前個(gè)詞作為這個(gè)圖片的主題詞，也就是和圖片最相關(guān)的個(gè)詞。

這樣一來，每個(gè)圖片都有它主題詞，同時(shí)，每個(gè)詞都有可能同時(shí)是多個(gè)圖片的主題詞。我們可以把這看成一個(gè)“主題詞-圖片”查詢表，輸入一個(gè)詞，就可以在表中查詢以為主題的所有圖片。

那么，現(xiàn)在輸入一個(gè)句子，我們就可以按照同樣的步驟：

1.去除停用詞；

2.計(jì)算每個(gè)詞的TF-IDF；

3.取前個(gè)TF-IDF最高的詞；

4.在查詢表中找到所有對應(yīng)的圖片；

5.按照出現(xiàn)次數(shù)的多少排序，取出前個(gè)出現(xiàn)次數(shù)最多的圖片（因?yàn)槎鄠€(gè)詞可能對應(yīng)同一個(gè)圖片），得到集合。

現(xiàn)在，這個(gè)圖片集合就可以認(rèn)為是和輸入句子對應(yīng)的視覺信息，可以用它去增強(qiáng)翻譯效果了。下圖是流程示意圖：

在機(jī)器翻譯中融合圖片信息

為了把圖片融合進(jìn)去，我們首先用一個(gè)預(yù)訓(xùn)練的ResNet提取圖片集的表示，然后計(jì)算與。

這里，是Transformer Encoder的最后一層，是用ResNet得到的圖片集的表示，使用sigmoid計(jì)算。

在Decoder端，直接把送入即可。融合步驟如下所示：

實(shí)驗(yàn)

我們在三個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)：WMT16 En-RO, WMT14 EN-DE和WMT14 EN-FR。這三個(gè)數(shù)據(jù)集大小從小到大增加，從而在不同大小的數(shù)據(jù)集上都能驗(yàn)證該方法。

下表是在這三個(gè)數(shù)據(jù)集上的結(jié)果，++表示顯著更優(yōu)。

可以看到，和基線模型(Trans.(base/big))相比，本文的方法(+VR)在三個(gè)數(shù)據(jù)集上都能得到顯著的提升，平均提升約一個(gè)BLEU值。同時(shí)，只引入了很少的參數(shù)量，這就不會(huì)使訓(xùn)練時(shí)間幾乎不會(huì)增加。

下表是在數(shù)據(jù)集Multi30K上的結(jié)果，這是一個(gè)多模態(tài)數(shù)據(jù)集。可以看到，即使在多模態(tài)設(shè)置下，本文方法依舊能夠取得顯著結(jié)果。

最后，我們來看看每個(gè)句子對應(yīng)的圖片集的大小，和手動(dòng)控制參數(shù)的影響。

下圖分別是兩個(gè)因素的影響結(jié)果。從圖片數(shù)量來看，并不是越多的圖片數(shù)量越好，也不是越少越好，而是在的區(qū)間較好。這是因?yàn)?#xff0c;過少的圖片信息不充分，過多的圖片噪聲太多。

參數(shù)控制的是圖片信息融合的程度，可以看到，無論融合多少，效果都比不融合圖片信息要好，這說明多模態(tài)是有效果的。

而且，手動(dòng)控制它都沒有模型自動(dòng)學(xué)習(xí)好，這也說明模型對不同的輸入句子，需要的視覺信息也是不同的。

小結(jié)

本文提出了一種簡單、有效的多模態(tài)視覺知識(shí)融合方法——首先構(gòu)建從主題詞到圖片的查詢表，然后對輸入句子找到相關(guān)的圖片，然后使用ResNet提取圖片信息融入到機(jī)器翻譯模型中。

使用這種方法，可以避免對大規(guī)模雙語-圖片數(shù)據(jù)的依賴。實(shí)驗(yàn)結(jié)果也表明，這種方法可以一致地提高翻譯效果。

思考題討論

如果要翻譯單語-圖片數(shù)據(jù)集中沒有的語言，可以怎么做？
比如沒有日語，我們可以用一個(gè)日語的image caption模型去自動(dòng)標(biāo)注每個(gè)圖片的描述。
或者可以用X-日語的機(jī)器翻譯得到圖片翻譯后的描述；或者直接用一個(gè)現(xiàn)有的詞典，把圖片的主題詞直接翻譯成日語。其他方法亦可。

在融合步驟，是否可以有其他的方法進(jìn)行融合？
另外一個(gè)簡單的方法是，把ResNet得到的圖片表示和句子一起，送入Encoder，再像往常一樣解碼。

你認(rèn)為本文這種方法從邏輯上是否真的有效？為什么？
見仁見智，筆者傾向于有效，但是作用不大，因?yàn)橹粡哪Ｐ偷慕嵌入y以驗(yàn)證圖片和文本之間語義的相關(guān)性，至于效果的提升，有可能是ResNet和Aggregate的共同結(jié)果。
筆者認(rèn)為，可以考慮加一個(gè)圖片預(yù)測描述的任務(wù)，和翻譯一起學(xué)習(xí)；再將ResNet替換為普通的CNN進(jìn)行實(shí)驗(yàn)。

????

現(xiàn)在，在「知乎」也能找到我們了

進(jìn)入知乎首頁搜索「PaperWeekly」

點(diǎn)擊「關(guān)注」訂閱我們的專欄吧

關(guān)于PaperWeekly

PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域，歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」，小助手將把你帶入 PaperWeekly 的交流群里。

總結(jié)

以上是生活随笔為你收集整理的ICLR 2020 | 多模态下使用图片信息显著增强机器翻译效果的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： Steam 新一周销量榜：《七龙珠电光
下一篇：最小熵原理系列：词向量的维度应该怎么选择

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

ICLR 2020 | 多模态下使用图片信息显著增强机器翻译效果

總結(jié)