當前位置：首頁 >

哈佛NLP组论文解读：基于隐变量的注意力模型 | 附开源代码

發布時間：2024/10/8 91 豆豆

生活随笔收集整理的這篇文章主要介紹了哈佛NLP组论文解读：基于隐变量的注意力模型 | 附开源代码小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

作者丨鄧云天

學校丨哈佛大學NLP組博士生

研究方向丨自然語言處理

摘要

Attention 注意力模型在神經網絡中被廣泛應用。在已有的工作中，Attention 機制一般是決定性的而非隨機變量。我們提出了將 Attention 建模成隱變量，并應用 VAE 和 policy gradient 訓練模型。在不使用 KL annealing 等 trick 的情況下訓練，在 IWSLT 14 German-English 上建立了新的 state-of-the-art。

■?論文 | Latent Alignment and Variational Attention

■ 鏈接 | https://www.paperweekly.site/papers/2120

■ 源碼 |?https://github.com/harvardnlp/var-attn

背景

近年來很多文章將 VAE 應用到文本生成上，通過引入隱變量對文本中的一些不確定性（diversity，如文章風格主題、蘊含情感等）進行建模。這樣做往往會遇到一個常見的問題—— KL collapsing。這個問題最早在 16 年時由 Bowman 指出 [1]，其描述的現象是直接訓練 VAE 得到的 KL 接近 0——這也就意味著近似后驗和先驗一樣，使得隱變量被模型忽略 [5]。

Bowman 的解決辦法是使用 KL annealing [1]（KL 項的權重從 0 開始逐漸增加到 1）或者 word dropout（不常用在此略過）。隨后，17 年 Yang 等人對 KL collapsing 的問題進行了更細致的分析 [2]，并提出降低 decoder 的 contextual capacity 改善這個現象。此外 Zhao 等人提出 bag-of-word loss 去解決這個問題 [3]。18年 Graves 等人也對 KL collapsing 進行了分析 [4]。

在我們的工作中，Attention 被建模成隱變量。值得注意的是，我們將 Attention 建模成隱變量并不是為了單純應用 VAE 這個工具，而是因為我們認為將 Attention 建模成隱變量可以為 decoder 提供更 clean 的 feature，從而在不增加模型參數的情況下提高模型的表達能力（注意 inference network 在測試階段不被使用因此不計入模型參數）。

以下是一個簡單的直覺：下圖藍色部分展示的是傳統 Attention，下圖紅色部分展示的我們提出的隱變量 Attention。傳統的 Attention 機制僅能通過之前生成的單詞確定當前即將生成單詞的 Attention，而因為存在多種翻譯方式，所以會出現 attend 到和實際翻譯的單詞并不對應的位置的問題。而在紅色部分展示的我們提出的隱變量 Attention 中，我們可以通過全部的源文本和目標文本去得到更準確的后驗 Attention，因此 Attention 和實際翻譯應該 attend 的源單詞對應得更好。并且，這樣得到的更好的后驗 Attention 可以提供給 decoder，從而使 decoder 拿到更 clean 的 feature，藉此可以得到更好的模型。

方法

基于這個直覺，我們將注意力 Attention 建模成隱變量。假定 x 是源文本，y 是目標文本，z 是 attention，根據標準的 VAE 方法，我們引入 inference network q(z | x, y) 去近似后驗，那么 ELBO 可以表達為（為了簡單我們考慮目標文本只有一個單詞的情況）：

上面不等式的右側是 ELBO，其中第一項是從 q(z | x, y) 中采樣出 Attention，使用采樣出的 Attention 作為 decoder 的輸入計算 cross entropy loss，第二項是確保后驗分布接近先驗分布。這里值得注意的是，此處的先驗和一般的 VAE 不同，我們的先驗是和模型一起學習的。

因為我們的 p(z | x) 和 q(z | x, y) 都是 categorical 分布，所以我們使用 policy gradient 去優化上面的目標函數。由于 decoder 和 encoder 之間的主要信息傳輸通道是通過 attention，如果忽略了這個隱變量，就會無法得到源文本的信息而得到很大的 penalty。這與之前的許多工作中直接把隱變量加入到每個 decoding step 不同，因為那樣即使 decoder 忽略了隱變量，也可以達到很好的模型表現 [5]。因此通過直接優化目標函數這個隱變量也不易被忽略，我們的實驗完全驗證了這一點。

由于我們的后驗 q 能看到全部的 x 和 y，因此后驗中采樣的 Attention 可以比先驗 p(z | x) 好，比如以下的例子：

這里我們把德語（縱向）翻譯成英語（橫向）。紅色代表先驗，即只觀測到 x 而不觀測到 y 的 p(z | x)，藍色代表后驗，即觀測到全部信息的 p(z | x, y)。注意到在第二個單詞 actually 處，紅色的先驗試圖 attend 到 nun 后面的逗號“,”，從而試圖生成一個 “well,” 的翻譯結果。然而實際的英語翻譯中并沒有逗號，反而直接是 well actually。

由于后驗 q(z | x, y) 可以看到實際的翻譯，因此藍色的后驗正確 attend 到了 tatsachlich 上。注意到訓練目標 ELBO 中我們從 q 中采樣 Attention 給 decoder，因此通過使用 VAE 的方法，decoder 得到了更準確的 Attention 信號，從而可能提高模型的表達能力。

結果

實驗上，我們在 IWSLT 14 German-English 上得到了新的 state-of-art。其中 KL 大約在 0.5，cross entropy loss 大約在 1.26，而且我們人工比較了很多后驗和先驗也很符合我們的建模直覺。

歡迎嘗試我們的代碼，我們提供了能復現我們 state-of-art 效果的 preprocessing、training、evaluation 的 command，以及我們報告的模型。

相比過去的大部分工作是從 Attention 計算出來的固定維度的 context vector，我們提出了將 Attention 建模成隱變量，即在 simplex 上的 Attention 本身。由于我們的工作是對 Attention 注意力機制的改進，因此理論上可以被應用到一切包含 Attention 的 task 中。文章里除了機器翻譯外我們也做了個視覺問答系統的實驗。我們的具體模型和 inference network 的結構請參見我們的論文和代碼。

限于作者的水平，本文中有錯誤和紕漏在所難免，望讀者朋友多多包涵。也歡迎發郵件給我 dengyuntian@seas.harvard.edu 交流。

參考文獻

[1]. Bowman et al, Generating Sentences from a Continuous Space?

[2]. Yang et al, Improved Variational Autoencoders for Text Modeling using Dilated Convolutions?

[3]. Zhao et al, Learning Discourse-level Diversity for Neural Dialog Models using Conditional Variational Autoencoders?

[4]. Graves et al, Associative Compression Networks for Representation Learning?

[5]. Zhang et al, Variational Neural Machine Translation

點擊標題查看更多論文解讀：?

??ACL2018高分論文：混合高斯隱向量文法
??基于詞向量的簡單模型 | ACL 2018論文解讀
??COLING 2018最佳論文：序列標注經典模型復現
??圖像壓縮哪家強？請看這份超詳細對比
??CVPR 2018 最佳論文解讀：探秘任務遷移學習
??深度學習模型復現難？句子對模型復現論文

關于PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域，歡迎在公眾號后臺點擊「交流群」，小助手將把你帶入 PaperWeekly 的交流群里。

▽ 點擊 |?閱讀原文?| 下載論文

總結

以上是生活随笔為你收集整理的哈佛NLP组论文解读：基于隐变量的注意力模型 | 附开源代码的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： CVer入门必备：计算机视觉的深度学习实
下一篇：线下报名 | YOCSEF TDS：深度

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

哈佛NLP组论文解读：基于隐变量的注意力模型 | 附开源代码

摘要

背景

方法

結果

參考文獻

總結