日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

哈佛NLP组论文解读:基于隐变量的注意力模型 | 附开源代码

發布時間:2024/10/8 编程问答 79 豆豆
生活随笔 收集整理的這篇文章主要介紹了 哈佛NLP组论文解读:基于隐变量的注意力模型 | 附开源代码 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.


作者丨鄧云天

學校丨哈佛大學NLP組博士生

研究方向丨自然語言處理


摘要


Attention 注意力模型在神經網絡中被廣泛應用。在已有的工作中,Attention 機制一般是決定性的而非隨機變量。我們提出了將 Attention 建模成隱變量,并應用 VAE 和 policy gradient 訓練模型。在不使用 KL annealing 等 trick 的情況下訓練,在 IWSLT 14 German-English 上建立了新的 state-of-the-art。


■?論文 | Latent Alignment and Variational Attention

■ 鏈接 | https://www.paperweekly.site/papers/2120

■ 源碼 |?https://github.com/harvardnlp/var-attn

背景


近年來很多文章將 VAE 應用到文本生成上,通過引入隱變量對文本中的一些不確定性(diversity,如文章風格主題、蘊含情感等)進行建模。這樣做往往會遇到一個常見的問題—— KL collapsing。這個問題最早在 16 年時由 Bowman 指出 [1],其描述的現象是直接訓練 VAE 得到的 KL 接近 0——這也就意味著近似后驗和先驗一樣,使得隱變量被模型忽略 [5]


Bowman 的解決辦法是使用 KL annealing [1](KL 項的權重從 0 開始逐漸增加到 1)或者 word dropout(不常用在此略過)。隨后,17 年 Yang 等人對 KL collapsing 的問題進行了更細致的分析 [2],并提出降低 decoder 的 contextual capacity 改善這個現象。此外 Zhao 等人提出 bag-of-word loss 去解決這個問題 [3]。18年 Graves 等人也對 KL collapsing 進行了分析 [4]


在我們的工作中,Attention 被建模成隱變量。值得注意的是,我們將 Attention 建模成隱變量并不是為了單純應用 VAE 這個工具,而是因為我們認為將 Attention 建模成隱變量可以為 decoder 提供更 clean 的 feature,從而在不增加模型參數的情況下提高模型的表達能力(注意 inference network 在測試階段不被使用因此不計入模型參數)。


以下是一個簡單的直覺:下圖藍色部分展示的是傳統 Attention,下圖紅色部分展示的我們提出的隱變量 Attention。傳統的 Attention 機制僅能通過之前生成的單詞確定當前即將生成單詞的 Attention,而因為存在多種翻譯方式,所以會出現 attend 到和實際翻譯的單詞并不對應的位置的問題。而在紅色部分展示的我們提出的隱變量 Attention 中,我們可以通過全部的源文本和目標文本去得到更準確的后驗 Attention,因此 Attention 和實際翻譯應該 attend 的源單詞對應得更好。并且,這樣得到的更好的后驗 Attention 可以提供給 decoder,從而使 decoder 拿到更 clean 的 feature,藉此可以得到更好的模型。



方法


基于這個直覺,我們將注意力 Attention 建模成隱變量。假定 x 是源文本,y 是目標文本,z 是 attention,根據標準的 VAE 方法,我們引入 inference network q(z | x, y) 去近似后驗,那么 ELBO 可以表達為(為了簡單我們考慮目標文本只有一個單詞的情況):



上面不等式的右側是 ELBO,其中第一項是從 q(z | x, y) 中采樣出 Attention,使用采樣出的 Attention 作為 decoder 的輸入計算 cross entropy loss,第二項是確保后驗分布接近先驗分布。這里值得注意的是,此處的先驗和一般的 VAE 不同,我們的先驗是和模型一起學習的。


因為我們的 p(z | x) 和 q(z | x, y) 都是 categorical 分布,所以我們使用 policy gradient 去優化上面的目標函數。由于 decoder 和 encoder 之間的主要信息傳輸通道是通過 attention,如果忽略了這個隱變量,就會無法得到源文本的信息而得到很大的 penalty。這與之前的許多工作中直接把隱變量加入到每個 decoding step 不同,因為那樣即使 decoder 忽略了隱變量,也可以達到很好的模型表現 [5]。因此通過直接優化目標函數這個隱變量也不易被忽略,我們的實驗完全驗證了這一點。


由于我們的后驗 q 能看到全部的 x 和 y,因此后驗中采樣的 Attention 可以比先驗 p(z | x) 好,比如以下的例子:



這里我們把德語(縱向)翻譯成英語(橫向)。紅色代表先驗,即只觀測到 x 而不觀測到 y 的 p(z | x),藍色代表后驗,即觀測到全部信息的 p(z | x, y)。注意到在第二個單詞 actually 處,紅色的先驗試圖 attend 到 nun 后面的逗號“,”,從而試圖生成一個 “well,” 的翻譯結果。然而實際的英語翻譯中并沒有逗號,反而直接是 well actually。


由于后驗 q(z | x, y) 可以看到實際的翻譯,因此藍色的后驗正確 attend 到了 tatsachlich 上。注意到訓練目標 ELBO 中我們從 q 中采樣 Attention 給 decoder,因此通過使用 VAE 的方法,decoder 得到了更準確的 Attention 信號,從而可能提高模型的表達能力。


結果


實驗上,我們在 IWSLT 14 German-English 上得到了新的 state-of-art。其中 KL 大約在 0.5,cross entropy loss 大約在 1.26,而且我們人工比較了很多后驗和先驗也很符合我們的建模直覺。


歡迎嘗試我們的代碼,我們提供了能復現我們 state-of-art 效果的 preprocessing、training、evaluation 的 command,以及我們報告的模型。


相比過去的大部分工作是從 Attention 計算出來的固定維度的 context vector,我們提出了將 Attention 建模成隱變量,即在 simplex 上的 Attention 本身。由于我們的工作是對 Attention 注意力機制的改進,因此理論上可以被應用到一切包含 Attention 的 task 中。文章里除了機器翻譯外我們也做了個視覺問答系統的實驗。我們的具體模型和 inference network 的結構請參見我們的論文和代碼。


限于作者的水平,本文中有錯誤和紕漏在所難免,望讀者朋友多多包涵。也歡迎發郵件給我 dengyuntian@seas.harvard.edu 交流。


參考文獻


[1]. Bowman et al, Generating Sentences from a Continuous Space?

[2]. Yang et al, Improved Variational Autoencoders for Text Modeling using Dilated Convolutions?

[3]. Zhao et al, Learning Discourse-level Diversity for Neural Dialog Models using Conditional Variational Autoencoders?

[4]. Graves et al, Associative Compression Networks for Representation Learning?

[5]. Zhang et al, Variational Neural Machine Translation


點擊標題查看更多論文解讀:?


  • ??ACL2018高分論文:混合高斯隱向量文法

  • ??基于詞向量的簡單模型 | ACL 2018論文解讀

  • ??COLING 2018最佳論文:序列標注經典模型復現

  • ??圖像壓縮哪家強?請看這份超詳細對比

  • ??CVPR 2018 最佳論文解讀:探秘任務遷移學習

  • ??深度學習模型復現難?句子對模型復現論文


關于PaperWeekly


PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。


▽ 點擊 |?閱讀原文?| 下載論文

總結

以上是生活随笔為你收集整理的哈佛NLP组论文解读:基于隐变量的注意力模型 | 附开源代码的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。