當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法

發布時間：2024/10/8 编程问答 44 豆豆

生活随笔收集整理的這篇文章主要介紹了 NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

研究動機

變分自編碼器（Variational Auto-Ecnoders, VAEs）在自然語言處理的很多任務中都有應用。VAEs 的目標函數包括兩項：1）重建項；2）KL 正則項。這兩項可以用一個權重系數 beta 來調節平衡，通常情況下 beta 設置為常數 1。

當 VAEs 用到自然語言處理時，它的解碼器 decoder 通常由一個自回歸模型（auto-regressive model）實現。然而這樣往往會導致訓練過程中出現一個糟心的難題：KL 正則項會消失趨近 0。在實踐中，這意味著學習到的特征將不再能夠表達觀測到的數據。本文的目的是希望能夠找到一種策略去解決 KL 消失問題。

研究方法

本文提出一種只需要在訓練過程中動態調節 beta 就能緩和 KL 消失的策略：Cyclical Annealing Schedule。它周期性地調節 beta ，在每一個周期內有兩個階段：1）beta 值從 0 增加 1；2）并在 beta=1 的時候訓練 VAEs。以此多次重復這個周期 M 次（注意是多次）。

舉個例子：下圖的黑線就是 M=4 個周期，注意，當 M=1 時，我們就回歸了以前的單調增加 beta 的方法，如下圖的紅線。

實驗結果

兩方面：1）我們可以通過可視化學習到的特征來洞察不同方法在訓練中的表現，發現周期性調節 beta 可以循序漸進地讓結果變好；2）我們在三個自然語言處理的任務上驗證了算法的有效性，包括語言建模，對話生成，無監督特征學習。

創新點

1. 我們首先提出兩條信息流惡性競爭去產生數據（two-path competition）的觀點去闡釋 KL 消失的問題。

2. 根據這個理論，我們可以解釋為什么前面的固定或者調整 beta 的方法會有各自所對應的現象。在此基礎上，我們提出一種簡單重復周期性調整 beta 的策略去或者 KL 消失問題。

3. 請注意，我們的方法并沒有增加額外計算量，在實踐中很容易去實用，或者其它改變模型的方法去結合。比如，可以通過調用下面的函數來實現本文的 beta 策略：

def?frange_cycle_linear(n_iter,?start=0.0,?stop=1.0,??n_cycle=4,?ratio=0.5):
????L?=?np.ones(n_iter)?*?stop
????period?=?n_iter/n_cycle
????step?=?(stop-start)/(period*ratio)?#?linear?schedule

????for?c?in?range(n_cycle):
????????v,?i?=?start,?0
????????while?v?<=?stop?and?(int(i+c*period)?<?n_iter):
????????????L[int(i+c*period)]?=?v
????????????v?+=?step
????????????i?+=?1
????return?L?

個人點評

先貼代碼和博客鏈接：

Code:

https://github.com/haofuml/cyclical_annealing?

MSR Blog:?

https://www.microsoft.com/en-us/research/blog/less-pain-more-gain-a-simple-method-for-vae-training-with-less-of-that-kl-vanishing-agony/?OCID=msr_blog_klvanish_NAACL_tw?

個人覺得兩點比較有意思：1）對于 KL 消失的做出了的兩條信息流競爭的闡釋；2）算法簡單，易用，有效。希望大家能從本文能有所收獲，做出更加有效的方法。

點擊以下標題查看更多往期內容：?

CVPR 2019 | 無監督領域特定單圖像去模糊
圖神經網絡綜述：模型與應用
近期值得讀的10篇GAN進展論文
小樣本學習（Few-shot Learning）綜述
萬字綜述之生成對抗網絡（GAN）
可逆ResNet：極致的暴力美學
小米拍照黑科技：基于NAS的圖像超分辨率算法
AAAI 2019 | 基于區域分解集成的目標檢測

#投稿通道#

?讓你的論文被更多人看到?

如何才能讓更多的優質內容以更短路徑到達讀者群體，縮短讀者尋找優質內容的成本呢？答案就是：你不認識的人。

總有一些你不認識的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁，促使不同背景、不同方向的學者和學術靈感相互碰撞，迸發出更多的可能性。

PaperWeekly 鼓勵高校實驗室或個人，在我們的平臺上分享各類優質內容，可以是最新論文解讀，也可以是學習心得或技術干貨。我們的目的只有一個，讓知識真正流動起來。

??來稿標準：

? 稿件確系個人原創作品，來稿需注明作者個人信息（姓名+學校/工作單位+學歷/職位+研究方向）?

? 如果文章并非首發，請在投稿時提醒并附上所有已發布鏈接?

? PaperWeekly 默認每篇文章都是首發，均會添加“原創”標志

? 投稿郵箱：

? 投稿郵箱：hr@paperweekly.site?

? 所有文章配圖，請單獨在附件中發送?

? 請留下即時聯系方式（微信或手機），以便我們在編輯發布時和作者溝通

現在，在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

關于PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域，歡迎在公眾號后臺點擊「交流群」，小助手將把你帶入 PaperWeekly 的交流群里。

▽ 點擊 |?閱讀原文?| 下載論文

總結

以上是生活随笔為你收集整理的NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： HAN：基于双层注意力机制的异质图深度神
下一篇： PaddlePaddle版Flappy-