NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法
研究動機(jī)
變分自編碼器(Variational Auto-Ecnoders, VAEs)在自然語言處理的很多任務(wù)中都有應(yīng)用。VAEs 的目標(biāo)函數(shù)包括兩項(xiàng):1)重建項(xiàng);2)KL 正則項(xiàng)。這兩項(xiàng)可以用一個權(quán)重系數(shù) beta 來調(diào)節(jié)平衡,通常情況下 beta 設(shè)置為常數(shù) 1。
當(dāng) VAEs 用到自然語言處理時,它的解碼器 decoder 通常由一個自回歸模型(auto-regressive model)實(shí)現(xiàn)。然而這樣往往會導(dǎo)致訓(xùn)練過程中出現(xiàn)一個糟心的難題:KL 正則項(xiàng)會消失趨近 0。在實(shí)踐中,這意味著學(xué)習(xí)到的特征將不再能夠表達(dá)觀測到的數(shù)據(jù)。本文的目的是希望能夠找到一種策略去解決 KL 消失問題。
研究方法
本文提出一種只需要在訓(xùn)練過程中動態(tài)調(diào)節(jié) beta 就能緩和 KL 消失的策略:Cyclical Annealing Schedule。它周期性地調(diào)節(jié) beta ,在每一個周期內(nèi)有兩個階段:1)beta 值從 0 增加 1;2)并在 beta=1 的時候訓(xùn)練 VAEs。以此多次重復(fù)這個周期 M 次(注意是多次)。
舉個例子:下圖的黑線就是 M=4 個周期,注意,當(dāng) M=1 時,我們就回歸了以前的單調(diào)增加 beta 的方法,如下圖的紅線。
實(shí)驗(yàn)結(jié)果
兩方面:1)我們可以通過可視化學(xué)習(xí)到的特征來洞察不同方法在訓(xùn)練中的表現(xiàn),發(fā)現(xiàn)周期性調(diào)節(jié) beta 可以循序漸進(jìn)地讓結(jié)果變好;2)我們在三個自然語言處理的任務(wù)上驗(yàn)證了算法的有效性,包括語言建模,對話生成,無監(jiān)督特征學(xué)習(xí)。
創(chuàng)新點(diǎn)
1. 我們首先提出兩條信息流惡性競爭去產(chǎn)生數(shù)據(jù)(two-path competition)的觀點(diǎn)去闡釋 KL 消失的問題。
2. 根據(jù)這個理論,我們可以解釋為什么前面的固定或者調(diào)整 beta 的方法會有各自所對應(yīng)的現(xiàn)象。在此基礎(chǔ)上,我們提出一種簡單重復(fù)周期性調(diào)整 beta 的策略去或者 KL 消失問題 。
3. 請注意,我們的方法并沒有增加額外計(jì)算量,在實(shí)踐中很容易去實(shí)用,或者其它改變模型的方法去結(jié)合。比如,可以通過調(diào)用下面的函數(shù)來實(shí)現(xiàn)本文的 beta 策略:
????L?=?np.ones(n_iter)?*?stop
????period?=?n_iter/n_cycle
????step?=?(stop-start)/(period*ratio)?#?linear?schedule
????for?c?in?range(n_cycle):
????????v,?i?=?start,?0
????????while?v?<=?stop?and?(int(i+c*period)?<?n_iter):
????????????L[int(i+c*period)]?=?v
????????????v?+=?step
????????????i?+=?1
????return?L?
個人點(diǎn)評
先貼代碼和博客鏈接:
Code:
https://github.com/haofuml/cyclical_annealing?
MSR Blog:?
https://www.microsoft.com/en-us/research/blog/less-pain-more-gain-a-simple-method-for-vae-training-with-less-of-that-kl-vanishing-agony/?OCID=msr_blog_klvanish_NAACL_tw?
個人覺得兩點(diǎn)比較有意思:1)對于 KL 消失的做出了的兩條信息流競爭的闡釋;2)算法簡單,易用,有效。希望大家能從本文能有所收獲,做出更加有效的方法。
點(diǎn)擊以下標(biāo)題查看更多往期內(nèi)容:?
CVPR 2019 | 無監(jiān)督領(lǐng)域特定單圖像去模糊
圖神經(jīng)網(wǎng)絡(luò)綜述:模型與應(yīng)用
近期值得讀的10篇GAN進(jìn)展論文
小樣本學(xué)習(xí)(Few-shot Learning)綜述
萬字綜述之生成對抗網(wǎng)絡(luò)(GAN)
可逆ResNet:極致的暴力美學(xué)
小米拍照黑科技:基于NAS的圖像超分辨率算法
AAAI 2019 | 基于區(qū)域分解集成的目標(biāo)檢測
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識的人。
總有一些你不認(rèn)識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。
PaperWeekly 鼓勵高校實(shí)驗(yàn)室或個人,在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個,讓知識真正流動起來。
??來稿標(biāo)準(zhǔn):
? 稿件確系個人原創(chuàng)作品,來稿需注明作者個人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?
? 如果文章并非首發(fā),請?jiān)谕陡鍟r提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認(rèn)每篇文章都是首發(fā),均會添加“原創(chuàng)”標(biāo)志
? 投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨(dú)在附件中發(fā)送?
? 請留下即時聯(lián)系方式(微信或手機(jī)),以便我們在編輯發(fā)布時和作者溝通
?
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號后臺點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點(diǎn)擊 |?閱讀原文?| 下載論文
總結(jié)
以上是生活随笔為你收集整理的NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: HAN:基于双层注意力机制的异质图深度神
- 下一篇: PaddlePaddle版Flappy-