日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

#论文 《Towards Binary-Valued Gates for Robust LSTM Training》

發布時間:2025/4/5 编程问答 30 豆豆
生活随笔 收集整理的這篇文章主要介紹了 #论文 《Towards Binary-Valued Gates for Robust LSTM Training》 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

前兩周就看到這篇論文的微信號文章介紹了,今天有空拿出來看一下,梳理一下思想。

這個論文主要解決的是在LSTM中,發現記憶門和遺忘門的值的分布不夠顯著,和LSTM設計思想中想讓門表示記憶或者遺忘的意思不太一致,所以論文作者提出了用一種方法(Gumbel- Softmax estimator)來對門中的閾值進行改進,從而讓閾值更加顯著的趨向0或者1,近似二值化。這樣做有幾個好處:

  • 和設計遺忘門和記憶門的初衷更加符合,讓記憶的就記住,遺忘的就忘掉。讓這些門開就是開,關就是關,而不是所有門都模模糊糊的在中間值附近游蕩。

  • 0-1化的模型參數,更容易壓縮。

  • 泛化能力更強。

  • 作者驗證了門的輸出對于輸入值不敏感,可以通過low-rank approximation and low-precision approximation對數據進行壓縮,壓縮后得到的模型的性能沒有下降,反而更加魯棒和更有泛化性。

    下面是直觀的表示,是否二值化前后的門中的值的數據分布對比,可以看出,確實更加顯著的向兩端分化了。

    ?

    ?

    最主要要學習的思想,還是驗證假設的思想。在LSTM中,對遺忘門和記憶門的假設,去真正看下門內的值的分布,從而去探究模型內部是否有問題,然后才想辦法去糾正這個問題,查看是否會有提升。

    ?

    ?

    總結

    以上是生活随笔為你收集整理的#论文 《Towards Binary-Valued Gates for Robust LSTM Training》的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。