【干货】人人都能看懂的LSTM
推薦閱讀時(shí)間:8min~13min
推薦理由:這是在看了臺(tái)大李宏毅教授的深度學(xué)習(xí)視頻之后的一點(diǎn)總結(jié)和感想。看完介紹的第一部分RNN尤其LSTM的介紹之后,整個(gè)人醍醐灌頂。
循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)是一種用于處理序列數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)。相比一般的神經(jīng)網(wǎng)絡(luò)來說,他能夠處理序列變化的數(shù)據(jù)。比如某個(gè)單詞的意思會(huì)因?yàn)樯衔奶岬降膬?nèi)容不同而有不同的含義,RNN就能夠很好地解決這類問題。
先簡(jiǎn)單介紹一下一般的RNN。
其主要形式如下圖所示(圖片均來自臺(tái)大李宏毅教授的PPT):
通過序列形式的輸入,我們能夠得到如下形式的RNN。
長(zhǎng)短期記憶(Long short-term memory, LSTM)是一種特殊的RNN,主要是為了解決長(zhǎng)序列訓(xùn)練過程中的梯度消失和梯度爆炸問題。簡(jiǎn)單來說,就是相比普通的RNN,LSTM能夠在更長(zhǎng)的序列中有更好的表現(xiàn)。
LSTM結(jié)構(gòu)(圖右)和普通RNN的主要輸入輸出區(qū)別如下所示。
下面具體對(duì)LSTM的內(nèi)部結(jié)構(gòu)來進(jìn)行剖析。
下面開始進(jìn)一步介紹這四個(gè)狀態(tài)在LSTM內(nèi)部的使用。(敲黑板)
LSTM內(nèi)部主要有三個(gè)階段:
以上,就是LSTM的內(nèi)部結(jié)構(gòu)。通過門控狀態(tài)來控制傳輸狀態(tài),記住需要長(zhǎng)時(shí)間記憶的,忘記不重要的信息;而不像普通的RNN那樣只能夠“呆萌”地僅有一種記憶疊加方式。對(duì)很多需要“長(zhǎng)期記憶”的任務(wù)來說,尤其好用。
但也因?yàn)橐肓撕芏鄡?nèi)容,導(dǎo)致參數(shù)變多,也使得訓(xùn)練難度加大了很多。因此很多時(shí)候我們往往會(huì)使用效果和LSTM相當(dāng)?shù)珔?shù)更少的GRU來構(gòu)建大訓(xùn)練量的模型。
對(duì)于GRU我會(huì)在以后的文章中進(jìn)行介紹。
總結(jié)
以上是生活随笔為你收集整理的【干货】人人都能看懂的LSTM的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 为什么程序员发现不了自己的BUG?
- 下一篇: 一位像素艺术家用39张动图,将大自然的唯