當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

lstm原理_Mamp;DL | LSTM：遗忘门、记忆门、输出门

發(fā)布時(shí)間：2025/3/21 编程问答 34 豆豆

生活随笔收集整理的這篇文章主要介紹了 lstm原理_Mamp;DL | LSTM：遗忘门、记忆门、输出门小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

LSTM（Long short term memory，長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)），是一種特殊的RNN（Recurrent Neural Network，循環(huán)神經(jīng)網(wǎng)絡(luò)），能夠?qū)W習(xí)長(zhǎng)期的依賴關(guān)系。LSTM在這篇文章中被提出。

所有RNN都具有神經(jīng)網(wǎng)絡(luò)的重復(fù)模塊鏈的形式。在標(biāo)準(zhǔn)的RNN中，該重復(fù)模塊將具有非常簡(jiǎn)單的結(jié)構(gòu)，例如單個(gè)tanh層。標(biāo)準(zhǔn)的RNN網(wǎng)絡(luò)如下圖所示

標(biāo)準(zhǔn)RNN中的重復(fù)模塊包含一個(gè)單層

LSTM也具有神經(jīng)網(wǎng)絡(luò)的重復(fù)模塊鏈的形式。只是在CNN的基礎(chǔ)上，每個(gè)重復(fù)模塊增加了三個(gè)神經(jīng)網(wǎng)絡(luò)層，如下圖所示

LSTM中的重復(fù)模塊包含四個(gè)神經(jīng)網(wǎng)絡(luò)層圖中的綠色大框代表單元模塊；黃色方框代表神經(jīng)網(wǎng)絡(luò)層；粉色圓圈代表逐點(diǎn)操作，例如矢量加法；箭頭表示向量轉(zhuǎn)換，從一個(gè)節(jié)點(diǎn)輸出到另一個(gè)節(jié)點(diǎn)輸入；合并的行表示串聯(lián)，而分叉的行表示要復(fù)制的內(nèi)容，并且副本將到達(dá)不同的位置。

核心思想

CNN的主線就是這條頂部水平貫穿的線，也就是長(zhǎng)期記憶C線（細(xì)胞狀態(tài)），達(dá)到了序列學(xué)習(xí)的目的。而h可以看做是短期記憶，x代表事件信息,也就是輸入。LSTM也是以這一條水平貫穿的C線為主線，在此基礎(chǔ)上添加三個(gè)門，以保護(hù)控制單元狀態(tài)。所以LSTM有刪除或向單元狀態(tài)添加信息的能力，都是由這門的結(jié)構(gòu)來(lái)調(diào)節(jié)控制的。

這個(gè)門（gate）是一種選擇性的讓信息通過(guò)的方式。它是由Sigmoid神經(jīng)網(wǎng)絡(luò)和矩陣逐點(diǎn)乘運(yùn)算組成。

增加的三個(gè)神經(jīng)網(wǎng)絡(luò)層就代表LSTM的三個(gè)門（遺忘門、記憶門、輸出門）。

遺忘門

顧名思義，要遺忘或丟棄一些信息。遺忘門的任務(wù)就是接受一個(gè)長(zhǎng)期記憶

（上一個(gè)單元模塊傳過(guò)來(lái)的輸出）并決定要保留和遺忘的哪個(gè)部分。例如，在語(yǔ)言模型中，我們想要通過(guò)一個(gè)詞來(lái)預(yù)測(cè)下一個(gè)詞，單元模塊中可能包含某個(gè)屬性在下一個(gè)模塊單元不需要，就可以將這個(gè)屬性在單元模塊C中遺忘（丟棄）。

LSTM中的遺忘門

數(shù)學(xué)原理：把t-1時(shí)的長(zhǎng)期記憶輸入

乘上一個(gè)遺忘因子。遺忘因子是由短期記憶以及事件信息來(lái)計(jì)算。

遺忘因子計(jì)算公式：

記憶門

記憶門的作用是確定什么樣的新信息被存放在細(xì)胞狀態(tài)（也就是前面說(shuō)的單元模塊）中。記憶門包括兩個(gè)部分：

一、sigmoid層，決定什么值需要更新；

二、tanh層，創(chuàng)建一個(gè)新的候選值向量，生成候選記憶。

針對(duì)遺忘門中丟棄的屬性信息，在本單元模塊找到相應(yīng)的新的屬性信息，添加進(jìn)去，以補(bǔ)充丟棄的屬性信息。

LSTM中的記憶門

數(shù)學(xué)原理：接受從遺忘門輸出的長(zhǎng)期記憶

,以及從學(xué)習(xí)門輸出的短期記憶然后直接把兩者合并起來(lái)

計(jì)算公式：

至此，已經(jīng)更新舊的細(xì)胞狀態(tài)

，得到的值：

LSTM中細(xì)胞狀態(tài)的更新

輸出門

最終，我們要根據(jù)細(xì)胞狀態(tài)，確定輸出值。首先我們使用一個(gè)Sigmiod函數(shù)來(lái)去確定細(xì)胞狀態(tài)的哪部分需要輸出，然后把細(xì)胞狀態(tài)通過(guò)tanh層處理，兩者相乘得到最終我們想要輸出的信息。

LSTM中的輸出門

數(shù)學(xué)原理：通過(guò)一個(gè)Sigmoid函數(shù)得到

，與相乘得到最終的輸出。

計(jì)算公式：

LSTM還有一些變體，都是在本文介紹的基礎(chǔ)之上做改動(dòng)。

總結(jié)

LSTM有進(jìn)有出且當(dāng)前的cell informaton是通過(guò)input gate控制之后疊加的，而RNN是疊乘，因此LSTM可以防止梯度消失或者爆炸，會(huì)比RNN好一丟。

參考

Understanding LSTM Networks?colah.github.io

本文圖片均來(lái)自：Understanding LSTM Networks

總結(jié)

以上是生活随笔為你收集整理的lstm原理_Mamp;DL | LSTM：遗忘门、记忆门、输出门的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： python生成报告_python生成测
下一篇： qt通过蓝牙控制单片机_ST发布新款ST