當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

关于序列建模，是时候抛弃RNN和LSTM了

發布時間：2023/12/4 编程问答 52 豆豆

生活随笔收集整理的這篇文章主要介紹了关于序列建模，是时候抛弃RNN和LSTM了小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

作者表示：我們已經陷入 RNN、LSTM 和它們變體的坑中很多年，是時候拋棄它們了！

在 2014 年，RNN 和 LSTM 起死回生。我們都讀過 Colah 的博客《Understanding LSTM Networks》和 Karpathy 的對 RNN 的頌歌《The Unreasonable Effectiveness of Recurrent Neural Networks》。但當時我們都「too young too simple」。現在，序列變換（seq2seq）才是求解序列學習的真正答案，序列變換還在語音到文本理解的任務中取得了優越的成果，并提升了 Siri、Cortana、谷歌語音助理和 Alexa 的性能。此外還有機器翻譯，現在機器翻譯已經能將文本翻譯為多種語言。在圖像到文本、文本到圖像的變換以及視頻文字說明的應用中，序列變換也是卓有成效。

在 2015-2016 年間，出現了 ResNet 和 Attention 模型。從而我們知道，LSTM 不過是一項巧妙的「搭橋術」。并且注意力模型表明 MLP 網絡可以被「通過上下文向量對網絡影響求平均」替換。下文中會繼續討論這一點。

經過兩年多的時間，我們終于可以說：「放棄你的 RNN 和 LSTM 路線吧！」

我們能看到基于注意力的模型已越來越多地被用于谷歌、Facebook 和 Salesforce 的 AI 研究。它們都經歷了將 RNN 模型和其變體用基于注意力的模型替換的過程，而這才剛剛開始。RNN 模型曾經是很多應用的構建基礎，但相比基于注意力的模型，它們需要更多的資源來訓練和運行。（參見：https://towardsdatascience.com/memory-attention-sequences-37456d271992）

為什么？

RNN、LSTM 和其變體主要對時序數據進行序列處理。如下圖中的水平箭頭部分：

RNN 中的序列處理過程，來自《Understanding LSTM Networks》

這些箭頭表明，在長期信息訪問當前處理單元之前，需要按順序地通過所有之前的單元。這意味著它很容易遭遇梯度消失問題。

為此，人們開發了 LSTM 模型，LSTM 可以視為多個轉換門的合并。ResNet 也借鑒于這種結構，它可以繞過某些單元從而記憶更長時間步的信息。因此，LSTM 在某種程度上可以克服梯度消失問題。

LSTM 中的序列處理過程，來自《Understanding LSTM Networks》

但這并不能完全解決該問題，如上圖所示。LSTM 中仍然存在按順序地從過去單元到當前單元的序列路徑。實際上，現在這些路徑甚至變得更加復雜，因為路徑上還連接了加如記憶的分支和遺忘記憶的分支。毫無疑問，LSTM、GRU 和其變體能學習大量的長期信息（參見《The Unreasonable Effectiveness of Recurrent Neural Networks》），但它們最多只能記住約 100s 的長期信息，而不是 1000s 或 10000s 等。

并且，RNN 的一大問題是它們非常消耗計算資源。即如果需要快速訓練 RNN，需要大量的硬件資源。在云端上運行這些模型的成本也很高，隨著語音到文本的應用需求快速增長，云計算資源目前甚至趕不上它的需求。

解決方案是什么？

如果序列處理無可避免，那么我們最好能找到可向前預測和向后回顧的計算單元，因為我們處理的大多數實時因果數據只知道過去的狀態并期望影響未來的決策。這和在翻譯語句或分析錄制視頻時并不一樣，因為我們會利用所有數據并在輸入上推理多次。這種向前預測和后向回顧的單元就是神經注意力模塊，下面將簡要介紹這一點。

為了結合多個神經注意力模塊，我們可以使用下圖所示的層級神經注意力編碼器：

層級神經注意力編碼器

觀察過去信息的更好方式是使用注意力模塊將過去編碼向量匯總到上下文向量 C_t。請注意上面有一個層級注意力模塊，它和層級神經網絡非常相似。

在層級神經注意力編碼器中，多層注意力可查看過去信息的一小部分，例如 100 個向量，而上面層級的注意力模塊能查看到 100 個下層的注意力模塊，也就是 100×100 個向量。即利用層級模塊可極大地擴展注意力機制觀察的范圍。

這就是一種能回顧更多的歷史信息并預測未來的方法。

這種架構類似于神經圖靈機，但令神經網絡通過注意力決定從記憶中需要讀取什么。這意味著一個實際的神經網絡將決定過去的哪個向量對未來的決策更重要。

但記憶的儲存呢？與神經圖靈機不同，上面的架構將會把所有的歷史表征儲存在記憶中。這可能是不高效的，若儲存視頻中每一幀的表征，而大多數情況下表征向量并不會一幀幀地改變，所以這導致儲存了太多的相同信息。我們確實可以添加另一個單元來防止儲存相關數據，例如不儲存與之前太相似的向量。但這只是一種技巧，更好的方法可能是讓架構自己判斷哪些向量需要儲存，而哪些不需要。這一問題也是當前研究領域的重點，我們可以期待更多有意思的發現。

所以，最后總結來說：忘了 RNN 和它的變體吧，你僅需要的是注意力機制模塊。

目前我們發現很多公司仍然使用 RNN/LSTM 作為自然語言處理和語音識別等架構，他們仍沒有意識到這些網絡是如此低效和不可擴展。例如在 RNN 的訓練中，它們因為需要很大的內存帶寬而很難訓練，這對于硬件設計很不友好。本質上來說，遞歸是不可并行的，因此也限制了 GPU 等對并行計算的加速。

簡單來說，每個 LSTM 單元需要四個仿射變換，且每一個時間步都需要運行一次，這樣的仿射變換會要求非常多的內存帶寬，因此實際上我們不能用很多計算單元的原因，就是因為系統沒有足夠的內存帶寬來傳輸計算。這對于模型的訓練，尤其是系統調參是非常大的限制，因此現在很多工業界應用都轉向了 CNN 或注意力機制。

論文：Attention Is All You Need

論文鏈接：https://arxiv.org/abs/1706.03762

作者：Eugenio Culurciello

編譯：劉曉坤、思源

文章版權歸原作者所有，轉載僅供學習使用，不用于任何商業用途，如有侵權請留言聯系刪除，感謝合作。

總結

以上是生活随笔為你收集整理的关于序列建模，是时候抛弃RNN和LSTM了的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：要成为年薪五十万的数据分析师，除了技术还
下一篇：人工智能会让工作环境变得更公平，还是更压