关于序列建模,是时候抛弃RNN和LSTM了
作者表示:我們已經(jīng)陷入 RNN、LSTM 和它們變體的坑中很多年,是時候拋棄它們了!
在 2014 年,RNN 和 LSTM 起死回生。我們都讀過 Colah 的博客《Understanding LSTM Networks》和 Karpathy 的對 RNN 的頌歌《The Unreasonable Effectiveness of Recurrent Neural Networks》。但當時我們都「too young too simple」。現(xiàn)在,序列變換(seq2seq)才是求解序列學(xué)習的真正答案,序列變換還在語音到文本理解的任務(wù)中取得了優(yōu)越的成果,并提升了 Siri、Cortana、谷歌語音助理和 Alexa 的性能。此外還有機器翻譯,現(xiàn)在機器翻譯已經(jīng)能將文本翻譯為多種語言。在圖像到文本、文本到圖像的變換以及視頻文字說明的應(yīng)用中,序列變換也是卓有成效。
在 2015-2016 年間,出現(xiàn)了 ResNet 和 Attention 模型。從而我們知道,LSTM 不過是一項巧妙的「搭橋術(shù)」。并且注意力模型表明 MLP 網(wǎng)絡(luò)可以被「通過上下文向量對網(wǎng)絡(luò)影響求平均」替換。下文中會繼續(xù)討論這一點。
經(jīng)過兩年多的時間,我們終于可以說:「放棄你的 RNN 和 LSTM 路線吧!」
我們能看到基于注意力的模型已越來越多地被用于谷歌、Facebook 和 Salesforce 的 AI 研究。它們都經(jīng)歷了將 RNN 模型和其變體用基于注意力的模型替換的過程,而這才剛剛開始。RNN 模型曾經(jīng)是很多應(yīng)用的構(gòu)建基礎(chǔ),但相比基于注意力的模型,它們需要更多的資源來訓(xùn)練和運行。(參見:https://towardsdatascience.com/memory-attention-sequences-37456d271992)
為什么?
RNN、LSTM 和其變體主要對時序數(shù)據(jù)進行序列處理。如下圖中的水平箭頭部分:
RNN 中的序列處理過程,來自《Understanding LSTM Networks》
這些箭頭表明,在長期信息訪問當前處理單元之前,需要按順序地通過所有之前的單元。這意味著它很容易遭遇梯度消失問題。
為此,人們開發(fā)了 LSTM 模型,LSTM 可以視為多個轉(zhuǎn)換門的合并。ResNet 也借鑒于這種結(jié)構(gòu),它可以繞過某些單元從而記憶更長時間步的信息。因此,LSTM 在某種程度上可以克服梯度消失問題。
LSTM 中的序列處理過程,來自《Understanding LSTM Networks》
但這并不能完全解決該問題,如上圖所示。LSTM 中仍然存在按順序地從過去單元到當前單元的序列路徑。實際上,現(xiàn)在這些路徑甚至變得更加復(fù)雜,因為路徑上還連接了加如記憶的分支和遺忘記憶的分支。毫無疑問,LSTM、GRU 和其變體能學(xué)習大量的長期信息(參見《The Unreasonable Effectiveness of Recurrent Neural Networks》),但它們最多只能記住約 100s 的長期信息,而不是 1000s 或 10000s 等。
并且,RNN 的一大問題是它們非常消耗計算資源。即如果需要快速訓(xùn)練 RNN,需要大量的硬件資源。在云端上運行這些模型的成本也很高,隨著語音到文本的應(yīng)用需求快速增長,云計算資源目前甚至趕不上它的需求。
解決方案是什么?
如果序列處理無可避免,那么我們最好能找到可向前預(yù)測和向后回顧的計算單元,因為我們處理的大多數(shù)實時因果數(shù)據(jù)只知道過去的狀態(tài)并期望影響未來的決策。這和在翻譯語句或分析錄制視頻時并不一樣,因為我們會利用所有數(shù)據(jù)并在輸入上推理多次。這種向前預(yù)測和后向回顧的單元就是神經(jīng)注意力模塊,下面將簡要介紹這一點。
為了結(jié)合多個神經(jīng)注意力模塊,我們可以使用下圖所示的層級神經(jīng)注意力編碼器:
層級神經(jīng)注意力編碼器
觀察過去信息的更好方式是使用注意力模塊將過去編碼向量匯總到上下文向量 C_t。請注意上面有一個層級注意力模塊,它和層級神經(jīng)網(wǎng)絡(luò)非常相似。
在層級神經(jīng)注意力編碼器中,多層注意力可查看過去信息的一小部分,例如 100 個向量,而上面層級的注意力模塊能查看到 100 個下層的注意力模塊,也就是 100×100 個向量。即利用層級模塊可極大地擴展注意力機制觀察的范圍。
這就是一種能回顧更多的歷史信息并預(yù)測未來的方法。
這種架構(gòu)類似于神經(jīng)圖靈機,但令神經(jīng)網(wǎng)絡(luò)通過注意力決定從記憶中需要讀取什么。這意味著一個實際的神經(jīng)網(wǎng)絡(luò)將決定過去的哪個向量對未來的決策更重要。
但記憶的儲存呢?與神經(jīng)圖靈機不同,上面的架構(gòu)將會把所有的歷史表征儲存在記憶中。這可能是不高效的,若儲存視頻中每一幀的表征,而大多數(shù)情況下表征向量并不會一幀幀地改變,所以這導(dǎo)致儲存了太多的相同信息。我們確實可以添加另一個單元來防止儲存相關(guān)數(shù)據(jù),例如不儲存與之前太相似的向量。但這只是一種技巧,更好的方法可能是讓架構(gòu)自己判斷哪些向量需要儲存,而哪些不需要。這一問題也是當前研究領(lǐng)域的重點,我們可以期待更多有意思的發(fā)現(xiàn)。
所以,最后總結(jié)來說:忘了 RNN 和它的變體吧,你僅需要的是注意力機制模塊。
目前我們發(fā)現(xiàn)很多公司仍然使用 RNN/LSTM 作為自然語言處理和語音識別等架構(gòu),他們?nèi)詻]有意識到這些網(wǎng)絡(luò)是如此低效和不可擴展。例如在 RNN 的訓(xùn)練中,它們因為需要很大的內(nèi)存帶寬而很難訓(xùn)練,這對于硬件設(shè)計很不友好。本質(zhì)上來說,遞歸是不可并行的,因此也限制了 GPU 等對并行計算的加速。
簡單來說,每個 LSTM 單元需要四個仿射變換,且每一個時間步都需要運行一次,這樣的仿射變換會要求非常多的內(nèi)存帶寬,因此實際上我們不能用很多計算單元的原因,就是因為系統(tǒng)沒有足夠的內(nèi)存帶寬來傳輸計算。這對于模型的訓(xùn)練,尤其是系統(tǒng)調(diào)參是非常大的限制,因此現(xiàn)在很多工業(yè)界應(yīng)用都轉(zhuǎn)向了 CNN 或注意力機制。
論文:Attention Is All You Need
論文鏈接:https://arxiv.org/abs/1706.03762
作者:Eugenio Culurciello
編譯:劉曉坤、思源
文章版權(quán)歸原作者所有,轉(zhuǎn)載僅供學(xué)習使用,不用于任何商業(yè)用途,如有侵權(quán)請留言聯(lián)系刪除,感謝合作。
總結(jié)
以上是生活随笔為你收集整理的关于序列建模,是时候抛弃RNN和LSTM了的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 要成为年薪五十万的数据分析师,除了技术还
- 下一篇: 人工智能会让工作环境变得更公平,还是更压