當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

基于Attention的Seq2Seq

發布時間：2024/3/24 编程问答 53 豆豆

生活随笔收集整理的這篇文章主要介紹了基于Attention的Seq2Seq 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

前言

昨天有位大神在CSDN上發表了一篇題為BERT通俗筆記：從Word2Vec/Transformer逐步理解到BERT
的文章，仔細閱讀前兩章后，可謂是受益匪淺。但是在研讀時，由于自身對NLP相關知識有所缺乏，使我對一些基礎概念不甚理解（盡管作者的描述已經特別簡單易懂~）。其中Attention便是其中之一，在此之前，我一直以為在Seq2Seq之后便是Self-attention（相關介紹見自注意機制(Self-attention)）這一偉大的發明。查閱相關文獻后才了解到，由于Seq2Seq對于長句子具有遺忘性，在2015年ICLR會議上Bahdanau，Cho等人提出了Attention機制以解決這個問題，而Self-attention是在2016年提出的。本文主要結合B站UP主ShusenWang的所講的關于RNN模型與NLP應用的相關內容和自己的理解構成。

1. 回顧Seq2Seq

Seq2Seq是基于RNN和LSTM的Encoder-Decoder結構的網絡，它在很多領域都取得了巨大的成功，比如機器翻譯，語音識別，文本摘要等。它輸入是一個序列，其輸出也是一個序列。在Encoder中，將序列轉換成一個固定長度的向量，然后通過Decoder將該向量轉換成我們想要的序列輸出出來，基本結構如下：

但是這種模型在解碼時只有最后一個狀態向量傳遞給解碼器，即Encoder的最后一個狀態，如下圖所示，由于其余位置的狀態并沒有直接參與后續的解碼任務，這冥冥之中導致了一些信息的丟失，特別是在處理長對話時，僅僅依靠最后一個狀態難以記住語句所有的信息。

下圖是單詞量和BLEU（雙語互譯質量評估輔助工具）的關系（挖坑：關于BLEU這些評價指標，后面我將通過一個文章進行總結）。從圖可以看出，當單詞量大于20后，不帶有Attention的Seq2Seq模型的BLEU值出現了明顯下降；相反帶有Attention的Seq2Seq模型的BLEU值并沒有下降，這說明了Attention記住的關鍵了信息，并實現了較好的狀態解碼。

2. 基于Attention的Seq2Seq

2.1 相關性計算

本小節也采用和視頻RNN模型與NLP應用一致的描述方式，對Seq2Seq model for attention做出解釋。在上一小節已經說過，Seq2Seq的Eecoder輸出的是最后一個狀態 $h_m$ ，這也是Decoder的第一個輸入，我們利用 $s_0=h_m$ 來表示。而基于attention的方法最大的一個特點就是，在進行Decoder時，不僅考慮的Eecoder最后一個狀態 $h_m$ ，也考慮之前每個的輸入單詞產生的狀態，即 $h_1$ 、 $h_2$ 、 $h_3$ 。。。等，如下圖所示。原始作者引入了一個權重參數 $α\alpha$ 來表示和Decoder輸入狀態的相關性。我們將Eecoder的任意輸出狀態 $h_i$ 與Decoder的第一個輸入狀態 $s_0$ 的相關性記為： $αi=align?(hi,s0)\alpha_i=\operatorname{align}\left(\mathbf{h}_i, \mathbf{s}_0\right)$

接下來就是 $α\alpha$ 的學習，這里提供了兩種方法，第一個是原始論文的計算方法，第二個是一種更為流行的計算方法，也廣泛應用于Transformer模型當中。

第一種包含兩個可學習的參數

W

和

v

，主要做法如下所示：

第二種做法主要過程如下，也有兩個需要學習參數矩陣

W_k

和

W_q

。

至此，我們可以得到m個權重

α\alpha

，它對應了m個Eecoder的輸出狀態

h_1

、

h_2

、

h_3

。。。

h_m

，我們將這m個權重

α\alpha

與m個

h_i

進行加權求和，得到上下文向量（context vetor）

c_0

。其實這種操作是不難理解的，簡單講，每一個

α\alpha

都表示與

s_0

的相關性，較大的值表明與對應的狀態

h

和

s_0

相關性較大，反之較小，我們求他們的加權平均和，自然使得重要的地方更突出，不重要的地方就不突出。

Context?vector:?c0=α1h1+?+αmhm\text { Context vector: } \quad \mathbf{c}_0=\alpha_1 \mathbf{h}_1+\cdots+\alpha_m \mathbf{h}_m

2.2 Eecoder過程

現在開始介紹Eecoder的過程，這里我們將按照第一次輸入 $x_1^‘$ ，第二次輸入 $x_2^‘$ ，。。。，分步進行介紹~。首先是第一步。

One step。在原始的Seq2Seq中，我們的輸入有

s_0=h_m

和

x_1^‘

，如下圖所示，

而基于Attention的Seq2Seq的Eecoder操作，是在此基礎上級聯了之前計算得到上下文向量（context vetor） $c_0$ ，經過運算即可得到第一步的輸出 $s_1$ 。

2.Two step。與之前的操作類似，我們需要計算 $s_1$ （第一步的輸出），與decoder輸出的m個狀態的相關性，具體方法與上文描述一致，進而可獲得上下文向量（context vetor） $c_1$ ，最后將 $x_2^‘$ 、 $s_1$ 和 $c_1$ 級聯送入計算單元獲得 $s_2$ ，方法見下圖：

3. Three step。這一步和上文完全相同不在贅述。

最終我們得到一系列輸出 $c_1$ 、 $c_2$ … $c_3$ ：

2.3 復雜度分析和權重可視化

對于一個 $c_j$ ，我們需要計算m個 $α\alpha$ ，如果解碼有 $t$ 個狀態，則一個用 $m t$ 個權重 $α\alpha$ ，所以該算法的時間復雜度是 $m t$ ，這個計算壓力也是巨大的。

下圖以英語翻譯為法語為例，通過可視化權重，來說明之前的關聯性。圖中線越粗，表示權重值越大，之間的關聯性也越大。

比如英語單詞Arae（面積；地區，地段）和法語單詞zone（區域），他們具有相同的意思，這說明了Attention的實際意義。

3. 總結

改善了Seq2Seq模型，不會造成信息的遺忘。

解碼器知道關注點在哪里。

需要消耗大量的計算量。

參考

BERT通俗筆記：從Word2Vec/Transformer逐步理解到BERT
RNN模型與NLP應用

總結

以上是生活随笔為你收集整理的基于Attention的Seq2Seq的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：单片机L298N电机驱动板的几种不同电压
下一篇： IxChariot网络测试工具