當(dāng)前位置：首頁(yè) >

【NLP】Transformer详解

發(fā)布時(shí)間：2025/3/21 66 豆豆

生活随笔收集整理的這篇文章主要介紹了【NLP】Transformer详解小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

【NLP】Transformer詳解

? Transformer在Google的一篇論文Attention is All You Need被提出，為了方便實(shí)現(xiàn)調(diào)用Transformer Google還開(kāi)源了一個(gè)第三方庫(kù)，基于TensorFlow的Tensor2Tensor，一個(gè)NLP的社區(qū)研究者貢獻(xiàn)了一個(gè)Torch版本的支持：guide?annotating the paper with PyTorch implementation。Transformer模型最早是用于機(jī)器翻譯任務(wù)，當(dāng)時(shí)達(dá)到了SOTA效果。Transformer改進(jìn)了RNN最被人詬病的訓(xùn)練慢的缺點(diǎn)，利用self-attention機(jī)制實(shí)現(xiàn)快速并行。并且Transformer可以增加到非常深的深度，充分發(fā)掘DNN模型的特性，提升模型準(zhǔn)確率。

編碼器

一、Transformer

1、結(jié)構(gòu)圖
（1）首先將這個(gè)模型看成是一個(gè)黑箱操作。在機(jī)器翻譯中，就是輸入一種語(yǔ)言，輸出另一種語(yǔ)言。

（2）黑箱由編碼組件、解碼組件和它們之間的連接組成。

（3）編碼組件部分由一堆編碼器（encoder）構(gòu)成（論文中是將6個(gè)編碼器疊在一起——數(shù)字6沒(méi)有什么神奇之處，你也可以嘗試其他數(shù)字）。解碼組件部分也是由相同數(shù)量（與編碼器對(duì)應(yīng)）的解碼器（decoder）組成的。

（4）進(jìn)一步對(duì)編碼器進(jìn)行分解。所有的編碼器在結(jié)構(gòu)上都是相同的，但它們沒(méi)有共享參數(shù)。每個(gè)解碼器都可以分解成兩個(gè)子層。從編碼器輸入的句子首先會(huì)經(jīng)過(guò)一個(gè)自注意力（self-attention）層，這層幫助編碼器在對(duì)每個(gè)單詞編碼時(shí)關(guān)注輸入句子的其他單詞。
自注意力層的輸出會(huì)傳遞到前饋（feed forward neural network）神經(jīng)網(wǎng)絡(luò)中。每個(gè)位置的單詞對(duì)應(yīng)的前饋神經(jīng)網(wǎng)絡(luò)都完全一樣（譯注：另一種解讀就是一層窗口為一個(gè)單詞的一維卷積神經(jīng)網(wǎng)絡(luò)）。

（5）進(jìn)一步對(duì)解碼器進(jìn)行分解。解碼器中也有編碼器的自注意力（self-attention）層和前饋（feed-forward）層。除此之外，這兩個(gè)層之間還有一個(gè)注意力層，用來(lái)關(guān)注輸入句子的相關(guān)部分（和seq2seq模型的注意力作用相似）。

2、將張量引入模型結(jié)構(gòu)
我們已經(jīng)了解了模型的主要部分，接下來(lái)我們看一下各種向量或張量（譯注：張量概念是矢量概念的推廣，可以簡(jiǎn)單理解矢量是一階張量、矩陣是二階張量。）是怎樣在模型的不同部分中，將輸入轉(zhuǎn)化為輸出的。
（1）首先將每個(gè)輸入單詞通過(guò)詞嵌入算法轉(zhuǎn)換為詞向量。每個(gè)單詞都被嵌入為512維的向量，我們用這些簡(jiǎn)單的方框來(lái)表示這些向量。

詞嵌入過(guò)程只發(fā)生在最底層的編碼器中。所有的編碼器都有一個(gè)相同的特點(diǎn)，即它們接收一個(gè)向量列表，列表中的每個(gè)向量大小為512維。在底層（最開(kāi)始）編碼器中它就是詞向量，但是在其他編碼器中，它就是下一層編碼器的輸出（也是一個(gè)向量列表）。向量列表大小是我們可以設(shè)置的超參數(shù)——一般是我們訓(xùn)練集中最長(zhǎng)句子的長(zhǎng)度。
（2）將輸入序列進(jìn)行詞嵌入之后，每個(gè)單詞都會(huì)流經(jīng)編碼器中的兩個(gè)子層。在這里輸入序列中每個(gè)位置的單詞都有自己獨(dú)特的路徑流入編碼器。在自注意力層中，這些路徑之間存在依賴關(guān)系。而前饋（feed-forward）層沒(méi)有這些依賴關(guān)系。因此在前饋（feed-forward）層時(shí)可以并行執(zhí)行各種路徑。
3、多個(gè)編碼器結(jié)構(gòu)
如上述已經(jīng)提到的，一個(gè)編碼器接收向量列表作為輸入，接著將向量列表中的向量傳遞到自注意力層進(jìn)行處理，然后傳遞到前饋神經(jīng)網(wǎng)絡(luò)層中，將輸出結(jié)果傳遞到下一個(gè)編碼器中。輸入序列的每個(gè)單詞都經(jīng)過(guò)自編碼過(guò)程。然后，他們各自通過(guò)前向傳播神經(jīng)網(wǎng)絡(luò)（這個(gè)過(guò)程可以并行）——完全相同的網(wǎng)絡(luò)，而每個(gè)向量都分別通過(guò)它。

二、自注意力機(jī)制(seft-attention)

1、從宏觀視角看自注意力機(jī)制
例如，下列句子是我們想要翻譯的輸入句子：The animal didn’t cross the street because it was too tired.

當(dāng)模型處理這個(gè)單詞“it”的時(shí)候，自注意力機(jī)制會(huì)允許“it”與“animal”建立聯(lián)系。
隨著模型處理輸入序列的每個(gè)單詞，自注意力會(huì)關(guān)注整個(gè)輸入序列的所有單詞，幫助模型對(duì)本單詞更好地進(jìn)行編碼。
RNN維持隱藏層的處理方法，是將它已經(jīng)處理過(guò)的前面的所有單詞/向量的表示與它正在處理的當(dāng)前單詞/向量結(jié)合起來(lái)。而自注意力機(jī)制會(huì)將所有相關(guān)單詞的理解融入到正在處理的單詞中。

2、seft-attention原理
（1）從每個(gè)編碼器的輸入向量（每個(gè)單詞的詞向量）中生成三個(gè)向量。
也就是說(shuō)對(duì)于每個(gè)單詞，我們創(chuàng)造一個(gè)查詢向量、一個(gè)鍵向量和一個(gè)值向量。這三個(gè)向量是通過(guò)詞嵌入與三個(gè)權(quán)重矩陣后相乘創(chuàng)建的。
可以發(fā)現(xiàn)這些新向量在維度上比詞嵌入向量更低。他們的維度是64，而詞嵌入和編碼器的輸入/輸出向量的維度是512。但實(shí)際上不強(qiáng)求維度更小，這只是一種基于架構(gòu)上的選擇，它可以使多頭注意力（multiheaded attention）的大部分計(jì)算保持不變。

（2）計(jì)算每個(gè)詞與Thinking得分
假設(shè)計(jì)算第一個(gè)詞“Thinking”的自注意力向量，需要拿輸入句子中的每個(gè)單詞對(duì)“Thinking”打分。這些分?jǐn)?shù)決定了在編碼單詞“Thinking”的過(guò)程中有多重視句子的其它部分。
這些分?jǐn)?shù)是通過(guò)打分單詞（所有輸入句子的單詞）的鍵向量與“Thinking”的查詢向量相點(diǎn)積來(lái)計(jì)算的。所以如果我們是處理位置最靠前的詞的自注意力的話，第一個(gè)分?jǐn)?shù)是q1和k1的點(diǎn)積，第二個(gè)分?jǐn)?shù)是q1和k2的點(diǎn)積。

（3）將分?jǐn)?shù)除以8
8是論文中使用的鍵向量的維數(shù)64的平方根，這會(huì)讓梯度更穩(wěn)定。這里也可以使用其它值，8只是默認(rèn)值
（4）softmax歸一化
然后通過(guò)softmax傳遞結(jié)果。softmax的作用是使所有單詞的分?jǐn)?shù)歸一化，得到的分?jǐn)?shù)都是正值且和為1。

（5）值向量與softmax分?jǐn)?shù)相乘
將每個(gè)值向量乘以softmax分?jǐn)?shù)(這是為了準(zhǔn)備之后將它們求和)。得到每個(gè)詞的甲醛值向量。這里的直覺(jué)是希望關(guān)注語(yǔ)義上相關(guān)的單詞，并弱化不相關(guān)的單詞(例如，讓它們乘以0.001這樣的小數(shù))。
（6）對(duì)加權(quán)值向量求和
自注意力的另一種解釋就是在編碼某個(gè)單詞時(shí)，就是將所有單詞的表示（值向量）進(jìn)行加權(quán)求和，而權(quán)重是通過(guò)該詞的表示（鍵向量）與被編碼詞表示（查詢向量）的點(diǎn)積并通過(guò)softmax得到。然后即得到自注意力層在該位置的輸出（Thinking）.
自注意力的矩陣表示

3、“多頭”注意力機(jī)制
“多頭”注意機(jī)制下，我們?yōu)槊總€(gè)頭保持獨(dú)立的查詢/鍵/值權(quán)重矩陣，從而產(chǎn)生不同的查詢/鍵/值矩陣。和之前一樣，我們拿X乘以WQ/WK/WV矩陣來(lái)產(chǎn)生查詢/鍵/值矩陣。經(jīng)過(guò)八次不同的權(quán)重矩陣運(yùn)算，會(huì)得到八個(gè)不同的Z矩陣。自注意力的輸出只有一個(gè)Z。所以引入權(quán)重矩陣W。
（1）將多個(gè)注意力頭進(jìn)行矩陣拼接
（2）拼接后乘以權(quán)重矩陣W。得到與輸入矩陣X相同維度的輸出矩陣Z
（3）Z融合所有注意力頭信息，作為注意力的輸出，傳入到前饋神經(jīng)網(wǎng)絡(luò)

多個(gè)注意力頭的矩陣形式：

三、輸入詞向量引入位置編碼

為了讓模型理解單詞的順序。除了詞嵌入向量，Transformer為每個(gè)詞嵌入增加了位置向量，位置向量采用余弦、正弦函數(shù)對(duì)句子進(jìn)行編碼得到。

如果假設(shè)詞嵌入的維數(shù)為4，則實(shí)際的位置編碼如下：

如，20字（行）的位置編碼，詞嵌入大小為512（列），位置編碼的顏色表示如下圖。每行包含512個(gè)值，每個(gè)值介于-1到1之間。他們從中間分裂成涼拌，第一行有250個(gè)0，256個(gè)1。這是因?yàn)樽蟀氩糠值闹涤姓液瘮?shù)生產(chǎn)，右半部分由余弦函數(shù)生產(chǎn)，將他們拼接在一起得到每一個(gè)位置向量編碼。

四、殘差

編碼器架構(gòu)中的細(xì)節(jié)：在每個(gè)編碼器中的每個(gè)子層（自注意力、前饋網(wǎng)絡(luò)）的周圍都有一個(gè)殘差連接，并且都跟隨著一個(gè)“層-歸一化”步驟。

進(jìn)一步展開(kāi)求和與歸一化層：

解碼器

頂端編碼器的輸出之后會(huì)變轉(zhuǎn)化為一個(gè)包含向量K（鍵向量）和V（值向量）的注意力向量集。這些向量將被每個(gè)解碼器用于自身的“編碼-解碼注意力層”，而這些層可以幫助解碼器關(guān)注輸入序列哪些位置合適：

模型訓(xùn)練

1、解碼器輸入
模型的輸出詞表在訓(xùn)練治安的預(yù)處理流程中就被設(shè)定了。使用一個(gè)相同狂賭的向量表示詞表中的每一個(gè)單詞（one-hot編碼）。

2、模型輸出
這個(gè)模型一次只產(chǎn)生一個(gè)輸出，假設(shè)模型只選擇概率最高的單詞，并把剩下的詞拋棄（貪婪編碼）。在一個(gè)足夠大的訓(xùn)練集上充分訓(xùn)練后，模型輸出的概率分布：

損失函數(shù)

一個(gè)簡(jiǎn)單的例子——把“merci”翻譯為“thanks”。
1、模型的參數(shù)（權(quán)重）隨機(jī)初始化生成
2、（未經(jīng)訓(xùn)練的）模型產(chǎn)生的概率分布在每個(gè)單詞的詞向量單元格里都賦予了隨機(jī)的數(shù)值。
3、用真實(shí)的輸出與預(yù)測(cè)數(shù)據(jù)進(jìn)行交叉熵?fù)p失計(jì)算。
4、用反向傳播算法調(diào)整所以模型參數(shù)權(quán)重
5、參數(shù)不斷迭代，生產(chǎn)更接近結(jié)果的輸出。

參考文獻(xiàn)：
1、The Illustrated Transformer：https://jalammar.github.io/illustrated-transformer/
2、圖解Transformer（完整版）：https://blog.csdn.net/longxinchen_ml/article/details/86533005

總結(jié)

以上是生活随笔為你收集整理的【NLP】Transformer详解的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： The Annotated Transf
下一篇：【机器翻译】transformer