當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

李宏毅Transformer

發布時間：2023/12/8 编程问答 48 豆豆

生活随笔收集整理的這篇文章主要介紹了李宏毅Transformer 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Transformer

Transformer 其實就是Sequence-to-Sequence（Seq2Seq）架構的model，就是輸入一堆向量，輸出一堆向量，輸出的向量數量由機器自己決定。

Seq2Seq架構

整體架構

Encode部分
Encode部分就是輸入一堆向量，然后輸出一堆向量，這個encoder部分可以是RNN或者CNN組成的，但是在Transformer里，Encoder得是Transformer的Encoder就是下圖右邊這部分。

首先我們看下Encoder的基本架構，就是紅色框中，輸入一堆向量然后經過一個block輸出一堆向量，然后接著輸入到下一個block中…最后輸出h¹, h², h³, h⁴, 在Transformer網絡中每一個block里面是下圖中右面這部分組成，對輸入的向量進行self-attention操作，每個向量都考慮與其它向量的關聯性之后然后輸出，然后接入到FC中輸出結果。

實際上Transformer的Block里面的網絡比這個更復雜，舉例：第一個向量b經過Self-attention考慮與其它所有向量關聯性得到輸出結果下圖a，然后把a與輸入向量b進行相加（這就是residual操作）接著把a+b相加的結果做Layer Norm運算。（這個就是對向量中每個元素求mean[平均值], standard deviation[標準差] ），下圖綠色的方框接著紅色方框部分，接著放入FC網絡中得到輸出結果，這里也要做一次residual操作，得到輸出的結果再次做Layer Norm操作，得到最終輸出結果。block中一個向量做的所有操作。

以上就是下圖紅色區域的操作，總結一下，就是輸入向量如果需要位置信息的話，加上位置Positional向量，然后經過Self-attention(Multi-Head Attention),做add&Norm操作，其中add就是（Residual操作，將輸入向量加到self-attention結果輸出上），然后將add結果做Layer Norm操作，接著放入到Feed Forward網絡中輸出結果繼續做add&Norm操作。

Decode部分

常見結構（Autoregressive）
以語音識別舉例，首先我們把Encoder輸出的向量，讀入到Decoder中，這時給Decoder一個專門的記號（special token）Begin，告訴Decoder開始了，然后Decoder輸出向量（這里的向量大小取決于你想輸出的內容，如果你想輸出文字，那么它的長度就是所有文字的數量，如果是英文單詞，那么它的長度就是所有英文單詞的數量…），再對向量整體做softmax（求每個中文的概率，所有中文概率加起來為1），求其中最大值就是它的第一個輸出結果。

然后把第一個輸出作為Decoder的輸入，第一個輸出”機“是一個one-hot向量（在”機“位置為1，其它位置為0），這樣Decoder有兩個輸入向量，根據這兩個輸入的向量通過Decoder輸出”器“，然后再把”器“作為第三個Decoder輸入的向量，Decoder通過這三個輸入向量輸出…，以此往后，所以Decoder每次輸入都是上一次輸出的結果累加起來的。

Decoder內部結構
Decoder的內部結構如下圖中右面這部分

可以發現它除了紅色區域其它與Encoder都一樣操作，只是它使用的是Masked Multi-Head Attention

Masked Multi-Head Attention 就是b1，b2，b3，b4，每一個向量輸出的時候只考慮左邊輸入的向量關聯性得到的輸出。為什么出現這種情況呢？因為每次decoder輸入，都是上一次輸出的結果累加起來的，所有還沒有后面的向量！

那么要如何停下來呢
我們需要給輸出向量中加一個end標識，它與其它的中文文字類似，這樣當輸入”機”“器”“學”“習“時候，經過Decoder輸出向量，然后softmax處理后取最大值得到”end“

以上是AT decoder，還有NAT decoder。。。
Encoder-Decoder
現在講解Encoder-Decoder之間怎么傳遞的。

首先我們可以看到紅色框中，有藍色的圈和一個綠色的圈，其中藍色的圈為從encoder過來的輸入，綠色的為從decoder過來的輸入。

具體操作就是我們可以并行來看，最下面的大紅色框，首先左邊對所有的輸入做Encoder操作，輸出a1，a2，a3，右邊對begin輸入做self-attention操作得到輸出向量b，然后看b與a1，a2，a3關聯性也就是self-attention一系列操作。

其它的Decoder輸入也是類似操作

總結

以上是生活随笔為你收集整理的李宏毅Transformer的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： PASSWORD_VERIFY_FUNC
下一篇：【日常吐槽 · 第八期】adb偶遇foo

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

李宏毅Transformer

Transformer

Seq2Seq架構

總結