日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

自注意力机制Self-attention(1)

發布時間:2024/8/23 编程问答 35 豆豆
生活随笔 收集整理的這篇文章主要介紹了 自注意力机制Self-attention(1) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

目錄:
自注意力機制Self-attention(1)
自注意力機制Self-attention(2)

本文是對李宏毅老師的課程進行了整理。
視頻地址為:
https://www.bilibili.com/video/BV1Wv411h7kN?p=23

1 問題引入


問:為什么要引入自注意力機制?
答:輸入一個向量,經過Model預測后得到一個分類結果/數值型結果;當輸入一組向量,經過Model預測后有三種可能的輸出,第一種輸出是一個分類結果/數值型結果,第二種輸出是每個向量輸出一個分類結果/數值型結果(有多少個輸入向量,就有多少個分類結果),第三種輸出是多種分類結果/數值型結果(輸入向量個數和輸出分類結果個數不相同),例如句子"I saw a saw (我看到了一個鋸子)"中判斷"saw"的詞性,第一個是動詞,第二個是名詞,如果沒有上下文,很難判斷"saw"的詞性。

問:哪些應用場景會有一組向量的輸入呢?
答:
(1)一段文字:

(2)一段語音:

(3)social network:

(4) 藥物發現:

2 方法介紹


問:如何利用輸入的一組向量a1a^1a1a2a^2a2a3a^3a3a4a^4a4,得到輸出b1b^1b1b2b^2b2b3b^3b3b4b^4b4
答:首先通過目標向量a1a^1a1,找到關聯的a2a^2a2a3a^3a3a4a^4a4;然后只要知道怎么計算出b1b^1b1,就同理知道b2b^2b2b3b^3b3b4b^4b4計算了。

問:如何得到注意力分數?
答:這個模塊是自注意力機制的核心模塊。
上圖介紹了兩種方法來計算注意力分數。
左邊方法為:用一個矩陣WqW^qWq乘上左邊的向量得到一個向量qqq,再用另外一個矩陣WkW^kWk乘上左右邊的向量得到向量kkk;注意力分數α=q?k\alpha = q \cdot kα=q?k
右邊方法為:用一個矩陣WqW^qWq乘上左邊的向量得到一個向量qqq,再用另外一個矩陣WkW^kWk乘上左右邊的向量得到向量kkk;注意力分數α=Wtanh?(q+k)\alpha = W \tanh (q + k)α=Wtanh(q+k)
李老師在本次課程采用的是左邊的方法。

query: q1=Wqa1q^1 = W^q a^1q1=Wqa1(備注:transform)
key:k2=Wka2k^2 = W^k a^2k2=Wka2(備注:transform)
attention score:α1,2=q1?k2\alpha_{1,2} = q^1 \cdot k^2α1,2?=q1?k2

Soft-max:α1,i′=exp?(α1,i)∑jexp?(α1,j)\alpha_{1,i}^{'} = \frac{\exp(\alpha_{1,i})}{\sum_j \exp(\alpha_{1,j})}α1,i?=j?exp(α1,j?)exp(α1,i?)?

總結

以上是生活随笔為你收集整理的自注意力机制Self-attention(1)的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。