日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【Transformer】SOFT: Softmax-free Transformer with Linear Complexity

發布時間:2023/12/15 编程问答 51 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【Transformer】SOFT: Softmax-free Transformer with Linear Complexity 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

    • 一、背景
    • 二、方法
      • 2.1 Softmax-free self-attention formulation
      • 2.2 通過矩陣分解來實現低秩規范化
    • 三、效果

本文收錄于 NeurIPS 2021

論文鏈接:https://arxiv.org/pdf/2110.11945.pdf
代碼鏈接:https://github.com/fudan-zvg/SOFT

一、背景

基于 self-attention 的 transformer 雖然取得了較好的效果,但其計算量和內存都和是輸入分辨率大小的平方。

作者認為這種計算限制來源于計算概率時使用的 softmax self-attention。

一般的 self-attention 都是計算規范化的 token 特征的內積計算得到,保持這種 softmax 操作對后面的線性化操作有些挑戰。

所以,本文作者提出了 softmax-free transformer, SOFT,在 self-attention 中移除了 softmax,使用高斯核函數來代替內積,能夠通過低秩矩陣分解來近似得到 self-attention 矩陣。

二、方法

2.1 Softmax-free self-attention formulation

輸入為 X,要進行 attention ,首先要通過映射得到 Q, K, V:

self-attention 的計算如下:

α\alphaα 為計算 self-attention map 的過程,由非線性函數 β\betaβ 和 relation function γ\gammaγ 組成:

一般的形式如下:

為了簡化計算,作者使用如下方式代替:

為了保持 attention matrix 的對稱性,作者設定 Q 和 K 的映射函數一樣,所以,本文的 self-attention matrix 如下:

2.2 通過矩陣分解來實現低秩規范化

為了降低計算量,作者參考 Nystrom[38] 來實現低秩矩陣近似,可以不用計算全部的 self-attention。

規范化的 self-attention matrix S^\hat SS^ 如下:

三、效果

SOFT 及其變體如下:

總結

以上是生活随笔為你收集整理的【Transformer】SOFT: Softmax-free Transformer with Linear Complexity的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。