日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 人工智能 > pytorch >内容正文

pytorch

【深度学习】去掉softmax后Transformer会更好吗?复旦华为诺亚提出SOFT:轻松搞定线性近似...

發(fā)布時(shí)間:2025/3/12 pytorch 29 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【深度学习】去掉softmax后Transformer会更好吗?复旦华为诺亚提出SOFT:轻松搞定线性近似... 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

作者丨h(huán)appy??編輯丨極市平臺(tái)

導(dǎo)讀

?

本文介紹了復(fù)旦大學(xué)&華為諾亞提出的一種新穎的softmax-free的Transformer—SOFT。所提SOFT顯著改善了現(xiàn)有ViT方案的計(jì)算效率,更為關(guān)鍵的是:SOFT的線性復(fù)雜度可以允許更長(zhǎng)的token序列,進(jìn)而取得更佳的精度-復(fù)雜度均衡。

論文鏈接:https://arxiv.org/pdf/2110.11945.pdf

代碼鏈接:https://github.com/fudan-zvg/SOFT

項(xiàng)目鏈接:https://fudan-zvg.github.io/SOFT/

本文是復(fù)旦大學(xué)&華為諾亞關(guān)于Transformer中自注意力機(jī)制復(fù)雜度的深度思考,首次提出了一種新穎的softmax-free 的Transformer 。本文從softmax self-attention局限性出發(fā),分析了其存在的挑戰(zhàn);然后由此提出了線性復(fù)雜度的SOFT;再針對(duì)線性SOFT存在的訓(xùn)練問(wèn)題,提出了一種具有理論保證的近似方案。所提SOFT在ImageNet分類任務(wù)上取得了比已有CNN、Transformer更佳的精度-復(fù)雜度均衡。

Abstract

ViT通過(guò)圖像塊序列化+自注意力機(jī)制將不同CV任務(wù)性能往前推了一把。然而,自注意力機(jī)制會(huì)帶來(lái)更高的計(jì)算復(fù)雜度與內(nèi)存占用。在NLP領(lǐng)域已有不同的方案嘗試采用線性復(fù)雜度對(duì)自注意力進(jìn)行近似。然而,本文的深入分析表明:NLP中的近似方案在CV中缺乏理論支撐或者無(wú)效。

我們進(jìn)一步分析了其局限性根因:softmax self-attention 。具體來(lái)說(shuō),傳統(tǒng)自注意力通過(guò)計(jì)算token之間的點(diǎn)乘并歸一化得到自注意力。softmax操作會(huì)對(duì)后續(xù)的線性近似帶來(lái)極大挑戰(zhàn)?;谠摪l(fā)現(xiàn),本文首次提出了SOFT(softmax-free transformer )。

為移除自注意力中的softmax,我們采用高斯核函數(shù)替代點(diǎn)乘相似性且無(wú)需進(jìn)一步的歸一化。這就使得自注意力矩陣可以通過(guò)低秩矩陣分析近似 。近似的魯棒性可以通過(guò)計(jì)算其MP逆(Moore-Penrose Inverse)得到。

ImageNet數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明:所提SOFT顯著改善了現(xiàn)有ViT方案的計(jì)算效率 。更為關(guān)鍵的是:SOFT的線性復(fù)雜度可以允許更長(zhǎng)的token序列,進(jìn)而取得更佳的精度-復(fù)雜度均衡。

Contributation

本文的貢獻(xiàn)主要包含以下幾點(diǎn):

  • 提出一種新穎的線性空間、時(shí)間復(fù)雜度softmax-free Transformer

  • 所提注意力矩陣近似可以通過(guò)具有理論保證的矩陣分解算法 計(jì)算得到;

  • 所提SOFT在ImageNet圖像分類任務(wù)上取得了比其他ViT方案更佳的精度-復(fù)雜度均衡 (見下圖a)。

Method

Softmax-free self-attention formulation

上圖給出了本文所提SOFT架構(gòu)示意圖。我們首先來(lái)看一下該注意力模塊的設(shè)計(jì)。給定包含n個(gè)token的輸入序列,自注意力旨在挖掘所有token對(duì)之間的相關(guān)性 。

具體來(lái)說(shuō),X首先線性投影為三個(gè)維的query、key以及values:

自注意力可以表示為如下廣義形式:

自注意力的關(guān)鍵函數(shù)包含一個(gè)非線性函數(shù)與一個(gè)相關(guān)函數(shù)。自注意力的常規(guī)配置定義如下:

雖然該softmax自注意力已成為首選且很少受到質(zhì)疑,但是它并不適合進(jìn)行線性化。為構(gòu)建線性自注意力設(shè)計(jì),我們引入了一種sfotmax-free自注意力函數(shù):通過(guò)高斯核替換點(diǎn)乘操作。定義如下:

為保持注意力矩陣的對(duì)稱性,我們?cè)O(shè)置投影矩陣相同,即。所提自注意力矩陣定義如下:

為描述的簡(jiǎn)單性,我們定義為矩陣形式:。所提自注意力矩陣S具有三個(gè)重要屬性:

  • 對(duì)稱性

  • 所有元素均在[0,1]范圍內(nèi);

  • 所有對(duì)角元素具有最大值1。

我們發(fā)現(xiàn):當(dāng)采用無(wú)線性化的核自注意力矩陣時(shí),transformer的訓(xùn)練難以收斂 。這也就解釋了:為何softmax自注意力在transformer中如此流行。

Low-rank regularization via matrix decomposition with linear complxity

為解決收斂于二次復(fù)雜度問(wèn)題,我們利用了矩陣分解作為帶低秩正則的統(tǒng)一解,這就使得模型復(fù)雜度大幅下降,且無(wú)需計(jì)算全部的自注意力矩陣。

作出上述選擇因?yàn)樵谟?#xff1a;S為半正定矩陣,且無(wú)需后接歸一化。我們將S表示為塊矩陣形式:

其中,。通過(guò)上述分解,注意力矩陣可以近似表示為:

其中,表示A的MP逆。更多關(guān)于MP逆的信息建議查看原文,這里略過(guò)。

在上述公式,A和B是S通過(guò)隨機(jī)采樣m個(gè)token得到的子矩陣,可表示為(我們將其稱之為bottleneck token )。然而,我們發(fā)現(xiàn):隨機(jī)采樣對(duì)于m非常敏感。因此,我們通過(guò)利用結(jié)構(gòu)先驗(yàn)探索兩種額外的方案:

  • 采用一個(gè)核尺寸為k、stride為k的卷積學(xué)習(xí);

  • 采用一個(gè)核尺寸為k、stride為k的均值池化生成。

通過(guò)實(shí)驗(yàn)對(duì)比發(fā)現(xiàn):卷積層學(xué)習(xí) 具有更好的精度 。由于K與Q相等,因此。給定m個(gè)token,我們計(jì)算A和P:

最終,我們得到了SOFT的正則化后的自注意力矩陣:

上圖Algorithm1給出所提SOFT流程,它涉及到了MP逆計(jì)算。一種精確且常用的計(jì)算MP逆的方法是SVD,然而SVD對(duì)于GPU訓(xùn)練不友好。為解決該問(wèn)題,我們采用了Newton-Raphson方法,見上圖Algorithm2:一種迭代算法。與此同時(shí),作者還給出了上述迭代可以最終收斂到MP逆的證明。對(duì)該證明感興趣的同時(shí)強(qiáng)烈建議查看原文公式,哈哈。

Instantiations

上面主要聚焦于softmax-free self-attention 模塊的介紹,接下來(lái)我們將介紹如何利用SOFT模塊構(gòu)建Transformer模型。我們以圖像分類任務(wù)為切入點(diǎn),以PVT作為基礎(chǔ)架構(gòu)并引入所提SOFT模塊構(gòu)建最終的SOFT模型,同時(shí)還在stem部分進(jìn)行了微小改動(dòng)。下表給出了本文所提方案在不同容量大小下的配置信息。

Experiments

上表對(duì)比了所提方案與現(xiàn)有線性Transformer模型的性能,從中可以看到:

  • 相比基線Transformer,線性Transformer能夠大幅降低內(nèi)存占用與FLOPs,同時(shí)保持相當(dāng)參數(shù)量;

  • 所提SOFT在所有線性方案中取得了最佳分類精度;

  • 所提SOFT與其他線性方案的推理速度相當(dāng),訓(xùn)練速度稍慢。

上圖給出了不同方案的序列長(zhǎng)度與內(nèi)存占用之間的關(guān)系,從中可以看到:所提SOFT確實(shí)具有線性復(fù)雜度的內(nèi)存占用 。

上表給出了所提方案與其他CNN、Transformer的性能對(duì)比,從中可以看到:

  • 總體來(lái)說(shuō),ViT及其變種具有比CNN更高的分類精度;

  • 相比ViT、DeiT等Transformer方法以及RegNet等CNN方法,所提SOFT取得了最佳性能;

  • 相比PVT,所提方案具有更高的分類精度,直接驗(yàn)證了所提SOFT模塊的有效性;

  • 相比Twins與Swin,所提SOFT具有相當(dāng)?shù)木?#xff0c;甚至更優(yōu)性能。

此外,作者還在NLP任務(wù)上進(jìn)行了對(duì)比,見上表,很明顯:SOFT又一次勝出

往期精彩回顧適合初學(xué)者入門人工智能的路線及資料下載機(jī)器學(xué)習(xí)及深度學(xué)習(xí)筆記等資料打印機(jī)器學(xué)習(xí)在線手冊(cè)深度學(xué)習(xí)筆記專輯《統(tǒng)計(jì)學(xué)習(xí)方法》的代碼復(fù)現(xiàn)專輯 AI基礎(chǔ)下載黃海廣老師《機(jī)器學(xué)習(xí)課程》視頻課黃海廣老師《機(jī)器學(xué)習(xí)課程》711頁(yè)完整版課件

本站qq群554839127,加入微信群請(qǐng)掃碼:

總結(jié)

以上是生活随笔為你收集整理的【深度学习】去掉softmax后Transformer会更好吗?复旦华为诺亚提出SOFT:轻松搞定线性近似...的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 欧美老女人bb | 91av入口| 成av人片在线观看www | 日韩av在线导航 | 久久婷婷婷 | 国产高清成人 | 亚洲大尺度在线观看 | 亚洲国产aⅴ精品一区二区的游戏 | 国产视频一区二区 | 国产视频欧美视频 | 亚洲图片 欧美 | 六月丁香婷婷网 | 人妻av一区二区 | 亚洲天堂网在线观看视频 | 国产乱子伦精品视频 | 麻豆com| 在线www| 大学生一级片 | 亚洲少妇网站 | 性久久久久 | 精品国产91乱码一区二区三区 | 日韩一二三区在线观看 | 色噜噜一区二区三区 | 亚洲成人精品 | 成人免费在线电影 | 深夜老司机福利 | 国产精品99无码一区二区 | 超碰最新在线 | 黄色日批视频 | 日本毛片在线 | 日韩中文字幕一区 | 大学生一级一片全黄 | 国产熟女一区二区三区四区 | 国产精品久久久久久免费免熟 | 日韩色道| 又粗又猛又爽又黄的视频 | 国产九一精品 | 天天综合天天色 | 熟女熟妇伦久久影院毛片一区二区 | 荷兰女人裸体性做爰 | 制服中文字幕 | 日韩不卡| 午夜第一页| 欧美性猛交xxxx免费看 | av不卡免费在线 | 午夜伦理在线观看 | 国产十八熟妇av成人一区 | 久久夜夜操妹子 | 国产亚洲精品久久 | 污污网站在线看 | 亚洲成人a∨ | 亚洲精华液一区二区 | 免费a视频在线观看 | 中国成人毛片 | 国产中文字幕在线播放 | 肥臀浪妇太爽了快点再快点 | 色资源在线 | 国产精品成人免费一区二区视频 | 极品探花在线播放 | 黄色录像毛片 | 日韩人体视频 | 成人av无码一区二区三区 | 国产精品视频全国免费观看 | 激情丁香六月 | 成年人网站免费看 | 免费在线小视频 | 国产精品久久久午夜夜伦鲁鲁 | 国产精品久久久免费视频 | 手机成人在线视频 | 国产sm调教一区二区 | 国产一级视频 | 亚洲色图88 | 日本久久精品 | 精品国产三级 | 91丨九色丨丰满人妖 | 天天躁日日躁狠狠躁免费麻豆 | 久久久视频6r | 精品国产伦一区 | 91网站在线免费看 | 亚洲天堂黄色 | 国产精品嫩草久久久久 | 午夜免费高清视频 | 亚洲自拍偷拍在线 | 超碰在线进入 | 中国老熟女重囗味hdxx | 玖玖综合网 | 免费看一区二区三区 | 国产综合在线观看视频 | 无码少妇精品一区二区免费动态 | 老子影院午夜伦不卡大全 | 亚洲一区二区在线免费 | 欧美资源站 | 亚洲av鲁丝一区二区三区 | 国产激情自拍 | 成人www视频| 亚洲AV成人无码网站天堂久久 | 高h视频在线播放 | 日韩免费不卡视频 | 久久一级片 |