日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

CVPR 2022 | 华为诺亚北大提出量子启发MLP,性能超越Swin Transfomer

發布時間:2024/10/8 编程问答 36 豆豆
生活随笔 收集整理的這篇文章主要介紹了 CVPR 2022 | 华为诺亚北大提出量子启发MLP,性能超越Swin Transfomer 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.


?作者?|?機器之心編輯部

來源?|?機器之心

來自華為諾亞方舟實驗室、北京大學、悉尼大學的研究者提出了一種受量子力學啟發的視覺 MLP 新架構

近年來,計算機視覺領域的新型架構層出不窮,包括視覺 Transformer、MLP 等,它們在很多任務上都取得了超越 CNN 的性能,受到廣泛關注。其中,視覺 MLP 具有極其簡單的架構,它僅由多層感知器(MLP)堆疊而成。與 CNN 和 Transformer 相比,這些簡潔的 MLP 架構引入了更少的歸納偏置,具有更強的泛化性能。?

然而,現有視覺 MLP 架構的性能依然弱于 CNN 和 Transformer。來自華為諾亞方舟實驗室、北京大學、悉尼大學的研究者提出了一種受量子力學啟發的視覺 MLP 架構,在 ImageNet 分類、COCO 檢測、ADE20K 分割等多個任務上取得了 SOTA 性能。

論文鏈接:

https://arxiv.org/abs/2111.12294

PyTorch代碼:

https://github.com/huawei-noah/CV-Backbones/tree/master/wavemlp_pytorch

MindSpore代碼:

https://gitee.com/mindspore/models/tree/master/research/cv/wave_mlp

Wave-MLP

該研究受量子力學中波粒二象性的啟發,將 MLP 中每個圖像塊 (Token) 表示成波函數的形式,從而提出了一個新型的視覺 MLP 架構——Wave-MLP,在性能上大幅超越了現有 MLP 架構以及 Transformer。?

量子力學是描述微觀粒子運動規律的物理學分支,經典力學可被視為量子力學的特例。量子力學的一個基本屬性是波粒二象性,即所有的個體(比如電子、光子、原子等)都可以同時使用粒子的術語和波的術語來描述。一個波通常包括幅值和相位兩個屬性,幅值表示一個波可能達到的最大強度,相位指示著當前處在一個周期的哪個位置。將一個經典意義上的粒子用波(比如,德布羅意波)的形式來表示,可以更完備地描述微觀粒子的運動狀態。?

那么,對于視覺 MLP 中的圖像塊,能不能也把它表示成波的形式呢?該研究用幅值表達每個 Token 所包含的實際信息,用相位來表示這個 Token 當前所處的狀態。在聚集不同 Token 信息的時候,不同 Token 之間的相位差會調制它們之間的聚合過程(如圖 3 示)。考慮到來自不同輸入圖像的 Token 包含不同的語義內容,該研究使用一個簡單的全連接模塊來動態估計每個 Token 的相位。對于同時帶有幅度和相位信息的 Token,作者提出了一個相位感知 Token 混合模塊(PATM,如下圖 1 所示)來聚合它們的信息。交替堆疊 PATM 模塊和 MLP 模塊構成了整個 Wave-MLP 架構。

?圖1.?Wave-MLP 架構中的一個單元

相比現有的視覺 Transformer 和 MLP 架構,Wave-MLP 有著明顯的性能優勢(如下圖 2 所示)。在 ImageNet,Wave-MLP-S 模型上以 4.5G FLOPs 實現了 82.6% 的 top-1 準確率,比相似計算代價的 Swin-T 高 1.3 個點。此外,Wave-MLP 也可以推廣到目標檢測和語義分割等下游任務,展現出強大的泛化性能。

?圖2.?Wave-MLP 與現有視覺 Transformer、MLP 架構的比較

1.1?用波表示 Token

在 Wave-MLP 中,Token 被表示為同時具有幅值和相位信息的波 :

其中 是滿足 的虛數單位, 表示絕對值運算, 是逐元素乘法。幅值 是實值的特征,表示每個 Token 所包含的內容。 表示相位,即 Token 在一個波周期內的當前位置。

兩個 Token 之間的相位差對它們的聚合過程有很大影響 (如下圖 3 所示)。當兩個 token 具有相同的相位時,它們會相互增強,得到幅值更大的波(圖 3(b));當兩個 token 相位相反時,他們合成的波將相互減弱。在其他情況下,它們之間的相互作用更加復雜,但仍取決于相位差(圖 3(a))。經典方法中使用實值表示 token 的,這實際上是上式的一個特例。

圖3. 兩個具有不同相位的波的聚合過程。左側表示兩個波在復數域中的疊加,右側表示它們在實軸上的投影隨著相位的變化。虛線表示兩個初始相位不同的波,實線是他們的疊加。

1.2 相位感知的 Token 聚合

公式(1)中包含幅值和相位兩項,幅值 類似于實值特征,可以采用標準的 Channel-FC 生成:

對于相位,可以使用多種方式來估計。為了使得相位可以捕獲每個輸入的特定屬性,該研究使用一個可學的估計模塊來生成相位 。在獲得幅值 和相位 之后,可以根據公式(1)得到 Token 的波函數表示圖片。同時,公式(1)可以采用歐拉公式展開成連個實值向量拼接的形式:

表示不同的 Token 波函數會通過一個 Token-FC 聚合起來,得到復數域的輸出:

類似于量子計算中的測量過程,復數域的需要映射到實數域里才能得到有意義的輸出值。將實部和虛部做按照一定的權重進行求和,得到模塊的輸出:

在視覺 MLP 中,該研究構建了一個相位感知模塊(PATM,圖 1)來完成 Token 聚合的過程。交替堆疊 PATM 模塊和 channel-mixing MLP 組建了整個 WaveMLP 架構。

實驗結果

該研究在大規模的分類數據集 ImageNet, 目標檢測數據集 COCO 和語義分割數據集 ADE20K 上都進行了大量實驗。?

ImageNet 上圖像分類的結果如表 1,表 2 所示:相比于現有的 Vision MLP 架構和 Transformer 架構,WaveMLP 都取得了明顯的性能優勢。

在下游目標檢測、語義分割等任務中,Wave-MLP 同樣表現出更優的性能。

特別鳴謝

感謝 TCCI 天橋腦科學研究院對于 PaperWeekly 的支持。TCCI 關注大腦探知、大腦功能和大腦健康。

更多閱讀

#投 稿?通 道#

?讓你的文字被更多人看到?

如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。

總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?

PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析科研心得競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。

📝?稿件基本要求:

? 文章確系個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標注?

? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題

? PaperWeekly 尊重原作者署名權,并將為每篇被采納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算

📬?投稿通道:

? 投稿郵箱:hr@paperweekly.site?

? 來稿請備注即時聯系方式(微信),以便我們在稿件選用的第一時間聯系作者

? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿

△長按添加PaperWeekly小編

🔍

現在,在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

·

總結

以上是生活随笔為你收集整理的CVPR 2022 | 华为诺亚北大提出量子启发MLP,性能超越Swin Transfomer的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。