當(dāng)前位置：首頁(yè) >

MLP回归，无需卷积、自注意力，纯多层感知机视觉架构媲美CNN、ViT

發(fā)布時(shí)間：2024/10/8 89 豆豆

生活随笔收集整理的這篇文章主要介紹了 MLP回归，无需卷积、自注意力，纯多层感知机视觉架构媲美CNN、ViT 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

作者｜機(jī)器之心編輯部

?來(lái)源｜機(jī)器之心

當(dāng)前，卷積神經(jīng)網(wǎng)絡(luò)（CNN）和基于自注意力的網(wǎng)絡(luò)（如近來(lái)大火的 ViT）是計(jì)算機(jī)視覺(jué)領(lǐng)域的主流選擇，但研究人員沒(méi)有停止探索視覺(jué)網(wǎng)絡(luò)架構(gòu)的腳步。近日，來(lái)自谷歌大腦的研究團(tuán)隊(duì)（原 ViT 團(tuán)隊(duì)）提出了一種舍棄卷積和自注意力且完全使用多層感知機(jī)（MLP）的視覺(jué)網(wǎng)絡(luò)架構(gòu)，在設(shè)計(jì)上非常簡(jiǎn)單，并且在 ImageNet 數(shù)據(jù)集上實(shí)現(xiàn)了媲美 CNN 和 ViT 的性能表現(xiàn)。

計(jì)算機(jī)視覺(jué)的發(fā)展史證明，規(guī)模更大的數(shù)據(jù)集加上更強(qiáng)的計(jì)算能力往往能夠促成范式轉(zhuǎn)變。雖然卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)成為計(jì)算機(jī)視覺(jué)領(lǐng)域的標(biāo)準(zhǔn)，但最近一段時(shí)間，基于自注意力層的替代方法 Vision Transformer（ViT）實(shí)現(xiàn)新的 SOTA 性能。從技術(shù)上講，ViT 模型延續(xù)了長(zhǎng)久以來(lái)去除模型中手工構(gòu)建特征和歸納偏置的趨勢(shì)，并進(jìn)一步依賴基于原始數(shù)據(jù)的學(xué)習(xí)。

近日，原 ViT 團(tuán)隊(duì)提出了一種不使用卷積或自注意力的 MLP-Mixer 架構(gòu)（簡(jiǎn)稱 Mixer），這是一種頗具競(jìng)爭(zhēng)力并且在概念和技術(shù)上都非常簡(jiǎn)單的替代方案。

Mixer 架構(gòu)完全基于在空間位置或特征通道重復(fù)利用的多層感知機(jī)（MLP），并且僅依賴于基礎(chǔ)矩陣乘法運(yùn)算、數(shù)據(jù)布局變換（如 reshape 和 transposition）和非線性層。

論文地址：

https://arxiv.org/pdf/2105.01601.pdf

項(xiàng)目地址：

https://github.com/google-research/vision_transformer/tree/linen

結(jié)果表明，雖然 Mixer 架構(gòu)很簡(jiǎn)單，但取得了極具競(jìng)爭(zhēng)力的結(jié)果。當(dāng)在大型數(shù)據(jù)集（約 1 億張圖像）上進(jìn)行預(yù)訓(xùn)練時(shí)，該架構(gòu)在準(zhǔn)確率 / 成本權(quán)衡方面能夠媲美 CNN 和 ViT，實(shí)現(xiàn)了接近 SOTA 的性能，在 ImageNet 數(shù)據(jù)集上取得了 87.94% 的 top1 準(zhǔn)確率。

對(duì)于該研究提出的 Mixer 架構(gòu)，特斯拉 AI 高級(jí)總監(jiān) Andrej Karpathy 認(rèn)為：「很好！1×1 卷積通常利用深度卷積實(shí)現(xiàn)堆疊或交替，但在這里，通道或空間混合得到簡(jiǎn)化或者實(shí)現(xiàn)完全對(duì)稱?！?

另一用戶表示：「CV 領(lǐng)域網(wǎng)絡(luò)架構(gòu)的演變從 MLP 到 CNN 到 Transformer 再回到 MLP，真是太有意思了?！?/p>

不過(guò)，谷歌 DeepMind 首席科學(xué)家 Oriol Vinyals 也提出了質(zhì)疑，他認(rèn)為：「per-patch 全連接，那不就是卷積嗎」

架構(gòu)思路

下圖 1 描述了 Mixer 的宏觀架構(gòu)，它以一系列圖像塊的線性投影（輸入的形狀為 patches × channels）作為輸入，先將輸入圖片拆分為 patch，通過(guò) Per-patch Fully-connected 將每個(gè) patch 轉(zhuǎn)換為 feature embedding，接著饋入 N 個(gè) Mixer Layer，最后通過(guò) Fully-connected 進(jìn)行分類。

Mixer 架構(gòu)采用兩種不同類型的 MLP 層：channel-mixing MLP 和 token-mixing MLP。channel-mixing MLP 允許不同通道之間進(jìn)行通信，token-mixing MLP 允許不同空間位置（token）之間進(jìn)行通信。這兩種類型的層交替執(zhí)行以促進(jìn)兩個(gè)維度間的信息交互。

另外，在極端的情況下，Mixer 架構(gòu)可以看做是一個(gè)特殊的 CNN，使用 1×1 卷積進(jìn)行 channel mixing，同時(shí)全感受野和參數(shù)共享的的單通道深度卷積進(jìn)行 token mixing。

設(shè)計(jì)思想

Mixer 架構(gòu)的設(shè)計(jì)思想是清楚地將按位置（channel-mixing）操作 (i) 和跨位置（token-mixing）操作 (ii) 分開，兩種操作都通過(guò) MLP 來(lái)實(shí)現(xiàn)。

該架構(gòu)如圖 1 所示，Mixer 將一系列 S 個(gè)不重疊的圖像 patch 作為輸入，每個(gè) patch 投影到所需的隱藏維度 C 上。這將產(chǎn)生二維實(shí)值（real-valued）輸入表 X ∈ R^S×C。

Mixer 由大小相同的多個(gè)層組成。每個(gè)層由 2 個(gè) MLP 塊組成，其中，第一個(gè)塊是 token-mixing MLP 塊，第二個(gè)是 channel-mixing MLP 塊。每個(gè) MLP 塊包含兩個(gè)全連接層，以及一個(gè)單獨(dú)應(yīng)用于其輸入數(shù)據(jù)張量的每一行的非線性層。Mixer 層描述如下：

Mixer 中的每個(gè)層（初始 patch 投影層除外）都采用相同大小的輸入，這種「各向同性（isotropic）」的設(shè)計(jì)與使用固定寬度的 Transformer 或其他域中的深度 RNN 大致相似。這不同于大多數(shù)具有金字塔結(jié)構(gòu)的 CNN，即較深的層具有較低分辨率的輸入，但是有較多通道（channel）。

除了 MLP 層，Mixer 還使用其他標(biāo)準(zhǔn)架構(gòu)組件：跳遠(yuǎn)連接（skip-connection）和層歸一化。此外，和 ViT 不同，Mixer 不使用位置嵌入，因?yàn)?token-mixing MLP 對(duì)輸入 token 的順序很敏感，因此能夠?qū)W會(huì)表征位置。最后，Mixer 將標(biāo)準(zhǔn)分類頭與全局平均池化層配合使用，隨后使用線性分類器。

實(shí)驗(yàn)及結(jié)果

該研究用實(shí)驗(yàn)對(duì) MLP-Mixer 模型的性能進(jìn)行了評(píng)估。其中，模型在中大規(guī)模數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練，采用一系列中小型下游分類任務(wù)，并對(duì)以下三個(gè)問(wèn)題進(jìn)行重點(diǎn)研究：

在下游任務(wù)上的準(zhǔn)確率；
預(yù)訓(xùn)練的總計(jì)算成本，這對(duì)于在上游數(shù)據(jù)集上從頭開始訓(xùn)練模型非常重要；
推斷時(shí)的吞吐量，這在實(shí)際應(yīng)用中非常重要。

該研究的實(shí)驗(yàn)?zāi)康牟皇钦故?SOTA 結(jié)果，而在于表明：一個(gè)簡(jiǎn)單的基于 MLP 的模型就可以取得與當(dāng)前最佳的 CNN、基于注意力的模型相媲美的性能。

下表 1 列出了 Mixer 模型的各種配置以對(duì)標(biāo)一些最新的 SOTA CNN 和基于注意力的模型：

下表 2 給出了最大 Mixer 模型與 SOTA 模型的性能對(duì)比結(jié)果：

當(dāng)在 ImageNet-21k 上進(jìn)行帶有額外正則化的預(yù)訓(xùn)練時(shí)，Mixer 實(shí)現(xiàn)了非常好的性能（ImageNet 上 84.15% top-1），略低于其他模型。當(dāng)上游數(shù)據(jù)集的大小增加時(shí)，Mixer 的性能顯著提高。具體來(lái)說(shuō)，Mixer-H/14 在 ImageNet 上取得了 87.94% top-1 的準(zhǔn)確率，比 BiT-ResNet152x4 高 0.5%，比 ViT-H/14 低 0.5%。值得一提的是，Mixer-H/14 的運(yùn)行速度要比 ViT-H/14 快 2.5 倍，比 BiT 快 2 倍。

圖 2（左）展示了表 2 中 SOTA 模型在 ImageNet 數(shù)據(jù)集上的準(zhǔn)確率、訓(xùn)練成本帕累托前沿（Pareto frontier）：

下表展示了在多種模型和預(yù)訓(xùn)練是數(shù)據(jù)集規(guī)模上，Mixer 和其他一些模型的性能對(duì)比結(jié)果。

由上表可得，當(dāng)在 ImageNet 上從頭開始訓(xùn)練時(shí)， Mixer-B/16 取得了一個(gè)合理的 top-1 準(zhǔn)確率 76.44%，這要比 ViT-B/16 低 3%。隨著預(yù)訓(xùn)練數(shù)據(jù)集的增大，Mixer 的性能逐步提升。值得一提的是，在 JFT-300M 數(shù)據(jù)集上預(yù)訓(xùn)練、微調(diào)到 224 分辨率的 Mixer-H/14 取得了 86.32% 的準(zhǔn)確率，比 ViT-H/14 僅低 0.3%，但運(yùn)行速度是其 2.2 倍。

????

現(xiàn)在，在「知乎」也能找到我們了

進(jìn)入知乎首頁(yè)搜索「PaperWeekly」

點(diǎn)擊「關(guān)注」訂閱我們的專欄吧

關(guān)于PaperWeekly

PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域，歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」，小助手將把你帶入 PaperWeekly 的交流群里。

總結(jié)

以上是生活随笔為你收集整理的MLP回归，无需卷积、自注意力，纯多层感知机视觉架构媲美CNN、ViT的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：零基础如何快速上手高精度AI模型开发？
下一篇：直播 | AMP：针对模型参数施加对抗扰

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

MLP回归，无需卷积、自注意力，纯多层感知机视觉架构媲美CNN、ViT

總結(jié)