日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) >

MLP回归,无需卷积、自注意力,纯多层感知机视觉架构媲美CNN、ViT

發(fā)布時(shí)間:2024/10/8 89 豆豆
生活随笔 收集整理的這篇文章主要介紹了 MLP回归,无需卷积、自注意力,纯多层感知机视觉架构媲美CNN、ViT 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

作者|機(jī)器之心編輯部

?來(lái)源|機(jī)器之心

當(dāng)前,卷積神經(jīng)網(wǎng)絡(luò)(CNN)和基于自注意力的網(wǎng)絡(luò)(如近來(lái)大火的 ViT)是計(jì)算機(jī)視覺(jué)領(lǐng)域的主流選擇,但研究人員沒(méi)有停止探索視覺(jué)網(wǎng)絡(luò)架構(gòu)的腳步。近日,來(lái)自谷歌大腦的研究團(tuán)隊(duì)(原 ViT 團(tuán)隊(duì))提出了一種舍棄卷積和自注意力且完全使用多層感知機(jī)(MLP)的視覺(jué)網(wǎng)絡(luò)架構(gòu),在設(shè)計(jì)上非常簡(jiǎn)單,并且在 ImageNet 數(shù)據(jù)集上實(shí)現(xiàn)了媲美 CNN 和 ViT 的性能表現(xiàn)。

計(jì)算機(jī)視覺(jué)的發(fā)展史證明,規(guī)模更大的數(shù)據(jù)集加上更強(qiáng)的計(jì)算能力往往能夠促成范式轉(zhuǎn)變。雖然卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)成為計(jì)算機(jī)視覺(jué)領(lǐng)域的標(biāo)準(zhǔn),但最近一段時(shí)間,基于自注意力層的替代方法 Vision Transformer(ViT)實(shí)現(xiàn)新的 SOTA 性能。從技術(shù)上講,ViT 模型延續(xù)了長(zhǎng)久以來(lái)去除模型中手工構(gòu)建特征和歸納偏置的趨勢(shì),并進(jìn)一步依賴基于原始數(shù)據(jù)的學(xué)習(xí)。

近日,原 ViT 團(tuán)隊(duì)提出了一種不使用卷積或自注意力的 MLP-Mixer 架構(gòu)(簡(jiǎn)稱 Mixer),這是一種頗具競(jìng)爭(zhēng)力并且在概念和技術(shù)上都非常簡(jiǎn)單的替代方案。

Mixer 架構(gòu)完全基于在空間位置或特征通道重復(fù)利用的多層感知機(jī)(MLP),并且僅依賴于基礎(chǔ)矩陣乘法運(yùn)算、數(shù)據(jù)布局變換(如 reshape 和 transposition)和非線性層。

論文地址:

https://arxiv.org/pdf/2105.01601.pdf

項(xiàng)目地址:

https://github.com/google-research/vision_transformer/tree/linen

結(jié)果表明,雖然 Mixer 架構(gòu)很簡(jiǎn)單,但取得了極具競(jìng)爭(zhēng)力的結(jié)果。當(dāng)在大型數(shù)據(jù)集(約 1 億張圖像)上進(jìn)行預(yù)訓(xùn)練時(shí),該架構(gòu)在準(zhǔn)確率 / 成本權(quán)衡方面能夠媲美 CNN 和 ViT,實(shí)現(xiàn)了接近 SOTA 的性能,在 ImageNet 數(shù)據(jù)集上取得了 87.94% 的 top1 準(zhǔn)確率。

對(duì)于該研究提出的 Mixer 架構(gòu),特斯拉 AI 高級(jí)總監(jiān) Andrej Karpathy 認(rèn)為:「很好!1×1 卷積通常利用深度卷積實(shí)現(xiàn)堆疊或交替,但在這里,通道或空間混合得到簡(jiǎn)化或者實(shí)現(xiàn)完全對(duì)稱?!?

另一用戶表示:「CV 領(lǐng)域網(wǎng)絡(luò)架構(gòu)的演變從 MLP 到 CNN 到 Transformer 再回到 MLP,真是太有意思了?!?/p>

不過(guò),谷歌 DeepMind 首席科學(xué)家 Oriol Vinyals 也提出了質(zhì)疑,他認(rèn)為:「per-patch 全連接,那不就是卷積嗎」

架構(gòu)思路

下圖 1 描述了 Mixer 的宏觀架構(gòu),它以一系列圖像塊的線性投影(輸入的形狀為 patches × channels)作為輸入,先將輸入圖片拆分為 patch,通過(guò) Per-patch Fully-connected 將每個(gè) patch 轉(zhuǎn)換為 feature embedding,接著饋入 N 個(gè) Mixer Layer,最后通過(guò) Fully-connected 進(jìn)行分類。

Mixer 架構(gòu)采用兩種不同類型的 MLP 層:channel-mixing MLP 和 token-mixing MLP。channel-mixing MLP 允許不同通道之間進(jìn)行通信,token-mixing MLP 允許不同空間位置(token)之間進(jìn)行通信。這兩種類型的層交替執(zhí)行以促進(jìn)兩個(gè)維度間的信息交互。

另外,在極端的情況下,Mixer 架構(gòu)可以看做是一個(gè)特殊的 CNN,使用 1×1 卷積進(jìn)行 channel mixing,同時(shí)全感受野和參數(shù)共享的的單通道深度卷積進(jìn)行 token mixing。

設(shè)計(jì)思想

Mixer 架構(gòu)的設(shè)計(jì)思想是清楚地將按位置(channel-mixing)操作 (i) 和跨位置(token-mixing)操作 (ii) 分開,兩種操作都通過(guò) MLP 來(lái)實(shí)現(xiàn)。

該架構(gòu)如圖 1 所示,Mixer 將一系列 S 個(gè)不重疊的圖像 patch 作為輸入,每個(gè) patch 投影到所需的隱藏維度 C 上。這將產(chǎn)生二維實(shí)值(real-valued)輸入表 X ∈ R^S×C。

Mixer 由大小相同的多個(gè)層組成。每個(gè)層由 2 個(gè) MLP 塊組成,其中,第一個(gè)塊是 token-mixing MLP 塊,第二個(gè)是 channel-mixing MLP 塊。每個(gè) MLP 塊包含兩個(gè)全連接層,以及一個(gè)單獨(dú)應(yīng)用于其輸入數(shù)據(jù)張量的每一行的非線性層。Mixer 層描述如下:

Mixer 中的每個(gè)層(初始 patch 投影層除外)都采用相同大小的輸入,這種「各向同性(isotropic)」的設(shè)計(jì)與使用固定寬度的 Transformer 或其他域中的深度 RNN 大致相似。這不同于大多數(shù)具有金字塔結(jié)構(gòu)的 CNN,即較深的層具有較低分辨率的輸入,但是有較多通道(channel)。

除了 MLP 層,Mixer 還使用其他標(biāo)準(zhǔn)架構(gòu)組件:跳遠(yuǎn)連接(skip-connection)和層歸一化。此外,和 ViT 不同,Mixer 不使用位置嵌入,因?yàn)?token-mixing MLP 對(duì)輸入 token 的順序很敏感,因此能夠?qū)W會(huì)表征位置。最后,Mixer 將標(biāo)準(zhǔn)分類頭與全局平均池化層配合使用,隨后使用線性分類器。

實(shí)驗(yàn)及結(jié)果

該研究用實(shí)驗(yàn)對(duì) MLP-Mixer 模型的性能進(jìn)行了評(píng)估。其中,模型在中大規(guī)模數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,采用一系列中小型下游分類任務(wù),并對(duì)以下三個(gè)問(wèn)題進(jìn)行重點(diǎn)研究:

  • 在下游任務(wù)上的準(zhǔn)確率;

  • 預(yù)訓(xùn)練的總計(jì)算成本,這對(duì)于在上游數(shù)據(jù)集上從頭開始訓(xùn)練模型非常重要;

  • 推斷時(shí)的吞吐量,這在實(shí)際應(yīng)用中非常重要。

該研究的實(shí)驗(yàn)?zāi)康牟皇钦故?SOTA 結(jié)果,而在于表明:一個(gè)簡(jiǎn)單的基于 MLP 的模型就可以取得與當(dāng)前最佳的 CNN、基于注意力的模型相媲美的性能。

下表 1 列出了 Mixer 模型的各種配置以對(duì)標(biāo)一些最新的 SOTA CNN 和基于注意力的模型:

下表 2 給出了最大 Mixer 模型與 SOTA 模型的性能對(duì)比結(jié)果:

當(dāng)在 ImageNet-21k 上進(jìn)行帶有額外正則化的預(yù)訓(xùn)練時(shí),Mixer 實(shí)現(xiàn)了非常好的性能(ImageNet 上 84.15% top-1),略低于其他模型。當(dāng)上游數(shù)據(jù)集的大小增加時(shí),Mixer 的性能顯著提高。具體來(lái)說(shuō),Mixer-H/14 在 ImageNet 上取得了 87.94% top-1 的準(zhǔn)確率,比 BiT-ResNet152x4 高 0.5%,比 ViT-H/14 低 0.5%。值得一提的是,Mixer-H/14 的運(yùn)行速度要比 ViT-H/14 快 2.5 倍,比 BiT 快 2 倍。

圖 2(左)展示了表 2 中 SOTA 模型在 ImageNet 數(shù)據(jù)集上的準(zhǔn)確率、訓(xùn)練成本帕累托前沿(Pareto frontier):

下表展示了在多種模型和預(yù)訓(xùn)練是數(shù)據(jù)集規(guī)模上,Mixer 和其他一些模型的性能對(duì)比結(jié)果。

由上表可得,當(dāng)在 ImageNet 上從頭開始訓(xùn)練時(shí), Mixer-B/16 取得了一個(gè)合理的 top-1 準(zhǔn)確率 76.44%,這要比 ViT-B/16 低 3%。隨著預(yù)訓(xùn)練數(shù)據(jù)集的增大,Mixer 的性能逐步提升。值得一提的是,在 JFT-300M 數(shù)據(jù)集上預(yù)訓(xùn)練、微調(diào)到 224 分辨率的 Mixer-H/14 取得了 86.32% 的準(zhǔn)確率,比 ViT-H/14 僅低 0.3%,但運(yùn)行速度是其 2.2 倍。

????

現(xiàn)在,在「知乎」也能找到我們了

進(jìn)入知乎首頁(yè)搜索「PaperWeekly」

點(diǎn)擊「關(guān)注」訂閱我們的專欄吧

關(guān)于PaperWeekly

PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。

總結(jié)

以上是生活随笔為你收集整理的MLP回归,无需卷积、自注意力,纯多层感知机视觉架构媲美CNN、ViT的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。