日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 人工智能 > pytorch >内容正文

pytorch

【深度学习】最先进的图像分类算法:FixEfficientNet-L2

發(fā)布時間:2025/3/12 pytorch 33 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【深度学习】最先进的图像分类算法:FixEfficientNet-L2 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

FixEfficientNet 是一種結(jié)合了兩種現(xiàn)有技術(shù)的技術(shù):來自 Facebook AI 團隊的 FixRes [2]?以及由 Google AI 研究團隊首先提出的EfficientNet [3]。FixRes 是 Fix Resolution 的縮寫形式,它嘗試為用于訓(xùn)練時間的 RoC(分類區(qū)域)或用于測試時間的裁剪保持固定大小。EfficientNet 是 CNN 尺度的復(fù)合縮放,可提高準確性和效率。本文旨在解釋這兩種技術(shù)及其最新技術(shù)。

首先,Facebook AI 研究團隊于 2020 年 4 月 20 日將 FixEfficientNet 與相應(yīng)的論文一起展示 [1],并連續(xù)成為計算機視覺領(lǐng)域的一項任務(wù)。它是目前最先進的,在 ImageNet 數(shù)據(jù)集上有最好的結(jié)果,參數(shù)為 480M,top-1 準確率為 88.5%,top-5 準確率為 98.7%。

讓我們更深入地研究一下,以更好地了解組合技術(shù)。


了解 FixRes

訓(xùn)練時間

在 Facebook AI 研究團隊提出 FixRes 技術(shù)之前,最先進的技術(shù)是從圖像中提取一個隨機的像素方塊。這被用作訓(xùn)練時間的 RoC 。(請注意,使用此技術(shù)會人為地增加數(shù)據(jù)量)。然后調(diào)整圖像大小以獲得固定大小(=裁剪)的圖像。然后將其輸入卷積神經(jīng)網(wǎng)絡(luò) [2]。

RoC = 輸入圖像中的矩形/正方形


crop = 通過雙線性插值重新縮放到特定分辨率的 RoC 像素

訓(xùn)練時間規(guī)模擴大

為了更好地了解 FixRes 的具體功能,讓我們看一下數(shù)學(xué)。更改輸入圖像中 RoC 的大小會影響給定 CNN 的對象大小的分布。該對象在輸入圖像中的大小為 rxr 。如果 RoC 現(xiàn)在被縮放,它會改變 s 并且對象的大小現(xiàn)在將連續(xù)變?yōu)?rs x rs 。

對于增強,使用了 PyTorch 的 RandomResizedCrop。輸入圖像的大小為H x W,從中隨機選擇一個 RoC,然后將此 RoC 調(diào)整為裁剪大小。

輸入圖像 ( H x W ) 對輸出裁剪的縮放比例可以由以下因素表示:

測試時間

在測試時,RoC 通常位于圖像的中心,這會導(dǎo)致所謂的中心裁剪。兩種裁剪(一種來自訓(xùn)練時間,另一種來自測試時間)具有相同的大小,但它們來自圖像的不同部分,這通常會導(dǎo)致 CNN 的分布存在偏差?[2]?。

測試時間規(guī)模增加。

如前所述,測試增強與訓(xùn)練時間增強不同。這樣,裁剪就有了大小。

關(guān)于輸入圖像是正方形 ( H=W ) 的假設(shè),測試增強的比例因子可以表示為:

有什么發(fā)現(xiàn)?
在開發(fā) FixRes 之前,測試和訓(xùn)練時間的預(yù)處理是彼此分開的,從而導(dǎo)致偏差。Facebook AI 團隊不斷嘗試找到一種解決方案,該解決方案同時執(zhí)行預(yù)處理并以某種方式同步,那就是 FixRes?

如上所述的標準預(yù)處理通常會在訓(xùn)練時擴大 RoC,并在測試時減小 RoC 的大小。

FixRes 技術(shù)采用非此即彼的方法。它要么降低訓(xùn)練時間分辨率并保持測試裁剪的大小,要么增加測試時間分辨率并保持訓(xùn)練裁剪的大小。目的是檢索相同大小的對象(此處是烏鴉),以減少 CNN 中的尺度不變性 [2]?。如下所示:

這會對數(shù)據(jù)輸入 CNN 的方式產(chǎn)生兩種影響:

  • 圖像中對象(此處是烏鴉)的大小通過 FixRes Scaling 進行更改。

  • 使用不同的裁剪大小會影響神經(jīng)元的激活方式和時間。


  • 激活統(tǒng)計數(shù)據(jù)變化問題

    Touvron 等人發(fā)現(xiàn),更大的測試裁剪以及最重要的是對象尺寸的調(diào)整可以帶來更好的準確性。然而,這需要在調(diào)整對象大小和更改激活統(tǒng)計數(shù)據(jù)之間進行權(quán)衡。

    測試表明,激活圖隨著圖像分辨率的變化而變化。K_test = 224 表示映射為 7x7,K_test = 64 表示映射為 2x2,而 K_test = 448 表示映射為 14x14。這表明激活分布在測試時會發(fā)生變化,并且這些值超出了分類器范圍 [1]。

    為了解決激活統(tǒng)計數(shù)據(jù)變化的問題,提出了兩種解決方案:

  • 參數(shù)適應(yīng):參數(shù) Fréchet 分布用于擬合平均池化層。然后通過標量變換將新分布映射到舊分布,并作為激活函數(shù)應(yīng)用。

  • 微調(diào):進行校正的另一種方法是對模型進行微調(diào),微調(diào)僅應(yīng)用于 CNN 的最后一層。

  • 在微調(diào)階段,使用標簽平滑[1]。


    EfficientNet?架構(gòu) [3]

    作者預(yù)先訓(xùn)練了幾個模型,其中 EfficientNet-L2 顯示了最佳結(jié)果。但什么是 EfficientNet ?

    與圖像分類中的大多數(shù)算法一樣,高效網(wǎng)絡(luò)基于 CNN。CNN 具有三個維度:寬度、深度和分辨率。深度是層數(shù),寬度是通道數(shù)(例如,傳統(tǒng)的 RGB 將有 3 個通道),分辨率是圖像的像素。

    EfficientNets 引入了復(fù)合縮放,它利用了所有三個維度:

    寬度縮放——寬度可以通過具有更多通道的圖像來增加,但是準確度增益很快就會下降。

    深度縮放——是傳統(tǒng)且最典型的縮放方式。通過增加深度,可以增加神經(jīng)網(wǎng)絡(luò)的層數(shù)。但是添加更多層并不總是能提高網(wǎng)絡(luò)的性能。大多數(shù)情況下它需要更多的時間,但由于梯度消失,性能可能會隨著層數(shù)的增加而停滯甚至下降。

    分辨率縮放——這意味著增加分辨率,從而增加像素數(shù),例如從 200x200 到 600x600。這種縮放的問題在于精度增益隨著分辨率的提高而消失。在一定程度上,精度可能會增加,但精度增量會減少。

    所有三個維度的放大都會導(dǎo)致精度增量減小,并且為了獲得最佳精度結(jié)果,必須對所有這三個維度進行平衡縮放。因此提出了復(fù)合縮放:

    ? 指定可用資源,而 alpha、beta 和 gamma 負責(zé)分配這些資源。

    Touvron?等人[1] ,?“ 使用神經(jīng)架構(gòu)搜索來開發(fā)新的基準網(wǎng)絡(luò),并對其放大以獲得稱為 EfficientNets 的一系列模型。”?神經(jīng)架構(gòu)搜索 (NAS) 優(yōu)化了觸發(fā)器和準確性。


    結(jié)論

    這兩種技術(shù)的結(jié)合使得目前最好的圖像分類算法遠遠領(lǐng)先于 EfficientNet Noisy Student,它在效率和準確性方面都是當(dāng)前領(lǐng)先的算法。由于其前五名的準確度為 98.7%,因此仍有改進的可能,但它已經(jīng)相當(dāng)準確了。因此,要等到這項技術(shù)被一種新技術(shù)所取代,還需要等待。

    由于本文不包含任何實現(xiàn),小伙伴們可以使用作者的官方 Github 自行嘗試。

    作者 [1] 的預(yù)訓(xùn)練網(wǎng)絡(luò)如下所示:

    github 存儲庫的屏幕截圖。

    參考資料

    [1] Touvron, H.、Vedaldi, A.、Douze, M. 和 Jégou, H. (2020b)。修復(fù)訓(xùn)練測試分辨率差異:FixEfficientNet。ArXiv:2003.08237 [Cs]。http://arxiv.org/abs/2003.08237

    [2] Touvron, H.、Vedaldi, A.、Douze, M. 和 Jégou, H.(2020a)。修復(fù)訓(xùn)練測試分辨率差異。ArXiv:1906.06423 [Cs]。http://arxiv.org/abs/1906.06423

    [3] Tan, M., & Le, QV (2020)。EfficientNet:對卷積神經(jīng)網(wǎng)絡(luò)的模型放縮重新思考。ArXiv:1905.11946 [Cs,Stat]。http://arxiv.org/abs/1905.11946

    Github代碼連接:

    http :?//github.com/facebookresearch/FixRes。

    往期精彩回顧適合初學(xué)者入門人工智能的路線及資料下載機器學(xué)習(xí)及深度學(xué)習(xí)筆記等資料打印機器學(xué)習(xí)在線手冊深度學(xué)習(xí)筆記專輯《統(tǒng)計學(xué)習(xí)方法》的代碼復(fù)現(xiàn)專輯 AI基礎(chǔ)下載黃海廣老師《機器學(xué)習(xí)課程》視頻課黃海廣老師《機器學(xué)習(xí)課程》711頁完整版課件

    本站qq群955171419,加入微信群請掃碼:

    總結(jié)

    以上是生活随笔為你收集整理的【深度学习】最先进的图像分类算法:FixEfficientNet-L2的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。