當前位置：首頁 >

Early Convolutions Help Transformers See Better

發布時間：2023/12/20 42 豆豆

生活随笔收集整理的這篇文章主要介紹了 Early Convolutions Help Transformers See Better 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Early Convolutions使得Transformers表現更好

Tete Xiao 1 , 2 Mannat Singh 1 Eric Mintun 1 Trevor Darrell 2 Piotr Dollár 1 ? Ross Girshick 1 ? 1 Facebook AI Research (FAIR) 2 UC Berkeley

摘要

????Vision transformer（ViT）模型表現出不合標準的優化能力。特別是，他們對優化器（AdamW vs.SGD）、優化器超參數和訓練計劃長度的選擇非常敏感。相比之下，現代卷積神經網絡更容易優化。為什么會這樣？在這項工作中，我們推測問題在于ViT模型的修補干，它是通過對輸入圖像應用跨步p×p卷積（默認情況下p=16）來實現的。這種大內核加上大跨距卷積與神經網絡中卷積層的典型設計選擇背道而馳。為了測試這種非典型的設計選擇是否會導致問題，我們分析了ViT模型的優化行為，并將其與原來的patchify干進行了比較，而與簡單的對應模型進行了比較，我們將ViT干替換為少量的堆疊跨步2個3×3卷積。雖然兩種ViT設計中的絕大多數計算是相同的，但我們發現，早期視覺處理中的這一微小變化導致訓練行為在對優化設置的敏感性以及最終模型精度方面明顯不同。
????在ViT中使用卷積干顯著提高了優化穩定性，也提高了峰值表現（通過～ ImageNet-1k上1-2%的頂級精度），同時保持觸發器和運行時。在模型復雜性（從1G到36G觸發器）和數據集規模（從ImageNet-1k到ImageNet-21k）的廣泛范圍內都可以觀察到改進。這些發現導致我們建議在這種情況下，使用標準的、輕型的卷積莖作為ViT模型的一種結構選擇，與原來的ViT模型設計相比，這是一種更穩健的結構選擇。

1引言

????視覺transformer（ViT）模型【13】提供了卷積神經網絡（CNN）的另一種設計范式【24】。ViTs將進化中固有的對局部處理的誘導性bias替換為多頭自我注意的全局處理[43]。希望這種設計有可能改善視覺任務的表現，類似于自然語言處理中觀察到的趨勢【11】。在研究這一推測時，研究人員面臨著ViT和CNN之間的另一個意想不到的差異：ViT模型表現出不合標準的優化能力。
????VIT對優化器的選擇【41】（AdamW【27】vs.SGD）、數據集特定學習超參數的選擇【13，41】、訓練計劃長度、網絡深度【42】等非常敏感。
????這些問題使得以前的訓練方法和直覺無效，阻礙了研究。
????相比之下，卷積神經網絡非常容易優化，而且非常健壯。多年來，基于SGD、基礎數據擴充和標準超參數值的簡單訓練配方已被廣泛使用【19】。為什么ViT和CNN模型之間存在這種差異？在本文中，我們假設問題主要在于ViT執行的早期視覺處理。ViT將輸入圖像“拼接”為p×p非重疊拼接，以形成transformer編碼器的輸入集。此修補莖實現為跨步-p p×p卷積，默認值為p=16。這種大內核加上大跨距卷積與CNN中使用的典型設計選擇背道而馳，在CNN中，最佳實踐已經收斂到一個小跨距堆棧，兩個3×3內核作為網絡的主干（例如，[30，36，39]）。
????為了驗證這一假設，我們將ViT的補丁莖替換為標準的卷曲莖，使ViT的早期視覺處理發生最小的改變～ 5個卷積，見圖1。
????為了補償觸發器中的少量添加，我們刪除了一個transformer塊以保持觸發器和運行時中的奇偶校驗。我們觀察到，盡管兩種ViT設計中的絕大多數計算是相同的，但早期視覺處理中的這一微小變化導致訓練行為在對優化設置的敏感性以及最終的模型精度方面明顯不同。
????在廣泛的實驗中，我們表明，用更標準的卷積干取代ViT修補干（i）可以使ViT更快地收斂（§5.1），（ii）首次允許使用AdamW或SGD，而不會顯著降低準確性（§5.2），（iii）使ViT的穩定性w.r.t.學習率和重量衰減更接近現代CNN（§5.3），和（iv）改進了ImageNet[10]的top-1錯誤～ 1-2個百分點（§6）。我們在廣泛的模型復雜性（從1G觸發器到36G觸發器）和數據集規模（ImageNet-1k到ImageNet-21k）中不斷觀察到這些改進。
????這些結果表明，在通常研究的情況下，向ViTs中注入一些卷積電感bias是有益的。我們沒有觀察到證據表明，早期層中的硬位置約束會阻礙網絡的代表能力，這可能令人擔憂[9]。事實上，我們觀察到了相反的情況，因為使用卷積干時，即使使用更大比例的模型和更大比例的數據，ImageNet結果也會得到改善。此外，在仔細控制的比較下，我們發現VIT只有在配備卷曲莖時才能超過最先進的CNN（§6）。
????我們推測，將ViT中的卷積限制在早期視覺處理中可能是一個至關重要的設計選擇，它可以在（硬）感應偏差和transformer塊的表示學習能力之間取得平衡。與文獻[13]中提出的“混合ViT”相比，有證據表明，混合ViT使用了40個卷積層（大部分是ResNet-50），與默認ViT相比沒有任何改進。
????這一觀點與[9]的研究結果產生了共鳴，他們觀察到早期的transformer區塊比后期區塊更喜歡學習更多的局部注意力模式。最后，我們注意到，探索CNN/ViT混合模型的設計并不是這項工作的目標；相反，我們證明了簡單地將最小卷積干與ViT結合使用就足以顯著改變其優化行為。
????綜上所述，本文中的研究結果導致我們建議在分析的數據集規模和模型復雜度譜中使用標準、輕量級的卷積干，作為與原始ViT模型設計相比更穩健、性能更高的架構選擇。

圖1：早期卷積有助于transformers更好地觀察：我們假設，與CNN相比，ViT模型的非標準優化能力主要源于其補丁干執行的早期視覺處理，其由非重疊的步幅p p×p卷積實現，默認情況下p=16。我們將ViT中的補片莖替換為標準卷曲莖～ 5個卷積，其復雜性與單個transformer塊大致相同。我們將transformer塊的數量減少了一個（即，L? 1對。L）保持觸發器、參數和運行時的奇偶校驗。我們將生成的模型稱為ViT C，將原始ViT稱為ViT P。這兩個模型執行的絕大多數計算是相同的，但令人驚訝的是，我們觀察到ViT C（i）收斂速度更快，（ii）首次允許使用AdamW或SGD，而不存在顯著的精度下降，（iii）顯示出學習速度和權重衰減選擇的更大穩定性，（iv）改進了ImageNet top-1錯誤，使ViT C優于最先進的CNN，而ViT P則不然。

2相關工作

????卷積神經網絡（CNNs）。AlexNet【23】CNN【15，24】在ImageNet分類【10】方面的突破性表現改變了識別領域，導致了更高性能架構的發展，例如。，[19、36、37、48]和可擴展的訓練方法[16、21]。這些體系結構現在是對象檢測（例如，[34]）、實例分割（例如，[18]）和語義分割（例如，[26]）中的核心組件。CNN通常使用隨機梯度下降（SGD）進行訓練的，并且被廣泛認為易于優化。
????視覺模型中的自我注意。Transformers（Transformers）[43]通過支持可擴展的訓練，正在徹底改變自然語言處理。Transformers使用多頭自我注意，它執行全局信息處理，嚴格來說比卷積更通用[6]。Wang等人。【46】表明（單頭）自我關注是一種非局部手段，將其整合到ResNet中可以改善多項任務。Ramachandran等人。[32]通過獨立的視覺自我關注網絡進一步探索這一方向。他們報告了設計基于注意力的網絡stem的困難，并提出了一種避免卷積的定制解決方案。相反，我們展示了卷積干的好處。Zhao等人。[53]探索一組更廣泛的具有硬編碼位置約束的自我注意操作，更類似于標準CNN。
????Vision transformer（ViT）。Dosovitskiy等人。[13]將transformer編碼器應用于圖像分類，只需進行最小程度的視覺特定修改。作為輸入token嵌入的對應項，它們將輸入圖像劃分為，例如。，16×16像素，非重疊面片，并將其線性投影到編碼器的輸入尺寸。他們報告稱，在ImageNet-1k上進行訓練時，效果不佳，但在使用大規模預訓練數據時，他們展示了最先進的遷移學習。VIT對訓練配方的許多細節都很敏感，例如。，與SGD相比，AdamW【27】使它們受益匪淺，需要仔細的學習速度和權重衰減選擇。通常認為，與CNN相比，VIT難以優化（例如，見[13、41、42]）。Chen等人提出了進一步的挑戰證據。[4]他們報告了自監督學習中ViT優化的不穩定性（與CNN不同），并發現在隨機初始化時凍結補丁莖可以提高穩定性。
????ViT改進。VIT正迅速引起人們的興趣，部分原因是它們可能提供一個遠離CNN的新方向。Touvron等人。[41]表明，隨著更多的正則化和更強的數據處理，ViT模型僅在ImageNet-1k上就達到了具有競爭力的精度（參見[13]）。隨后，與我們自己的工作同時，我們還探索了許多其他ViT改進。主導主題包括多尺度網絡【14、17、25、45、50】、深度增加【42】和位置優先【5、9、17、47、49】。
????在[9]中，d’Ascoli等人。在初始化時使用卷積bias修改多頭自我注意，并表明此先驗改進了采樣效率和ImageNet精度。與我們的工作產生共鳴，[5、17、47、49]提出了帶有卷積莖的模型，但沒有分析可優化性（我們的重點）。
????討論與ViT中局部先驗的并行工作不同，我們的重點是研究在最小ViT修改下的可優化性，以便得出清晰的結論。我們的觀點帶來了幾個新穎的觀察結果：只添加～ 5到stem的卷積，ViT可以用AdamW或SGD很好地優化（參見。所有以前的工作都使用AdamW以避免精度大幅下降[41]），它對學習率和權重衰減的特定選擇變得不那么敏感，訓練收斂更快。我們還觀察到，ImageNet top-1精度在模型復雜度（1G到36G的浮點運算）和數據集規模（ImageNet-1k到ImageNet-21k）的廣泛范圍內持續提高。
????這些結果表明，網絡早期的（硬）卷積bias不會損害表征能力，如[9]中所推測的，并且在本研究范圍內是有益的。

3 Vision Transformer架構

????接下來，我們回顧《視覺transformers》，并描述我們工作中使用的卷積莖。
????愿景transformer（ViT）。ViT首先將輸入圖像分割為不重疊的p×p面片，并使用學習的權重矩陣將每個面片線性投影到d維特征向量。典型的斑塊大小為p=16，圖像大小為224×224。產生的補丁嵌入（加上位置嵌入和學習的分類token嵌入）由標準transformer編碼器（43，44）和分類頭處理。使用通用網絡命名法，我們將transformer阻塞之前的ViT部分稱為網絡的主干。ViT的莖是卷積的一種特殊情況（步長-p，p×p內核），但我們將其稱為修補莖，并保留卷積莖的術語，用于具有多層重疊卷積（即步長小于內核大小）的更傳統CNN設計的莖。
????ViT P型號。之前的工作提出了各種尺寸的ViT模型，如ViT Tiny、ViT Small、ViT Base等。[ 13 , 41 ]. 為了便于與CNN進行比較，CNN通常標準化為1GF（GF）、2GF、4GF、8GF等。，我們修改了原始ViT模型，以獲得這些復雜度的模型。詳情見表1（左）。為了更容易與類似觸發器的CNN進行比較，并避免主觀的大小名稱，我們根據它們的觸發器引用模型，例如。，ViT P-4GF代替ViT Small。我們使用P下標表示這些模型使用了原始的補丁莖。
????卷曲桿設計。我們采用了一種典型的極簡卷積干設計，將3×3卷積疊加在一起【36】，然后在末端進行一次1×1卷積，以匹配transformer編碼器的d維輸入。這些莖使用重疊的跨步卷積將224×224的輸入圖像快速降采樣為14×14，與標準patchify莖創建的輸入數量相匹配。我們遵循一個簡單的設計模式：所有3×3卷積要么有步長2，輸出通道數加倍，要么有步長1，輸出通道數保持不變。
????我們強調，stem大約占相應模型的一個transformer塊的計算量，因此，當使用卷積stem而不是修補stem時，我們可以通過移除一個transformer塊來輕松控制觸發器。我們的stem設計是特意選擇的簡單設計，我們強調它的設計不是為了最大限度地提高模型的準確性。
????ViT C型號。為了形成具有卷積干的ViT模型，我們只需將修補干替換為對應的卷積干，并移除一個transformer塊，以補償卷積干的額外失敗（見圖1）。我們將具有卷曲莖的改良ViT稱為ViT C。表1（右）給出了ViT cat各種復雜度的配置；相應的ViT P和ViT C模型在所有復雜度指標上都非常匹配，包括觸發器和運行時。
????卷曲莖細節。我們的卷積干設計分別對1GF、4GF和18GF模型使用四個、四個和六個3×3卷積。輸出通道分別為[24、48、96、192]、[48、96、192、384]和[64、128、128、256、256、512]。所有3×3卷積之后是批次范數（BN）[21]，然后是ReLU[29]，而最終的1×1卷積則不是，以與最初的補丁莖一致。最終，匹配桿觸發器和transformer塊觸發器會導致桿過大，因此ViT C-36GF使用與ViT C-18GF相同的桿。
????ViT中的卷積。Dosovitskiy等人。[13]還介紹了一種“混合ViT”架構，該體系結構將修改后的ResNet[19]（位ResNet[22]）與transformer編碼器混合。在他們的混合模型中，patchify干被部分BiT-ResNet-50替代，該BiT-ResNet-50終止于conv4級或擴展conv3級的輸出。這些圖像嵌入件取代了標準的patchify閥桿嵌入件。這部分BiT-ResNet-50桿很深，有40個卷積層。在這項工作中，我們探索了總共只有5到7個卷積的輕質卷積莖，而不是混合ViT使用的40個卷積莖。此外，我們強調，我們工作的目標不是探索混合ViT設計空間，而是研究簡單地用符合標準CNN設計實踐的最小卷積莖替換修補莖的優化效果。

表1：模型定義：左：我們的ViT P模型具有不同的復雜性，它使用原始的補丁莖，與原始ViT模型非常相似[13]。為了便于與CNN進行比較，我們修改了原始ViT Tiny、Small、Base、Large模型，分別獲得1GF、4GF、18GF和36GF的模型。修改以藍色表示，包括將1GF和4GF型號的MLP乘數從4×減少到3×以及將36GF模型的transformer塊數量從24個減少到14個。右圖：我們的ViT C模型在各種復雜度下使用卷積干。相對于相應的ViT P模型，唯一的額外修改是移除1個transformer塊，以補償卷積干的增加的觸發器。我們展示了所有模型的復雜性度量（觸發器、參數、激活和ImageNet-1k上的 epochs訓練時間）；相應的ViT P和ViT C模型在所有指標上都非常匹配。

4測量優化能力

????文獻中指出，ViT模型具有優化的挑戰性，例如。，當在中型數據集（ImageNet-1k）[13]上進行訓練的時，它們可能只能獲得適度的表現，對數據擴充[41]和優化器選擇[41]很敏感，并且在深入時可能表現不佳[42]。在實驗過程中，我們根據經驗觀察到這些困難的普遍存在，并非正式地將這些優化特性統稱為可優化性。
????當超參數變化時，可優化性差的模型可能會產生非常不同的結果，這可能導致看似奇怪的觀察結果，例如。，刪除擦除數據增強[54]會導致[41]中ImageNet精度的災難性下降。需要量化指標來衡量優化能力，以便進行更穩健的比較。在本節中，我們為此類比較奠定了基礎；我們使用§5中的這些優化措施廣泛測試了各種模型。
????訓練長度穩定性。長期計劃的前期工程訓練ViT模型，例如。，ImageNet上的300到400個 epochs是典型的（在極端情況下，[17]對1000個 epochs的模型進行訓練），因為以前常見的100個 epochs時間表的結果要差得多（top-1精度降低2-4%，見§5.1）。
????在ImageNet的上下文中，我們將400個時代的top-1精度定義為近似漸近結果，即。，更長時間的訓練并不會有意義地提高top-1的準確性，我們將其與僅在50、100或200個時期內訓練的的模型的準確性進行比較。我們將訓練長度穩定性定義為與漸近精度的差距。直覺上，這是收斂速度的一個衡量標準。更快收斂的模型提供了明顯的實際好處，尤其是在訓練許多模型變體時。
????優化器穩定性。之前的工作使用AdamW【27】從隨機初始化優化ViT模型。
????SGD的結果并不典型，我們只知道Touvron等人。[41]'～ ImageNet top-1精度下降7%。相比之下，廣泛使用的CNN（如RESNET）可以通過SGD或AdamW（見§5.2）進行同樣好的優化，SGD（始終與動量一起）通常在實踐中使用。SGD的實際好處是具有更少的超參數（例如，調整AdamW的β2可能很重要[3]），并且需要的優化器狀態內存減少50%，這可以簡化縮放。我們將優化器穩定性定義為AdamW和SGD之間的精度差距。與訓練長度穩定性一樣，我們使用優化器穩定性作為模型易于優化的代理。
????超參數（lr、wd）穩定性。學習率（lr）和權重衰減（wd）是控制SGD和AdamW優化的最重要超參數之一。新模型和數據集通常需要搜索其最佳值，因為選擇可能會顯著影響結果。我們希望有一個模型和優化器，能夠在廣泛的學習率和權重衰減值范圍內產生良好的結果。我們將通過比較不同lr和wd選擇的訓練的模型的誤差分布函數（EDF）[30]來探索這種超參數穩定性。在此設置中，為了為模型創建EDF，我們隨機采樣lr和wd的值，并相應地對模型進行訓練。與EDFs提供的估計一樣，分布估計可以更完整地反映點估計無法揭示的模型特征[30，31]。我們將審查§5.3中的EDF。
????表現峰值。每個模型的最大可能表現是以前文獻中最常用的指標，通常在沒有仔細控制訓練細節的情況下提供，如數據擴充、正則化方法、 epochs數以及lr、wd調整。為了進行更穩健的比較，我們將表現峰值定義為使用性能最佳的優化器和經過節儉調整的lr和wd值（詳見§6）在400個時代的模型的結果，同時為對訓練有已知影響的所有其他變量確定合理的良好值。在這些精心控制的訓練設置下，VIT和CNN的表現峰值結果見§6。

5穩定性試驗

????在本節中，我們測試了ViT模型與原始patchify（P）stem的穩定性。§3中定義的卷積（C）桿。作為參考，我們還對RegNetY（訓練RegNetY[12，31]）進行了培訓，這是一種最先進的CNN，易于優化，可作為良好穩定性的參考點。
????我們使用ImageNet-1k[10]的標準訓練和驗證集進行實驗，并報告top-1錯誤。在【12】之后，對于所有結果，我們仔細控制訓練設置，并使用一組最小的數據擴充，以產生強大的結果，詳情見§5.4。在本節中，除非另有說明，否則對于每個模型，我們使用50個 epochs計劃下的最優lr和wd（見附錄）。

圖2：訓練長度穩定性：我們在ImageNet-1k上對9個模型進行了50到400個時代的訓練，并繪制了? 每個的400 epochs結果的top-1錯誤。ViT C在整個模型復雜性譜中的收斂速度比ViT P快，有助于縮小與CNN（由RegNetY表示）的差距。

圖3：優化器穩定性：我們使用AdamW（向上三角形N）和SGD（向下三角形H）對每個模型進行50到400個周期的訓練。對于基線維生素P，SGD產生的結果明顯比AdamW差。相比之下，ViT C和RegNetY模型在所有設置中的SGD和AdamW之間的差距要小得多。請注意，對于長計劃，ViT P通常無法與SGD收斂（即，損失歸NaN），在這種情況下，我們從同一模型的較短計劃中復制最佳結果（并通過虛線顯示結果）。

5.1訓練長度穩定性

????我們首先探討網絡在ImageNet-1k上收斂到其漸近誤差的速度，即。，訓練在許多時代都能達到最高的精確度。我們將漸近誤差近似為模型誤差，使用400個 epochs的時間表，基于觀察從200到400的收益遞減。我們考慮了24個ViT：{P，C}莖×{1，4，18}GF模型大小×{50，100，200，400}年代的實驗網格。作為參考，我們也在{1，4，16}GF處對RegNetY進行訓練。我們為每個模型使用最佳優化器選擇（AdamW用于ViT模型，SGD用于RegNetY模型）。
????后果圖2顯示了絕對誤差增量（? top-1）介于50、100和200個 epochs計劃和漸近表現之間（400個 epochs）。在模型復雜度譜中，ViT C的收斂速度比ViT P快，并且縮小了與CNN收斂速度的差距。
????在最短的訓練計劃（50個 epochs）中，改進最為顯著，例如：。，ViT P-1GF有10%的誤差增量，而ViT C-1GF則將誤差降低到6%左右。這為執行大量短期計劃實驗的應用程序打開了大門，例如神經架構搜索。

5.2優化器穩定性

????接下來，我們將探討AdamW和SGD如何優化具有兩種桿類型的ViT模型。我們考慮以下48個ViT實驗的網格：{P，C}莖×{1，4，18}GF大小×{50，100，200，400}時代×{AdamW，SGD}優化器。作為參考，我們還訓練了24條RegNetY基線，每個復雜度區域、 epochs長度和優化器對應一條基線。
????后果圖3顯示了結果。作為基線，當使用SGD或AdamW進行訓練的時，RegNetY模型幾乎沒有顯示差距（差異～ 0.1-0.2%在噪聲范圍內）。另一方面，當在所有環境下使用SGD進行訓練的時，ViT P車型都會大幅下降（對于較大車型和較長的訓練計劃，下降幅度高達10%）。通過卷積干，ViT C模型在所有訓練時間表和模型復雜性中，SGD和AdamW之間的誤差差距都小得多，包括在較大的模型和較長的時間表中，差距減小到0.2%以下。換句話說，RegNetY和ViT C都可以通過SGD或AdamW輕松地進行訓練的，但ViT P不能。

圖4：AdamW（lr和wd）的超參數穩定性：對于每個模型，我們用隨機lr和wd（在每個模型的最佳值周圍的固定寬度間隔內）對模型的64個實例進行50個時期的訓練。上圖：三種4GF機型的lr、wd和lr·wd散點圖。豎線表示每個模型的最佳lr、wd和lr·wd值。底部：對于每個模型，我們通過繪制誤差的累積分布來生成誤差的EDF? 前1個錯誤（? 每個模型的最佳誤差）。EDF越陡，表明lr和wd變化的穩定性越好。在整個模型復雜度譜中，ViT C顯著提高了基線ViT P的穩定性，與CNN模型（RegNetY）的穩定性相匹配，甚至優于后者。

圖5:SGD（lr和wd）的超參數穩定性：我們使用SGD而不是AdamW重復圖4中的設置。ViT的穩定性改善覆蓋了基線ViT P，甚至比AdamW更大。例如。，～ 60%的維生素C-18GF型號在4%以內? 最佳結果的誤差最大，而ViT P-18GF模型的誤差不到20%（事實上，大多數ViT P-18GF運行不收斂）。

5.3學習率和權重衰減穩定性

????接下來，我們描述了在AdamW和SGD優化器下，不同的模型族對學習率（lr）和權重衰減（wd）變化的敏感性。為了量化這一點，我們利用誤差分布函數（EDF）[30]。EDF的計算方法是將一組結果從低誤差到高誤差進行排序，并繪制結果隨誤差增加的累積比例，詳情請參見【30】。特別是，我們根據lr和wd生成模型的EDF。直覺是，如果模型對這些超參數選擇具有穩健性，EDF將是陡峭的（所有模型的性能都類似），而如果模型是敏感的，EDF將是淺薄的（表現將分散）。
????我們測試了6個ViT模型（{P，C}×{1，4，18}GF）和3個RegNetY模型（{1，4，16}GF）。對于每個模型和每個優化器，我們通過隨機抽樣64（lr，wd）對計算EDF，并在固定寬度間隔內圍繞該模型和優化器的最佳值對學習率和權重衰減進行抽樣（抽樣細節見附錄）。我們不繪制EDF中的絕對誤差，而是繪制? top-1最佳結果（使用最佳lr和wd獲得）與觀測結果之間的誤差。由于型號眾多，我們每輛訓練只開50個時代。
????后果圖4顯示了由AdamW訓練的的模型的散點圖和EDF。圖5顯示了SGD結果。在所有情況下，我們都可以看到，對于這兩種優化器，ViT C都比ViT P顯著提高了lr和wd穩定性。這表明維生素C比維生素P更容易優化lr和wd。

5.4實驗細節

????在所有實驗中，我們采用一個半周期的余弦學習率衰減時間表進行訓練，并采用5個 epochs的線性學習率預熱[16]。我們使用2048的小批量。關鍵的是，權重衰減不適用于歸一化層中的增益因子，也不適用于模型中任何地方的bias參數；我們發現，對于小型模型和短期計劃，衰減這些參數可以顯著降低top-1精度。為了進行推斷，我們使用模型權重的指數移動平均值（EMA）（例如，[8]）。附錄中報告了本節中使用的lr和wd。其他超參數使用默認值：SGD動量為0。9和AdamW的β1=0。9和β2=0。999 .
????正則化和數據擴充。我們使用了一個簡化的訓練配方，與最近的工作（如DeiT[41]）相比，我們發現它在模型復雜性和數據集規模的廣泛范圍內同樣有效。我們使用AutoAugment[7]、mixup[52]（α=0.8）、CutMix[51]（α=1.0）和標簽平滑[38]（=0.1）。我們更喜歡這種設置，因為它類似于CNN的常見設置（例如，[12]），除了更強烈的混合和添加CutMix（VIT從兩者中受益，而CNN不會受到損害）。我們將此配方與附錄中用于DeiT模型的配方進行了比較，并觀察到我們的設置提供了更快的訓練收斂速度，這可能是因為我們刪除了重復擴增[1，20]，這是眾所周知的減慢訓練的方法[1]。

6峰值表現

????模型的峰值表現是網絡設計中最常用的指標。它代表了迄今為止最為人所知的設置的可能性，并隨著時間的推移而自然演變。在不同的模型之間進行公平的比較是可取的，但困難重重。僅僅引用先前工作的結果可能會對該工作產生負面的biased，因為它無法包含更新的、但適用的改進。在這里，我們力求對最先進的CNN、ViT P和ViT C進行更公平的比較。我們確定了一組因素，然后在每個模型的哪些子集要優化與哪些子集要優化之間達成務實的平衡。哪個子集在所有模型中共享一個常量值。
????在我們的比較中，所有模型共享相同的時代（400），使用模型權重EMA，以及一組正則化和增強方法（如§5.4所述）。所有CNN均接受SGD的訓練的，lr為2。54和wd/2。4e? 5.我們發現這種單一選擇在所有模型中都很有效，正如在[12]中所觀察到的一樣。對于所有ViT型號，我們發現AdamW的lr/wd為1。0e? 3 / 0 . 除36GF型號外，其他24種型號均有效。對于這些較大的型號，我們測試了一些設置，發現lr/wd為6。0e? 4 / 0 . 28對ViT P-36GF和ViT C-36GF型號更有效。對于訓練和推理，VIT使用224×224分辨率（我們不會在更高分辨率下進行微調），而CNN使用（通常更大）優化分辨率，如【12，39】所述。根據該協議，我們比較了模型復雜性（1GF到36GF）和數據集規模（直接在ImageNet-1k上進行訓練與在ImageNet-21k上進行預訓練，然后在ImageNet-1k上進行微調）的ViT P、ViT C和CNN。
????后果圖6顯示了一系列結果。每個圖顯示ImageNet-1k val top-1錯誤vs。
????ImageNet-1k epoch訓練時間。1左圖比較了幾種最先進的CNN。RegNetY和RegNetZ【12】在訓練速度譜中取得了類似的結果，并優于Effi-cientNets【39】。令人驚訝的是，resnet[19]在快速運行時方面具有很強的競爭力，這表明在更公平的比較下，這些年前的模型的性能大大優于經常報道的（參見[39]）。
????中間的圖將兩個具有代表性的CNN（ResNet和RegNetY）與ViTs進行比較，仍然只使用ImageNet-1k訓練。在整個模型復雜度范圍內，基準ViT P表現不佳。令我們驚訝的是，在這種體制下，ViT P的表現也不如Resnet。ViT C更具競爭力，在中等復雜度范圍內優于CNN。
????右圖比較了相同的模型，但與ImageNet-21k預訓練（詳情見附錄）。
????在此設置中，ViT模型展示了從更大規模數據中獲益的更大能力：現在ViT C的性能嚴格優于ViT P和RegNetY。有趣的是，即使在這個大得多的數據集上進行了訓練的，原始的ViT P也沒有超過最先進的CNN。數值結果見表2，以供參考精確值。此表還強調了觸發器計數與運行時沒有顯著相關性，但激活與之相關（更多詳細信息請參見附錄），正如【12】所觀察到的。例如。，效率網（EfficientNets）相對于它們的浮點運算速度慢，而vit則快。
????這些結果驗證了ViT C的卷積干不僅提高了優化穩定性（如前一節所示），而且還提高了峰值表現。此外，這一優勢可以在模型復雜性和數據集規模范圍內看到。也許令人驚訝的是，鑒于最近對ViT的興奮，我們發現ViT P難以與最先進的CNN競爭。我們僅在使用大規模預訓練數據和提出的卷積干時觀察到CNN的改善。

圖6：峰值表現（epoch訓練time vs.ImageNet-1k val top-1 error）：對維生素P、維生素C和CNN進行公平、對照比較的結果。每條曲線對應于模型復雜度掃描，產生訓練速度譜（每ImageNet-1k epochs分鐘數）。左圖：最先進的CNN。配備了現代訓練配方的RESNET在速度更快的情況下具有很強的競爭力，而RegNetY和Z的表現類似，并且優于EfficientNets。中間：選擇CNN與VIT進行比較。由于只能訪問ImageNet-1k訓練數據，RegNetY和ResNet在所有方面都優于ViT P。ViT C與CNN相比更具競爭力。右圖：ImageNet-21k上的預訓練對ViT模型的改進超過了CNN，使ViT P具有競爭力。在整個訓練速度譜中，建議的ViT C優于所有其他模型。

表2：峰值表現（按模型系列分組）：ImageNet-1k上100、200和400個 epochs計劃的模型復雜性和驗證top-1錯誤，以及ImageNet-21k（21k）上預訓練和ImageNet-1k上微調后的top-1錯誤。此表用作圖6所示結果的參考。藍色數字：每個ImageNet-1k epochs20分鐘內可訓練的最佳模型。據報告，批量大小和訓練時間標準化為8個32GB Volta GPU（見附錄）。附錄中給出了ImageNet-V2【33】測試集的其他結果。

7結論

????在這項工作中，我們證明了ViT模型的優化挑戰與ViT的補丁莖中的大跨步、大核卷積有關。用一個簡單的卷積干替換這個補丁干的看似微不足道的變化導致了優化行為的顯著變化。
????通過卷積干，ViT（稱為ViT C）比原始ViT（稱為ViT P）收斂速度更快（§5.1），使用AdamW或SGD進行良好訓練（§5.2），提高學習速度和權重衰減穩定性（§5.3），并通過～ 1-2% (§ 6 ). 這些結果在廣泛的模型復雜性（1GF到36GF）和數據集規模（ImageNet-1k到ImageNet-21k）中是一致的。我們的結果表明，在ViTs的早期階段注入小劑量的卷積誘導bias是非常有益的。展望未來，我們對這樣一個理論基礎很感興趣，為什么這樣一個最小的架構修改可以對優化性產生如此大的（正）影響。我們還對研究更大的模型感興趣。我們對72GF模型的初步探索表明，卷積干仍能改善top-1誤差，但我們還發現，出現了一種新形式的不穩定性，導致訓練誤差隨機尖峰，尤其是ViT C。
????致謝。我們感謝HervéJegou、Hugo Touvron和Kaiming He的寶貴反饋。
????.

表3：莖設計：我們將ViT的標準修補莖（P）和卷曲莖（C）與四種備選方案（s 1-s 4）進行比較，每種備選方案都包括修補層，即。，內核大小（>1）等于步幅（以藍色突出顯示）的卷積。結果使用50個epoch訓練、4GF模型大小以及所有模型的最佳lr和wd值。我們觀察到，增加修補層（S 1-S 4）的像素大小會系統地降低top-1錯誤和優化器穩定性（? ) 相對于C

圖7：莖歸一化和非線性：我們在補片莖和訓練ViT P-4GF（左圖）后應用BN和ReLU，或在ViT C-4GF（中圖）的卷積莖中用層范數（LN）替換BN。EDF是通過采樣lr和wd值以及50個時期的訓練來計算的。表（右）顯示了100個 epochs結果，使用50個 epochs的最佳lr和wd值。EDF和100個時代的誤差差距很小，表明這些選擇相當微不足道。

附錄A：閥桿設計消融實驗

????ViT的修補干與提出的卷積干的不同之處在于所使用的卷積類型以及歸一化和非線性激活函數的使用。接下來我們將研究這些因素。
????閥桿設計。本文的重點是研究將ViT的默認修補干改為由兩個3×3卷積疊加而成的簡單標準卷積干的巨大正影響。探索閥桿設計空間，以及更廣泛的“混合ViT”模型【13】，以最大化表現是一個明確的反目標，因為我們想研究最小修改下的影響。然而，我們可以通過考慮介于修補莖（P）和標準卷曲莖（C）之間的替代莖設計來獲得更多的見解。表3給出了四種備選設計（S 1-S 4）。閥桿的設計使整個模型flops保持可比性。莖S 1修飾C，使其包含一個小的2×2修補層，這會使結果稍微惡化。莖S 2-S 4系統地將修補層的像素大小p從p=2增加到16，與莖p中使用的大小相匹配。增加p會可靠地降低錯誤和優化器的穩定性。盡管我們根據現有的CNN最佳實踐，事先選擇了C設計，但我們事后發現，它優于四種備選設計，每種設計都包含一個補丁層。
????閥桿規范化和非線性。我們從兩個方向研究了歸一化和非線性：（1）在ViT的默認補丁干中添加BN和ReLU，（2）在提出的卷積干中改變歸一化。在第一種情況下，我們只需在50和100個時代的補片莖和訓練ViT P-4GF（稱為ViT P（BN）-4GF）后應用BN和ReLU。對于第二種情況，我們用ViT C-4GF進行了四次實驗：{50100}個時代×{BN，層norm（LN）}。
????如前所述，我們使用50 epoch時間表為每個實驗調整lr和wd，并將這些值用于100 epoch時間表。我們使用AdamW進行所有實驗。圖7顯示了結果。從使用50個 epochs時間表的EDF中，我們可以看到，將BN和ReLU添加到修補莖中會略微惡化最佳top-1錯誤，但不會影響lr和wd穩定性（左）。在卷積干中將BN替換為LN會略微降低最佳top-1誤差和穩定性（中間）。
????表（右）顯示了使用從50次 epochs運行中選擇的最佳lr和wd值的100個 epochs結果。在100個時代，誤差差距很小，表明這些因素可能無關緊要。

圖8：更深層次的模型：我們將ViT P-4GF的深度從12個區塊增加到48個區塊，稱為ViT P-16GF（48個區塊），并創建具有卷曲莖的對應物ViT C-16GF（47個區塊）；所有模特都經過50個時代的訓練的。左：盡管只考慮了～總失敗次數的2%。中，右：較深的16GF VIT明顯優于較淺的4GF模型，并實現與較淺和較寬的18GF模型相似（略差）的誤差。較深的ViT P模型也比較淺的ViT P模型具有更好的lr/wd穩定性。

圖9：復雜性度量與。運行時：我們繪制模型的GPU運行時與三種常用的復雜性度量：參數、觸發器和激活。對于包括ViT在內的所有模型，運行時與激活的相關性最大，而不是與觸發器的相關性，正如之前針對CNN所顯示的那樣【12】。

附錄B：深層模型消融實驗

????Touvron等人。[42]發現更深的ViT模型更不穩定，例如。，將transformer塊的數量從12個增加到36個可能會導致～在lr和wd的固定選擇下，top-1精度下降10分。他們證明，隨機深度和/或他們提出的分層尺度可以彌補這種訓練失敗。在這里，我們通過觀察通過采樣lr和wd創建的EDF來探索更深層次的模型。我們將ViT P-4GF模型的深度從12個區塊增加到48個區塊，稱為ViT P-16GF（48個區塊）。然后，我們移除一個塊，并使用ViT C-4GF的卷積干，得到對應的ViT C-16GF（47塊）模型。圖8顯示了按照§5.3中的設置，兩個模型和較淺模型的EDF，以供比較。盡管卷積干僅占1/48（～總失敗率為2%），與修補后的同類產品相比，它有了實質性的改進。我們發現，多種lr和wd選擇允許對更深層次的ViT模型進行訓練的，而無需大幅降低top-1表現，也無需進行額外修改。事實上，在取樣范圍內，較深的維生素P-16GF（48塊）比維生素P-4GF和維生素P-18GF具有更好的lr和wd穩定性（圖8，中間）。

附錄C：大型模型ImageNet-21k實驗

????在表2中，我們報告了ImageNet-21k上ViT模型的峰值表現高達36GF。為了研究更大的模型，我們使用22個塊、1152個隱藏大小、18個頭和4個MLP乘法器構建了一個72GF ViT P。對于ViT C-72GF，我們使用了與ViT C-18GF和ViT C-36GF相同的C-stem設計，但沒有移除一個transformer塊，因為在這種復雜的情況下，C-stem中的觸發器增加是微不足道的。
????我們對72GF ViT模型的初步探索直接采用用于36GF ViT模型的超參數。在這種情況下，我們觀察到卷積干仍能改善top-1誤差，然而，我們還發現出現了一種新的不穩定性形式，導致訓練誤差隨機尖峰。有時，訓練可能會在同一時期內恢復，隨后最終的準確性不會受到影響；或者，可能需要幾個時代才能從錯誤峰值中恢復，在這種情況下，我們觀察到最終精度不理想。第一類錯誤峰值在ViT P-72GF中更常見，而后一類錯誤峰值在ViT C-72GF中更常見。
????為了緩解這種不穩定性，我們采取了兩種措施：（i）對于這兩種模型，我們將wd從0降低。28到0。15正如我們發現的那樣，它顯著降低了錯誤峰值的可能性。（ii）對于維生素C-72GF，我們從ImageNet-21k預訓練的維生素C-36GF初始化其莖，并在整個訓練期間保持其凍結。這些修改使訓練ViT-72GF模型在ImageNet-21k上可行。當在ImageNet-1k上進行微調時，ViT P-72GF達到14。前1名誤差為2%，ViT C-72GF達到13。6%的top-1錯誤，表明ViT C仍優于其ViT P對應物。將微調分辨率從224提高到384，將ViT C-72GF的表現提高到12。6%的top-1錯誤，同時將微調模型的復雜性從72GF顯著增加到224GF。

表4：§5中使用的學習率和權重衰減：左：§5.1和§5.2中用于實驗的每種模型lr和wd值，針對50個時代的ImageNet-1k進行了優化。右圖：根據§5.3中用于實驗的lr和wd型號范圍。請注意，對于§6中的最終實驗，我們進一步限制了lr和wd值，對所有CNN模型使用單一設置，對所有ViT模型僅使用兩種設置。我們建議在比較模型時使用§6中的簡化值集，以進行公平且易于復制的比較。所有lr值均為標準化w.r.t.最小批量為2048【16】。

附錄D：模型復雜性和運行時間

????在前面的部分中，我們報告了錯誤vs。訓練時間。其他常用的復雜性度量包括參數、觸發器和激活。事實上，最典型的是報告精度作為模型觸發器或參數的函數。然而，觸發器可能無法反映現代內存帶寬有限加速器（如GPU、TPU）的瓶頸。同樣，參數是模型運行時更不可靠的預測因子。相反，最近的研究表明，激活是GPU上更好的運行時代理（參見[12，31]）。接下來，我們將探討ViT模型是否存在類似的結果。
????對于CNN，之前的研究[12，31]將激活定義為卷積層所有輸出張量的總大小，而忽略歸一化和非線性層（通常與卷積成對，只會通過常數因子改變激活計數）。本著這種精神，對于transformers，我們將激活定義為所有矩陣乘法的輸出張量的大小，同樣地，忽略元素方面的層和規范化。對于使用這兩種類型操作的模型，我們只需測量所有卷積和vision transformer層的輸出大小。
????圖9顯示了作為這些模型復雜性度量函數的運行時。皮爾遜相關系數（r）證實，激活與實際運行時間（r=0.93）的線性相關性比觸發器（r=0.75）或參數（r=0.71）強得多，證實了[12]對CNN的發現也適用于VIT。雖然觸發器在某種程度上可以預測運行時，但具有較大激活與觸發器比率的模型（如EfficientNet）的運行時比基于觸發器的預期要高得多。
????最后，我們注意到ViT P和ViT關心的所有復雜性度量和運行時幾乎相同。
????計時。在整篇論文中，我們報告了標準化的訓練時間，就像模型是在一臺8 V100 GPU服務器上進行訓練的一樣，將實際的訓練時間乘以使用的GPU數量，再除以8。（由于不同型號的內存需求不同，我們可能需要擴大GPU的數量以適應目標小批量大小。）我們使用處理一個ImageNet-1k epochs所需的分鐘數作為標準度量單位。我們更喜歡訓練時間而不是推理時間，因為推理時間在很大程度上取決于用例（例如，流式、面向延遲的設置要求批大小為1，而面向吞吐量的設置允許批大小為1）和硬件平臺（例如，智能手機、加速器、服務器CPU）。

表5：數據增強和正則化的消融：我們使用表4（左圖）中的lr和wd，除了ViT P-18GF模型和RandAugment，后者受益于更強的wd（我們將wd增加到0.5）。原始DeiT消融結果【41】以灰色復制以供參考（最后一列）；這些使用1e的lr/wd? 3 / 0 . 05（lr標準化為小批量2048），這導致一些訓練失敗（我們注意到我們的wd為5-10×更高）。我們默認的訓練設置（每組的第一行）使用AutoAugment、mixup、CutMix、label smoothing和模型EMA。與DeiT設置（每組第二行）相比，我們不使用擦除、隨機深度或重復。雖然我們的設置同樣有效，但它更簡單，收斂速度也更快（見圖10）。

附錄E：其他實驗細節

????穩定性實驗。對于§5.1和§5.2中的實驗，我們允許每個CNN和ViT模型選擇不同的lr和wd。我們發現所有CNN都選擇幾乎相同的值，因此我們將其規范化為一個選項，如[12]中所述。ViT車型更喜歡多樣化的選擇。表4（左）列出了所選值。對于§5.3中的實驗，我們使用表4（右）中所示的lr和wd間隔。這些范圍是通過（i）獲得每個模型系列的初始良好lr和wd選擇來構建的；然后（ii）將它們乘以1/8和4。0表示左側和右側區間端點（我們使用非對稱區間，因為模型可以使用較小但不較大的值進行訓練）。最后，我們注意到，如果我們要重做實驗，§5.1/§5.2中使用的設置可以簡化。
????ImageNet-1k上的表現峰值。我們注意到，在后來的實驗中，我們發現調整每個模型的lr和wd并不是獲得競爭結果所必需的。因此，對于§6中的最終實驗，我們進一步限制了lr和wd值，對所有CNN模型使用單一設置，對所有ViT模型僅使用兩種設置，如§6中所述。我們建議在比較模型時使用此簡化值集，以進行公平且易于復制的比較。最后，對于這些實驗，當訓練受到內存約束時（即，對于EfficientNet-{B4，B5}，RegNetZ-{4,16,32}GF），我們從2048年開始減少小批量大小，并根據[16]線性縮放lr。
????ImageNet-21k上的表現峰值。對于ImageNet-21k，一個包含1400萬幅圖像和～ 21k類，我們為90（ImageNet-21k）個時代預先訓練模型，如下所示[13]。我們不會搜索ImageNet-21k的最佳設置，而是使用與ImageNet-1k相同的訓練配方（最大小批量）。為了減少訓練時間，我們將訓練分發到更多GPU上，并使用更大的小批量（4096），并相應地擴展lr縮放。為了簡單性和再現性，我們對每幅圖像使用一個標簽，而之前的一些工作（例如，[35，40]）使用WordNet[28]將單個標簽擴展為多個標簽。預訓練后，我們在ImageNet-1k上微調了20個時代，并使用小規模的lr網格搜索，同時將wd保持在0，類似于[13，40]。

附錄F：正則化和數據擴充

????在本研究開始時，我們為ViT模型開發了一個簡化的訓練設置。我們的目標是設計一個盡可能簡單的訓練設置，類似于用于最先進CNN的設置【12】，并保持與DeiT的競爭準確性【41】。在這里，我們通過考慮基線ViT P-4GF和ViT P-18GF模型來記錄這一探索。除了簡化之外，我們還觀察到，我們的訓練設置比DeiT設置產生更快的收斂，如下所述。
????表5將我們的設置與DeiT的設置進行了比較【41】。根據他們的lr/wd選擇，[41]報告在刪除擦除和隨機深度時未能通過訓練，并且在刪除重復時準確性顯著下降。我們發現，只要使用更高的wd（我們的wd為5-10×更高），就可以安全地禁用它們。我們觀察到，我們可以刪除ViT P-4GF的模型EMA，但對于更大的ViT P-18GF模型來說，這是必不可少的，尤其是在400個時代。如果沒有模型EMA，ViT P-18GF仍然可以有效地進行訓練的，但這需要額外的增強和正則化（如DeiT）。
????圖10顯示，我們的訓練設置加快了ViT P和ViT C模型的收斂速度，通過比較誤差Delta（? 上圖1）在DeiT基線和我們的基線之間（左圖和中圖）。我們的訓練設置也產生了比我們復制DeiT（右圖）更好的top-1錯誤。我們推測，更快的收斂速度是由于刪除了重復增廣[1，20]，這在[1]中顯示為減慢收斂速度。在某些情況下，重復增強可能會提高準確性，但我們在實驗中沒有觀察到這種改進。
????附錄G:ImageNet-V2評估在主要論文和之前的附錄部分中，我們在原始（OG）ImageNet驗證集上對所有模型進行了基準測試【10】。在這里，我們在ImageNet-V2上對我們的模型進行基準測試【33】，這是一個按照原始程序收集的新測試集。我們從表2中選取400個epoch或ImageNet-21k模型，這取決于哪個更好，并在ImageNet-V2上對其進行評估，以收集前1個錯誤。
????圖11顯示，排名大多保持在噪聲的一個標準偏差（估計為～ 0 . 1 - 0 . 2% ). 這兩個測試集表現出線性相關，皮爾遜相關系數r=0證實了這一點。99，盡管ImageNet-V2結果顯示出更高的絕對誤差。擬合線的參數由給出。

圖10：訓練配方對收斂的影響：我們使用DeiT配方vs.訓練ViT模型。我們的簡化版本。左側和中部：? 4GF和18GF模型在50、100和200個 epochs時的前1位誤差，以及在400個 epochs時的漸近表現。右：18GF模型的絕對top-1誤差。刪除增廣項并使用模型EMA加速了ViT P和ViT C模型的收斂，同時略微改善了DeiT top-1錯誤的再現。

圖11:ImageNet-V2表現：我們從表2中獲取模型，并在ImageNet-V2測試集上對其進行基準測試。繪制原始（OG）ImageNet驗證集（x軸）和ImageNet-V2測試集（y軸）的前1個錯誤。排名大多保持在噪聲的一個標準差以內（估計為～ 0 . 1 - 0 . 2%），兩個測試集表現出線性相關（皮爾遜r=0.99）。標記大小對應于模型flops。

參考文獻

[1] Maxim Berman, Hervé Jégou, Andrea Vedaldi, Iasonas Kokkinos, and Matthijs Douze. MultiGrain: a unified image embedding for classes and instances. arXiv:1902.05509 , 2019. 8 , 14

[2] Antoni Buades, Bartomeu Coll, and J-M Morel. A non-local algorithm for image denoising. In CVPR , 2005. 3

[3] Mark Chen, Alec Radford, Rewon Child, Jeffrey Wu, Heewoo Jun, David Luan, and Ilya Sutskever. Generative pretraining from pixels. In ICML , 2020. 5

[4] Xinlei Chen, Saining Xie, and Kaiming He. An empirical study of training self-supervised vision transformers. In ICCV , 2021. 3

[5] Zhengsu Chen, Lingxi Xie, Jianwei Niu, Xuefeng Liu, Longhui Wei, and Qi Tian. Visformer: The vision-friendly transformer. In ICCV , 2021. 3

[6] Jean-Baptiste Cordonnier, Andreas Loukas, and Martin Jaggi. On the relationship between self-attention and convolutional layers. ICLR , 2020. 3

[7] Ekin D Cubuk, Barret Zoph, Dandelion Mane, Vijay Vasudevan, and Quoc V Le. AutoAugment: Learning augmentation policies from data. In CVPR , 2019. 8

[8] Xiaoliang Dai, Alvin Wan, Peizhao Zhang, Bichen Wu, Zijian He, Zhen Wei, Kan Chen, Yuandong Tian, Matthew Yu, Peter Vajda, et al. FBNetV3: Joint architecture-recipe search using neural acquisition function. arXiv:2006.02049 , 2020. 8

[9] Stéphane d’Ascoli, Hugo Touvron, Matthew Leavitt, Ari Morcos, Giulio Biroli, and Levent Sagun. ConViT: Improving vision transformers with soft convolutional inductive biases. In ICML , 2021. 2 , 3

[10] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, and Li Fei-Fei. ImageNet: A large-scale hierarchical image database. In CVPR , 2009. 2 , 3 , 5 , 14

[11] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. BERT: Pre-training of deep bidirectional transformers for language understanding. In NACCL , 2019. 1

[12] Piotr Dollár, Mannat Singh, and Ross Girshick. Fast and accurate model scaling. In CVPR , 2021. 5 , 8 , 11 , 12 , 13

[13] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, et al. An image is worth 16x16 words: Transformers for image recognition at scale. In ICLR , 2021. 1 , 2 , 3 , 4 , 5 , 10 , 13

[14] Haoqi Fan, Bo Xiong, Karttikeya Mangalam, Yanghao Li, Zhicheng Yan, Jitendra Malik, and Christoph Feichtenhofer. Multiscale vision transformers. In ICCV , 2021. 3

[15] Kunihiko Fukushima. Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position. Biological cybernetics , 36(4):193–202, 1980. 3

[16] Priya Goyal, Piotr Dollár, Ross Girshick, Pieter Noordhuis, Lukasz Wesolowski, Aapo Kyrola, Andrew Tulloch, Yangqing Jia, and Kaiming He. Accurate, large minibatch SGD: Training ImageNet in 1 hour. arXiv:1706.02677 , 2017. 3 , 8 , 12 , 13

[17] Ben Graham, Alaaeldin El-Nouby, Hugo Touvron, Pierre Stock, Armand Joulin, Hervé Jégou, and Matthijs Douze. LeViT: a vision transformer in ConvNet’s clothing for faster inference. In ICCV , 2021. 3 , 5

[18] Kaiming He, Georgia Gkioxari, Piotr Dollár, and Ross Girshick. Mask R-CNN. In ICCV , 2017. 3

[19] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. In CVPR , 2016. 1 , 3 , 4 , 8

[20] Elad Hoffer, Tal Ben-Nun, Itay Hubara, Niv Giladi, Torsten Hoefler, and Daniel Soudry. Augment your batch: better training with larger batches. arXiv:1901.09335 , 2019. 8 , 14

[21] Sergey Ioffe and Christian Szegedy. Batch normalization: Accelerating deep network training by reducing internal covariate shift. In ICML , 2015. 3 , 4

[22] Alexander Kolesnikov, Lucas Beyer, Xiaohua Zhai, Joan Puigcerver, Jessica Yung, Sylvain Gelly, and Neil Houlsby. Big Transfer (BiT): General visual representation learning. In ECCV , 2020. 4

[23] Alex Krizhevsky, Ilya Sutskever, and Geoffrey E Hinton. ImageNet classification with deep convolutional neural networks. In NeurIPS , 2012. 3

[24] Yann LeCun, Bernhard Boser, John S Denker, Donnie Henderson, Richard E Howard, Wayne Hubbard, and Lawrence D Jackel. Backpropagation applied to handwritten zip code recognition. Neural computation , 1989. 1 , 3

[25] Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, and Baining Guo. Swin transformer: Hierarchical vision transformer using shifted windows. In ICCV , 2021. 3

[26] Jonathan Long, Evan Shelhamer, and Trevor Darrell. Fully convolutional networks for semantic segmenta- tion. In CVPR , 2015. 3

[27] Ilya Loshchilov and Frank Hutter. Decoupled weight decay regularization. In ICLR , 2019. 1 , 3 , 5 [28] George A Miller. Wordnet: a lexical database for english. Communications of the ACM , 1995. 13 [29] Vinod Nair and Geoffrey E Hinton. Rectified linear units improve restricted boltzmann machines. In ICML , 2010. 4

[30] Ilija Radosavovic, Justin Johnson, Saining Xie, Wan-Yen Lo, and Piotr Dollár. On network design spaces for visual recognition. In ICCV , 2019. 2 , 5 , 7

[31] Ilija Radosavovic, Raj Prateek Kosaraju, Ross Girshick, Kaiming He, and Piotr Dollár. Designing network design spaces. In CVPR , 2020. 5 , 12

[32] Prajit Ramachandran, Niki Parmar, Ashish Vaswani, Irwan Bello, Anselm Levskaya, and Jonathon Shlens. Stand-alone self-attention in vision models. NeurIPS , 2019. 3

[33] Benjamin Recht, Rebecca Roelofs, Ludwig Schmidt, and Vaishaal Shankar. Do imagenet classifiers generalize to imagenet? In ICML , 2019. 9 , 14

[34] Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun. Faster R-CNN: Towards real-time object detection with region proposal networks. In NeurIPS , 2015. 3

[35] Tal Ridnik, Emanuel Ben-Baruch, Asaf Noy, and Lihi Zelnik-Manor. Imagenet-21k pretraining for the masses. In NeurIPS , 2021. 13

[36] Karen Simonyan and Andrew Zisserman. Very deep convolutional networks for large-scale image recogni- tion. In ICLR , 2015. 2 , 3 , 4

[37] Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, and Andrew Rabinovich. Going deeper with convolutions. In CVPR , 2015. 3

[38] Christian Szegedy, Vincent Vanhoucke, Sergey Ioffe, Jonathon Shlens, and Zbigniew Wojna. Rethinking the inception architecture for computer vision. In CVPR , 2016. 8

[39] Mingxing Tan and Quoc V Le. EfficientNet: Rethinking model scaling for convolutional neural networks. ICML , 2019. 2 , 8

[40] Mingxing Tan and Quoc V Le. Efficientnetv2: Smaller models and faster training. In ICML , 2021. 13 [41] Hugo Touvron, Matthieu Cord, Matthijs Douze, Francisco Massa, Alexandre Sablayrolles, and Hervé Jégou. Training data-efficient image transformers & distillation through attention. In ICML , 2021. 1 , 3 , 4 , 5 , 8 , 13 , 14

[42] Hugo Touvron, Matthieu Cord, Alexandre Sablayrolles, Gabriel Synnaeve, and Hervé Jégou. Going deeper with image transformers. arXiv:2103.17239 , 2021. 1 , 3 , 5 , 11

[43] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Lukasz Kaiser, and Illia Polosukhin. Attention is all you need. In NeurIPS , 2017. 1 , 3

[44] Qiang Wang, Bei Li, Tong Xiao, Jingbo Zhu, Changliang Li, Derek F Wong, and Lidia S Chao. Learning deep transformer models for machine translation. In ACL , 2019. 3

[45] Wenhai Wang, Enze Xie, Xiang Li, Deng-Ping Fan, Kaitao Song, Ding Liang, Tong Lu, Ping Luo, and Ling Shao. Pyramid vision transformer: A versatile backbone for dense prediction without convolutions. In ICCV , 2021. 3

[46] Xiaolong Wang, Ross Girshick, Abhinav Gupta, and Kaiming He. Non-local neural networks. In CVPR , 2018. 3

[47] Haiping Wu, Bin Xiao, Noel Codella, Mengchen Liu, Xiyang Dai, Lu Yuan, and Lei Zhang. CvT: Introducing convolutions to vision transformers. In ICCV , 2021. 3

[48] Saining Xie, Ross Girshick, Piotr Dollár, Zhuowen Tu, and Kaiming He. Aggregated residual transforma- tions for deep neural networks. In CVPR , 2017. 3

[49] Kun Yuan, Shaopeng Guo, Ziwei Liu, Aojun Zhou, Fengwei Yu, and Wei Wu. Incorporating convolution designs into visual transformers. In ICCV , 2021. 3

[50] Li Yuan, Yunpeng Chen, Tao Wang, Weihao Yu, Yujun Shi, Zihang Jiang, Francis EH Tay, Jiashi Feng, and Shuicheng Yan. Tokens-to-token ViT: Training vision transformers from scratch on ImageNet. In ICCV , 2021. 3

[51] Sangdoo Yun, Dongyoon Han, Seong Joon Oh, Sanghyuk Chun, Junsuk Choe, and Youngjoon Yoo. CutMix: Regularization strategy to train strong classifiers with localizable features. In CVPR , 2019. 8 [52] Hongyi Zhang, Moustapha Cissé, Yann N. Dauphin, and David Lopez-Paz. Mixup: Beyond empirical risk minimization. In ICLR , 2018. 8

[53] Hengshuang Zhao, Jiaya Jia, and Vladlen Koltun. Exploring self-attention for image recognition. In CVPR , 2020. 3

[54] Zhun Zhong, Liang Zheng, Guoliang Kang, Shaozi Li, and Yi Yang. Random erasing data augmentation. In AAAI , 2020. 5

總結

以上是生活随笔為你收集整理的Early Convolutions Help Transformers See Better的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： unity3D游戏-打飞碟游戏改进版
下一篇： iOS UI切图@1x、@2x、@3x的