一文看尽 CVPR2022 最新 22 篇论文(附打包下载)
CVPR 2022 已經(jīng)放榜,本次一共有2067篇論文被接收,接收論文數(shù)量相比去年增長了24%。由于每年的 CVPR 全部論文以及相關(guān)細節(jié)都需要等到六月會議召開才會正式公布,在這之前,為了讓大家更快地獲取和學(xué)習(xí)到計算機視覺前沿技術(shù),極市對CVPR022 最新論文進行追蹤,包括分研究方向的論文、代碼匯總以及論文技術(shù)直播分享。
CVPR 2022 論文分方向整理會在極市社區(qū)進行更新,項目地址:https://bbs.cvmart.net/articles/6124
以下是最新更新的 CVPR 2022 論文一覽,包括的研究方向有:神經(jīng)網(wǎng)絡(luò)架構(gòu)設(shè)計、異常檢測、三維視覺、姿態(tài)估計、圖像修復(fù)、模型訓(xùn)練、視覺語言表征學(xué)習(xí)、對比學(xué)習(xí)、深度估計、語義分割、動作檢測、人臉防偽、長尾識別。
打包下載地址:
CVPR 2022 今日論文速遞(22 篇打包下載)涵蓋網(wǎng)絡(luò)架構(gòu)設(shè)計、姿態(tài)估計、三維視覺、動作檢測、語義分割等方向
神經(jīng)網(wǎng)絡(luò)架構(gòu)設(shè)計
[1] An Image Patch is a Wave: Quantum Inspired Vision MLP(量子啟發(fā)的視覺 MLP)
paper:https://arxiv.org/abs/2111.12294
code1:https://github.com/huawei-noah/CV-Backbones/tree/master/wavemlp_pytorch
code2:https://gitee.com/mindspore/models/tree/master/research/cv/wave_mlp
在CV領(lǐng)域的最近工作表明,主要由全連接層堆疊的純 MLP 架構(gòu)可以實現(xiàn)與 CNN 和 Transformer 競爭的性能。視覺 MLP 的輸入圖像通常被拆分為多個tokens,而現(xiàn)有的 MLP 模型直接將它們以固定的權(quán)重聚合,忽略了來自不同圖像的tokens的變化語義信息。為了動態(tài)聚合tokens,本文建議將每個token表示為具有振幅和相位兩部分的波函數(shù)。基于類波token表示,本文為視覺任務(wù)建立了一種新穎的 Wave-MLP 架構(gòu)。大量實驗表明,在圖像分類、對象檢測和語義分割等各種視覺任務(wù)上,所提出的 Wave-MLP 優(yōu)于最先進的 MLP 架構(gòu)。
【2】 A ConvNet for the 2020s
paper:https://arxiv.org/abs/2201.03545
code:https://github.com/facebookresearch/ConvNeXt
詳細解讀:“文藝復(fù)興” ConvNet卷土重來,壓過Transformer!FAIR重新設(shè)計純卷積新架構(gòu)
這項工作重新檢查了設(shè)計空間并測試了純 ConvNet 所能達到的極限。本文逐漸將標準 ResNet “現(xiàn)代化”為視覺 Transformer 的設(shè)計,并在此過程中發(fā)現(xiàn)了導(dǎo)致性能差異的幾個關(guān)鍵組件。這一探索的結(jié)果是一系列純 ConvNet 模型,稱為 ConvNeXt。ConvNeXts 完全由標準 ConvNet 模塊構(gòu)建,在準確性和可擴展性方面與 Transformer 競爭,實現(xiàn) 87.8% ImageNet top-1 準確率,在 COCO 檢測和 ADE20K 分割方面優(yōu)于 Swin Transformers,同時保持標準 ConvNet 的簡單性和效率。
【3】Mobile-Former: Bridging MobileNet and Transformer(連接 MobileNet 和 Transformer)
paper:https://arxiv.org/abs/2108.05895
Mobile-Former是一種 MobileNet 和 Transformer 的并行設(shè)計,中間有一個雙向橋,這種結(jié)構(gòu)利用了 MobileNet 在本地處理和全局交互中的 Transformer 的優(yōu)勢,同時可以實現(xiàn)局部和全局特征的雙向融合。
Mobile-Former 中的 Transformer 包含 token 非常少( 6 個或更少),并隨機初始化這些 token 來學(xué)習(xí)全局先驗,從而降低計算成本。結(jié)合提出的輕量級交叉注意力對橋梁進行建模,Mobile-Former 不僅計算效率高,而且具有更強的表示能力。它在低 FLOP 狀態(tài)下性能優(yōu)于 MobileNetV3。此外,通過用 Mobile-Former 替換 DETR 中的主干、編碼器和解碼器來構(gòu)建的檢測器性能優(yōu)于 DETR 1.1 AP,但節(jié)省了 52% 的計算成本和 36% 的參數(shù)。
【4】BatchFormer: Learning to Explore Sample Relationships for Robust Representation Learning(學(xué)習(xí)探索樣本關(guān)系以進行魯棒表征學(xué)習(xí))
paper:https://arxiv.org/abs/2203.01522
code:https://github.com/zhihou7/BatchFormer
本文的目的在于讓深度神經(jīng)網(wǎng)絡(luò)本身能夠探索每個mini-batch的樣本關(guān)系。具體操作上,本文引入了一個batch transformer模塊,即BatchFormer,將其應(yīng)用于每個mini-batch的batch維度,實現(xiàn)在訓(xùn)練期間隱式探索樣本關(guān)系。通過這種方法可以實現(xiàn)不同樣本的協(xié)作,例如頭類樣本也可以有助于尾類的學(xué)習(xí)來進行長尾識別。在十個以上的數(shù)據(jù)集進行了廣泛的實驗,證明在沒有其他多余操作的情況下,BatchFormer在不同的數(shù)據(jù)稀缺性問題上取得了顯著的改進,包括長尾識別、組合零樣本學(xué)習(xí)、域泛化和對比學(xué)習(xí)。
異常檢測
【1】Self-Supervised Predictive Convolutional Attentive Block for Anomaly Detection(用于異常檢測的自監(jiān)督預(yù)測卷積注意力塊)
paper:https://arxiv.org/abs/2111.09099
code:https://github.com/ristea/sspcab
本文提出了一種由掩碼卷積層和通道注意模塊組成的新型模塊 SSPCAB,它可以預(yù)測卷積感受野中的掩碼區(qū)域。SSPCAB以自監(jiān)督的方式通過自身的重建損失進行訓(xùn)練。這一自監(jiān)督塊是通用的,并且可以很容易地融入到各種最先進的異常檢測方法中。SSPCAB 從一個帶有擴張濾波器的卷積層開始,其中感受野的中心區(qū)域被掩碼,生成的激活圖通過通道注意模塊傳遞,同時配置了一個損失,可以最大限度地減少感受野中被掩碼區(qū)域的重建誤差。SSPCAB 在圖像和視頻異常檢測任務(wù)上都驗證了其對性能的提升。
三維視覺
【1】 CrossPoint: Self-Supervised Cross-Modal Contrastive Learning for 3D Point Cloud Understanding(用于 3D 點云理解的自監(jiān)督跨模態(tài)對比學(xué)習(xí))
paper:https://arxiv.org/abs/2203.00680
code:http://github.com/MohamedAfham/CrossPoint
本文提出了 CrossPoint,這是一種簡單的跨模態(tài)對比學(xué)習(xí)方法,用于學(xué)習(xí)可遷移的 3D 點云表示。它通過最大化點云和不變空間中相應(yīng)渲染的 2D 圖像之間的一致性來實現(xiàn)對象的 3D-2D 對應(yīng),同時鼓勵對點云模態(tài)中的變換保持不變。本文的聯(lián)合訓(xùn)練目標結(jié)合了模態(tài)內(nèi)和模態(tài)之間的特征對應(yīng)關(guān)系,從而以自我監(jiān)督的方式集成了來自 3D 點云和 2D 圖像模態(tài)的豐富學(xué)習(xí)信號。實驗結(jié)果表明,本文的方法在包括 3D 對象分類和分割在內(nèi)的各種下游任務(wù)上優(yōu)于以前的無監(jiān)督學(xué)習(xí)方法。
【2】 A Unified Query-based Paradigm for Point Cloud Understanding(一種基于統(tǒng)一查詢的點云理解范式)
paper:https://arxiv.org/pdf/2203.01252.pdf
本文提出了一種新穎的嵌入查詢范式 (EQ-Paradigm),用于 3D 理解任務(wù),包括檢測、分割和分類。EQ-Paradigm 是一個統(tǒng)一的范式,可以將任何現(xiàn)有的 3D 主干架構(gòu)與不同的任務(wù)頭結(jié)合起來。在 EQ-Paradigm 下,輸入首先在嵌入階段以任意特征提取架構(gòu)進行編碼,該架構(gòu)獨立于任務(wù)和頭。然后,查詢階段使編碼的特征適用于不同的任務(wù)頭。這是通過在查詢階段引入中間表示(即 Q 表示)作為嵌入階段和任務(wù)頭之間的橋梁來實現(xiàn)的。本文設(shè)計了一個新穎的 Q-Net 作為查詢階段網(wǎng)絡(luò)。各種 3D 任務(wù)的廣泛實驗結(jié)果表明,EQ-Paradigm 與 Q-Net 結(jié)合是一種通用且有效的管道,它可以實現(xiàn)骨干網(wǎng)和頭部的靈活協(xié)作,并進一步提高最先進方法的性能.
【3】 X -Trans2Cap: Cross-Modal Knowledge Transfer using Transformer for 3D Dense Captioning(使用 Transformer 進行 3D 密集字幕的跨模式知識遷移)
paper:https://arxiv.org/pdf/2203.00843.pdf
本文研究了使用 Transformer 進行 3D 密集字幕的跨模式知識轉(zhuǎn)移,即 X -Trans2Cap。本文提出的 X -Trans2Cap 通過師生框架支持的知識蒸餾有效地提高了單模態(tài) 3D 字幕的性能。在實踐中,在訓(xùn)練階段,教師網(wǎng)絡(luò)利用輔助的 2D 模態(tài),通過特征一致性約束引導(dǎo)僅以點云作為輸入的學(xué)生網(wǎng)絡(luò)。由于精心設(shè)計的跨模態(tài)特征融合模塊和訓(xùn)練階段的特征對齊,X-Trans2Cap 輕松獲取嵌入在 2D 圖像中的豐富外觀信息。因此,在推理過程中只能使用點云來生成更忠實的字幕。
【4】 CLIP-NeRF: Text-and-Image Driven Manipulation of Neural Radiance Fields(文本和圖像驅(qū)動的神經(jīng)輻射場操作)
paper:https://arxiv.org/abs/2112.05139
code:https://cassiepython.github.io/clipnerf/
本文提出了 CLIP-NeRF,一種用于神經(jīng)輻射場 (NeRF) 的多模態(tài) 3D 對象操作方法。通過利用最近的對比語言圖像預(yù)訓(xùn)練(CLIP)模型的聯(lián)合語言圖像嵌入空間,本文提出了一個統(tǒng)一的框架,允許以用戶友好的方式使用短文本提示或示例圖像操作 NeRF。此外,本文提出了一種逆優(yōu)化方法,該方法可以將輸入圖像準確地投影到潛在代碼以進行操作,從而能夠?qū)φ鎸崍D像進行編輯。
姿態(tài)估計
【1】 MixSTE: Seq2seq Mixed Spatio-Temporal Encoder for 3D Human Pose Estimation in Video(用于視頻中 3D 人體姿勢估計的 Seq2seq 混合時空編碼器)
paper:https://arxiv.org/pdf/2203.00859.pdf
本文提出了 MixSTE(混合時空編碼器),它有一個時間變換器塊來分別建模每個關(guān)節(jié)的時間運動和一個空間變換器塊來學(xué)習(xí)關(guān)節(jié)間的空間相關(guān)性。這兩個塊交替使用以獲得更好的時空特征編碼。此外,網(wǎng)絡(luò)輸出從中心幀擴展到輸入視頻的整個幀,從而提高了輸入和輸出序列之間的連貫性。在三個基準(即 Human3.6M、MPI-INF-3DHP 和 HumanEva)上進行了廣泛的實驗來評估所提出的方法。結(jié)果表明,該模型在 Human3.6M 數(shù)據(jù)集上優(yōu)于最先進的方法 10.9% P-MPJPE 和 7.6% MPJPE。
【2】 H4D: Human 4D Modeling by Learning Neural Compositional Representation(通過學(xué)習(xí)神經(jīng)組合表示進行人體 4D 建模)
paper:https://arxiv.org/pdf/2203.01247.pdf
盡管基于深度學(xué)習(xí)的 3D 重建取得了令人印象深刻的成果,但對直接學(xué)習(xí)以詳細幾何對 4D 人體捕捉進行建模的技術(shù)的研究較少。這項工作提出了一個新穎的框架,可以通過從廣泛使用的 SMPL 參數(shù)模型中利用人體先驗來有效地學(xué)習(xí)動態(tài)人體的緊湊和組合表示。本文提出了一種簡單而有效的線性運動模型來提供粗略和正則化的運動估計,然后使用輔助代碼中編碼的殘差對位姿和幾何細節(jié)進行每幀補償。從技術(shù)上講,本文引入了新的基于 GRU 的架構(gòu)來促進學(xué)習(xí)和提高表示能力。
【3】 Learning Local-Global Contextual Adaptation for Multi-Person Pose Estimation(學(xué)習(xí)用于多人姿勢估計的局部-全局上下文適應(yīng))
paper:https://arxiv.org/pdf/2109.03622.pdf
本文提出了一種多人姿態(tài)估計方法,稱為 LOGO-CAP,通過學(xué)習(xí)人類姿勢的 LOcal-GlObal 上下文適應(yīng)。具體來說,本文的方法在第一步從小局部窗口中的局部關(guān)鍵點擴展圖(KEM)中學(xué)習(xí)關(guān)鍵點吸引力圖(KAM),隨后將其視為以關(guān)鍵點為中心的全局熱圖上的動態(tài)卷積核,以進行上下文適應(yīng),實現(xiàn)準確的多人姿態(tài)估計。該方法是端到端可訓(xùn)練的,在單次前向傳遞中具有近乎實時的推理速度,在自下而上的人體姿態(tài)估計的 COCO 關(guān)鍵點基準上獲得了最先進的性能。
圖像修復(fù)
【1】 Incremental Transformer Structure Enhanced Image Inpainting with Masking Positional Encoding(增量transformer結(jié)構(gòu)增強圖像修復(fù)與掩蔽位置編碼)
paper:https://arxiv.org/abs/2203.00867
code:https://github.com/DQiaole/ZITS_inpainting
近年來,圖像修復(fù)取得了重大進展。然而,恢復(fù)具有生動紋理和合理結(jié)構(gòu)的損壞圖像仍然具有挑戰(zhàn)性。由于卷積神經(jīng)網(wǎng)絡(luò) (CNN) 的感受野有限,一些特定的方法只能處理常規(guī)紋理,而會丟失整體結(jié)構(gòu)。另一方面,基于注意力的模型可以更好地學(xué)習(xí)結(jié)構(gòu)恢復(fù)的遠程依賴性,但它們受到大圖像尺寸推理的大量計算的限制。為了解決這些問題,本文建議利用額外的結(jié)構(gòu)恢復(fù)器來逐步促進圖像修復(fù)。所提出的模型在固定的低分辨率草圖空間中使用強大的基于注意力的 Transformer 模型來恢復(fù)整體圖像結(jié)構(gòu)。
模型訓(xùn)練
【1】 DN-DETR: Accelerate DETR Training by Introducing Query DeNoising(通過引入查詢?nèi)ピ爰铀?DETR 訓(xùn)練)
paper:https://arxiv.org/abs/2203.01305
code:https://github.com/FengLi-ust/DN-DETR
本文提出了一種新的去噪訓(xùn)練方法來加速DETR訓(xùn)練,并加深了對 DETR 類方法的緩慢收斂問題的理解。本文表明,緩慢收斂是由于二部圖匹配的不穩(wěn)定性導(dǎo)致早期訓(xùn)練階段的優(yōu)化目標不一致。為了解決這個問題,除了Hungarian損失之外,本文的方法還向Transformer解碼器中添加了帶有噪聲的ground-truth邊界框,并訓(xùn)練模型重建原始框,這有效地降低了二分圖匹配難度并導(dǎo)致更快的收斂。該方法是通用的,可以通過添加數(shù)十行代碼輕松插入任何類似 DETR 的方法中,以實現(xiàn)顯著的改進。
視覺語言表征學(xué)習(xí)
【1】 HairCLIP: Design Your Hair by Text and Reference Image(通過文本和參考圖像設(shè)計你的頭發(fā))
paper:https://arxiv.org/abs/2112.05142
project:https://github.com/wty-ustc/HairCLIP
頭發(fā)編輯是計算機視覺和圖形學(xué)中一個有趣且具有挑戰(zhàn)性的問題。許多現(xiàn)有方法需要精心繪制的草圖或蒙版作為編輯的條件輸入,但是這些交互既不簡單也不高效。本文提出了一種新的頭發(fā)編輯交互模式,可以根據(jù)用戶提供的文本或參考圖像單獨或聯(lián)合操作頭發(fā)屬性。為此,本文在共享嵌入空間中對圖像和文本條件進行編碼,并通過利用對比語言-圖像預(yù)訓(xùn)練(CLIP)模型強大的圖像文本表示能力提出統(tǒng)一的頭發(fā)編輯框架。通過精心設(shè)計的網(wǎng)絡(luò)結(jié)構(gòu)和損失函數(shù),本文的框架可以以一種解開的方式執(zhí)行高質(zhì)量的頭發(fā)編輯。
【2】 Vision-Language Pre-Training with Triple Contrastive Learning(三重對比學(xué)習(xí)的視覺語言預(yù)訓(xùn)練)
paper:https://arxiv.org/abs/2202.10401
code:https://github.com/uta-smile/TCL
視覺語言表示學(xué)習(xí)通過對比損失(例如 InfoNCE 損失)在很大程度上受益于圖像-文本對齊。這種對齊策略的成功歸功于其最大化圖像與其匹配文本之間的互信息 (MI) 的能力。然而,簡單地執(zhí)行跨模態(tài)對齊 (CMA) 會忽略每個模態(tài)中的數(shù)據(jù)潛力,這可能會導(dǎo)致表示下降。本文通過利用跨模態(tài)和模態(tài)內(nèi)自我監(jiān)督,提出了用于視覺語言預(yù)訓(xùn)練的三重對比學(xué)習(xí) (TCL)。除了 CMA,TCL 還引入了模態(tài)內(nèi)對比目標,以在表示學(xué)習(xí)中提供互補優(yōu)勢。為了利用來自圖像和文本輸入的本地化和結(jié)構(gòu)信息,TCL 進一步最大化了圖像/文本的局部區(qū)域與其全局摘要之間的平均 MI。該工作是第一個考慮多模態(tài)表示學(xué)習(xí)的局部結(jié)構(gòu)信息的工作。
對比學(xué)習(xí)
【1】 Crafting Better Contrastive Views for Siamese Representation Learning(為連體表示學(xué)習(xí)制作更好的對比視圖)
paper:https://arxiv.org/pdf/2202.03278.pdf
code:https://github.com/xyupeng/ContrastiveCrop
對于高性能連體表示學(xué)習(xí),關(guān)鍵之一是設(shè)計好的對比對。大多數(shù)以前的工作只是簡單地應(yīng)用隨機采樣來對同一圖像進行不同的裁剪,這忽略了可能降低視圖質(zhì)量的語義信息。本文提出 ContrastiveCrop,它可以有效地為連體表示學(xué)習(xí)生成更好的作物。值得注意的是,本文方法仔細考慮了用于對比學(xué)習(xí)的正對,而額外的訓(xùn)練開銷可以忽略不計。作為一個即插即用且與框架無關(guān)的模塊,ContrastiveCrop 在 CIFAR-10、CIFAR-100、Tiny ImageNet 和 STL-10 上持續(xù)將 SimCLR、MoCo、BYOL、SimSiam 的分類精度提高 0.4% ~ 2.0%。
深度估計
【1】 OmniFusion: 360 Monocular Depth Estimation via Geometry-Aware Fusion(通過幾何感知融合進行 360 度單目深度估計)
paper:https://arxiv.org/abs/2203.00838
將深度學(xué)習(xí)方法應(yīng)用于全向圖像的一個最大的挑戰(zhàn)是球面失真。在需要結(jié)構(gòu)細節(jié)的深度估計等密集回歸任務(wù)中,在扭曲的 360 度圖像上使用普通 CNN 層會導(dǎo)致不希望的信息丟失。本文提出了一個 360 度單目深度估計管道OmniFusion,以解決球面失真問題。本文的管道將 360 度圖像轉(zhuǎn)換為失真較小的透視圖塊(即切線圖像),以通過 CNN 獲得塊狀預(yù)測,然后將塊狀結(jié)果合并為最終輸出。為了處理補丁預(yù)測之間的差異,這是影響合并質(zhì)量的主要問題,本文提出了一個具有以下關(guān)鍵組件的新框架。
語義分割
【1】 Class Re-Activation Maps for Weakly-Supervised Semantic Segmentation(弱監(jiān)督語義分割的類重新激活圖)
paper:https://arxiv.org/pdf/2203.00962.pdf
code:https://github.com/zhaozhengChen/ReCAM
本文介紹了一種非常簡單高效的方法:使用名為 ReCAM 的 softmax 交叉熵損失 (SCE) 重新激活具有 BCE 的收斂 CAM。給定一張圖像,本文使用 CAM 提取每個類的特征像素,并使用它們與類標簽一起使用 SCE 學(xué)習(xí)另一個全連接層(在主干之后)。收斂后,本文以與 CAM 中相同的方式提取 ReCAM。由于 SCE 的對比性質(zhì),像素響應(yīng)被分解為不同的類別,因此預(yù)期的掩碼模糊性會更小。對 PASCAL VOC 和 MS COCO 的評估表明,ReCAM 不僅可以生成高質(zhì)量的遮罩,還可以在任何 CAM 變體中以很少的開銷支持即插即用。
動作檢測
【1】 Colar: Effective and Efficient Online Action Detection by Consulting Exemplars(通過咨詢示例進行有效且高效的在線動作檢測)
paper:https://arxiv.org/pdf/2203.01057.pdf
當前的工作模擬歷史依賴關(guān)系并預(yù)測未來以感知視頻片段中的動作演變并提高檢測準確性。但是,現(xiàn)有的范式忽略了類別級別的建模,對效率沒有給予足夠的重視。本文開發(fā)了一種有效的示例咨詢機制,該機制首先測量框架與示例框架之間的相似度,然后根據(jù)相似度權(quán)重聚合示例特征。這也是一種有效的機制,因為相似性測量和特征聚合都需要有限的計算。基于樣例協(xié)商機制,可以將歷史幀作為樣例來捕捉長期依賴關(guān)系,將某個類別中的代表性幀作為樣例來實現(xiàn)類別級建模。
人臉防偽
【1】 Protecting Celebrities with Identity Consistency Transformer(使用身份一致性transformer保護名人)
paper:https://arxiv.org/abs/2203.01318
這項工作提出了身份一致性轉(zhuǎn)換器,這是一種新穎的人臉偽造檢測方法,專注于高級語義,特別是身份信息,并通過發(fā)現(xiàn)內(nèi)部和外部人臉區(qū)域的身份不一致來檢測可疑人臉。身份一致性轉(zhuǎn)換器包含用于身份一致性確定的一致性損失。本文表明,Identity Consistency Transformer 不僅在不同的數(shù)據(jù)集上表現(xiàn)出卓越的泛化能力,而且在包括 deepfake 視頻在內(nèi)的真實應(yīng)用中發(fā)現(xiàn)的各種類型的圖像退化形式上也表現(xiàn)出卓越的泛化能力。當此類信息可用時,身份一致性轉(zhuǎn)換器可以很容易地通過附加身份信息進行增強,因此它特別適合檢測涉及名人的面部偽造。
長尾識別
【1】 Targeted Supervised Contrastive Learning for Long-Tailed Recognition(用于長尾識別的有針對性的監(jiān)督對比學(xué)習(xí))
paper:https://arxiv.org/pdf/2111.13998.pdf
現(xiàn)實世界的數(shù)據(jù)通常表現(xiàn)出具有嚴重類不平衡的長尾分布,其中多數(shù)類可以主導(dǎo)訓(xùn)練過程并改變少數(shù)類的決策邊界。最近,研究人員研究了監(jiān)督對比學(xué)習(xí)在長尾識別方面的潛力,并證明它提供了強大的性能提升。本文表明,雖然有監(jiān)督的對比學(xué)習(xí)可以幫助提高性能,但過去的基線受到數(shù)據(jù)分布不平衡帶來的一致性差的影響。這種差的均勻性表現(xiàn)在來自少數(shù)類的樣本在特征空間中的可分離性差。為了解決這個問題,本文提出了有針對性的監(jiān)督對比學(xué)習(xí)(TSC),它提高了超球面上特征分布的均勻性。在多個數(shù)據(jù)集上的實驗表明,TSC 在長尾識別任務(wù)上實現(xiàn)了最先進的性能。
總結(jié)
以上是生活随笔為你收集整理的一文看尽 CVPR2022 最新 22 篇论文(附打包下载)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 小目标检测、图像分类、图像识别等开源数据
- 下一篇: 如何看待第三代神经网络SNN?详解脉冲神