CVPR 2020几篇论文内容点评:目标检测跟踪,人脸表情识别,姿态估计,实例分割等
CVPR 2020幾篇論文內容點評:目標檢測跟蹤,人臉表情識別,姿態(tài)估計,實例分割等
CVPR 2020中選論文放榜后,最新開源項目合集也來了。
本屆CPVR共接收6656篇論文,中選1470篇,“中標率”只有22%,堪稱十年來最難的一屆。
目標檢測
論文題目:
Bridging the Gap Between Anchor-based and Anchor-free Detection via
Adaptive Training Sample Selection
本文首先指出了基于錨點檢測與無錨點檢測的本質區(qū)別,在于如何定義正、負訓練樣本,從而導致兩者之間的性能差距。
研究人員提出了一種自適應訓練樣本選擇 (ATSS),根據(jù)對象的統(tǒng)計特征自動選擇正樣本和負樣本。它顯著地提高了基于錨點和無錨點探測器的性能,并彌補了兩者之間的差距。
最后,還討論了在圖像上每個位置平鋪多個錨點來檢測目標的必要性。
論文地址:
https://arxiv.org/abs/1912.02424
代碼:
https://github.com/sfzhang15/ATSS
目標跟蹤
論文題目:
MAST: A Memory-Augmented Self-supervised
Tracker
這篇論文提出了一種密集的視頻跟蹤模型 (無任何注釋),在現(xiàn)有的基準上大大超過了之前的自監(jiān)督方法(+15%),并實現(xiàn)了與監(jiān)督方法相當?shù)男阅堋?/p>
首先通過深入的實驗,重新評估用于自監(jiān)督訓練和重建損失的傳統(tǒng)選擇。其次,通過使用一個重要的內存組件來擴展架構,從而進一步改進現(xiàn)有的方法。而后,對大規(guī)模半監(jiān)督視頻對象分割進行了基準測試,提出了一種新的度量方法:可泛化 (generalizability)。
論文地址:
https://arxiv.org/abs/2002.07793
代碼:
https://github.com/zlai0/MAST
實例分割
論文題目:
PolarMask: Single Shot Instance Segmentation with Polar
Representation
本文提出了PolarMask方法,是一種single shot的實例分割框架。PolarMask基于FCOS,把實例分割統(tǒng)一到了FCN的框架下。
FCOS本質上是一種FCN的dense prediction的檢測框架,可以在性能上不輸anchor based的目標檢測方法。
貢獻在于,把更復雜的實例分割問題,轉化成在網(wǎng)絡設計和計算量復雜度上和物體檢測一樣復雜的任務,把對實例分割的建模變得簡單和高效。
論文地址:
https://arxiv.org/abs/1909.13226
代碼:
https://github.com/xieenze/PolarMask
NAS
論文題目:
CARS: Continuous Evolution for Efficient Neural
Architecture Search
在本文中,研究人員開發(fā)了一種高效的連續(xù)演化方法來搜索神經網(wǎng)絡。
在最近的迭代中,在一個超網(wǎng)中共享參數(shù)的種群中的架構,將在具有幾個epoch的訓練數(shù)據(jù)集上進行調優(yōu)。下一個演化迭代中的搜索將直接繼承超網(wǎng)和種群,加速了最優(yōu)網(wǎng)絡的生成。進一步采用非支配排序策略,僅保留Pareto前沿的結果,以精確更新超網(wǎng)。
經過0.4天的GPU連續(xù)搜索,可以生成多個模型大小和性能不同的神經網(wǎng)絡。這些網(wǎng)絡超過了基準ImageNet數(shù)據(jù)集上最先進方法產生的網(wǎng)絡。
論文地址:
https://arxiv.org/abs/1909.04977
代碼(即將開源):
https://github.com/huawei-noah/CARS
人體姿態(tài)估計
2D人體姿態(tài)估計
論文題目:
The Devil is in the Details: Delving into Unbiased Data
Processing for Human Pose Estimation
所有計算機視覺的任務都需要和數(shù)據(jù)處理打交道,但在關鍵點檢測問題上,數(shù)據(jù)處理顯得尤為重要。在關鍵點檢測任務上,數(shù)據(jù)處理尚未被系統(tǒng)的學習,因此這篇文章關注了人體關鍵點檢測問題的數(shù)據(jù)處理,認為它是算法的一個極其重要的組成部分。
在系統(tǒng)地分析這個問題的時候,發(fā)現(xiàn)現(xiàn)有的所有的state-of-the-art在這個環(huán)節(jié)上都會存在兩個方面的問題:一個是在測試過程中,如果使用flip ensemble時,由翻轉圖像得到的結果和原圖得到的結果并不對齊。另外一個是使用的編碼解碼(encoding-decoding)方法存在較大的統(tǒng)計誤差。
這兩個問題耦合在一起,產生的影響包括:估計的結果不準確、復現(xiàn)指標困難、有較大可能使得實驗的結果結論不可靠。
論文地址:
https://arxiv.org/abs/1911.07524
代碼:
https://github.com/HuangJunJie2017/UDP-Pose
人臉表情識別
論文題目:
Suppressing Uncertainties for Large-Scale Facial Expression
Recognition
本文提出了一種簡單而有效的自修復網(wǎng)絡(SCN),它能有效地抑制不確定性,防止深度網(wǎng)絡對不確定的人臉圖像進行過擬合。
具體來說,SCN從兩個不同的方面抑制了不確定性:⑴在小批量上的自關注機制,通過排名規(guī)則化對每個訓練樣本進行加權;⑵重新貼標簽機制,在排名最低的組中修改這些樣本的標簽。
論文地址:
https://arxiv.org/abs/2002.10392
代碼(即將開源):
https://github.com/kaiwang960112/Self-Cure-Network
3D人體姿態(tài)估計
論文題目:
VIBE: Video Inference for Human Body Pose and Shape
Estimation
由于缺乏用于訓練的ground-truth三維運動數(shù)據(jù),現(xiàn)有的基于視頻的最先進的方法無法生成準確和自然的運動序列。
為了解決這個問題,本文提出了身體姿態(tài)和形狀估計的視頻推理(VIBE),它利用了現(xiàn)有的大型動作捕捉數(shù)據(jù)集(AMASS)和未配對的、in-the-wild 2D關鍵點注釋。
關鍵創(chuàng)新是一個對抗性學習框架,它利用AMASS來區(qū)分真實的人類動作和由時間姿態(tài)、形狀回歸網(wǎng)絡產生的動作。
論文地址:
https://arxiv.org/abs/1912.05656
代碼:
https://github.com/mkocabas/VIBE
總結
以上是生活随笔為你收集整理的CVPR 2020几篇论文内容点评:目标检测跟踪,人脸表情识别,姿态估计,实例分割等的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: CVPR2020 论文解读:少点目标检测
- 下一篇: CVPR2020最新论文扫描盘点(上)