【20210109期 AI周报】该重视 Vision Transformer 了
當你還在研究目標檢測中one2one的時候,當你還在死磕模型lantency的時候,當你還在折騰模型NPU部署的時候,當...,我不得不提一下:該重視Vision Transformer了。自2020年5月,Facebook AI提出了DeTr后,Transformers在計算機視覺領域無處不在的。包括且不限于以下內容:
1 推薦2篇綜述
論文:A Survey on Visual Transformer
鏈接:https://arxiv.org/abs/2012.12556
Transformer 是一種基于自注意力機制的深度神經網絡,最初應用于自然語言處理領域。受到Transformer 強大的表示能力的啟發,研究人員提議將Transformer 擴展到計算機視覺任務。與其他網絡類型(例如卷積網絡和循環網絡)相比,基于Transformer 的模型在各種視覺基準上顯示出競爭力甚至更好的性能。在本文中,我們通過將這些視覺Transformer模型分類為不同的任務,并分析了這些方法的優缺點,提供了文獻綜述。特別地,主要類別包括基本圖像分類,高級視覺,低級視覺和視頻處理。由于自注意力是 Transformer 的基本組成部分,因此也簡要回顧了計算機視覺中的自注意力,包括有效的Transformer 方法,可將Transformer 推入實際應用。最后,我們討論了視覺變壓器的進一步研究方向。
?
論文:Transformers in Vision: A Survey
鏈接:https://arxiv.org/abs/2101.01169
Transformers?模型在自然語言任務方面的驚人結果,吸引了視覺界研究其在計算機視覺問題中的應用。這項調查旨在提供計算機視覺學科中的 Transformers?模型的全面概述,首先介紹Transformers?模型背后的基本概念,即自我監督和自我關注。Transformers?體系結構利用自我關注機制在輸入域中對遠程依賴項進行編碼,從而使其具有較高的表達力。由于他們假定對問題的結構沒有任何先驗知識,因此將使用前置任務的自我監督應用于大規模(未標記)數據集上的預訓練變壓器模型。然后,在下游任務上對學習的表示進行微調,由于編碼特征的泛化和表現力,通常可導致出色的性能。我們涵蓋了Transformers?在視覺領域的廣泛應用,包括流行的識別任務(例如圖像分類,目標檢測,動作識別和分割),生成模型,多模式任務(例如視覺問題解答和視覺推理),視頻處理(例如活動識別,視頻預測),低級視覺(例如圖像超分辨率和彩色化)和3D分析(例如點云分類和分割)。我們從網絡和實驗兩個方面比較了流行技術各自的優點和局限性。最后,我們對研究方向和可能的未來工作進行了分析。
Blog:https://zhuanlan.zhihu.com/p/340149804
?
2 再補充幾篇新的論文
論文:TransTrack: Multiple-Object Tracking with Transformer
鏈接:https://arxiv.org/abs/2012.15460
代碼:https://github.com/PeizeSun/TransTrack
在這項工作中,我們提出了TransTrack,這是使用Transformer進行MOT的基準。它利用查詢鍵機制,并將一組學習到的對象查詢引入到管道中,以檢測新出現的對象。 TransTrack具有三個主要優點:(1)它是基于查詢鍵機制的在線聯合檢測跟蹤管道。簡化了先前方法中的復雜步驟和多步驟組件。 (2)它是基于Transformer的全新體系結構。學習的對象查詢將檢測當前幀中的對象。來自上一幀的對象特征查詢將那些當前對象與先前的對象相關聯。 (3)首次展示了一種基于查詢鍵機制的簡單有效的方法,并且Transformer架構可以在MOT17挑戰數據集上獲得具有競爭力的65.8%的MOTA。我們希望TransTrack可以為多對象跟蹤提供新的視角。
?
論文:TrackFormer: Multi-Object Tracking with Transformers
鏈接:https://arxiv.org/pdf/2101.02702.pdf
TrackFormer,一個端到端的多對象基于encoder-decoder Transformer體系結構的跟蹤和分段模型。該方法引入了跟蹤查詢嵌入,這些跟蹤跟隨對象以自回歸方式播放的視頻序列。新查詢由DETR對象檢測器生成,并隨時間嵌入其對應對象的位置。 Transformer解碼器調整軌道查詢嵌入從一幀到另一幀,從而跟隨變化的對象位置。 TrackFormer通過新的注意跟蹤實現了幀之間的無縫數據關聯自我和編碼器-解碼器注意機制的范例, 可在多對象跟蹤任務上提供最先進的性能。希望我們統一執行檢測和跟蹤的方式將促進未來多目標跟蹤和視頻理解方面的研究。
?
3 基礎知識Self-Attention
可以查看:
attention專欄
CV中的Attention和Self-Attention
通過代碼學習Transformer
DETR: Postprocessing-free Detector
?
學術交流
如果你平時遇到任何困擾你已久、或面試中的遇到目標檢測等相關問題,可以加群(掃碼下方二維碼,備注互助群,就會拉入群),告訴我們,統一記錄在《Question List》中。盡力幫助大家解決難題,真正解決問題的那種!
?
下載1
在【AI約讀社】公眾號后臺回復:目標檢測,即可獲取《圖解目標檢測》鏈接
總結
以上是生活随笔為你收集整理的【20210109期 AI周报】该重视 Vision Transformer 了的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: xp wifi android,《解决没
- 下一篇: “撒币”直播这么火,会答题的AI无屏电视