當(dāng)前位置：首頁(yè) > 人工智能 > ChatGpt >内容正文

ChatGpt

【20210109期 AI周报】该重视 Vision Transformer 了

發(fā)布時(shí)間：2023/12/31 ChatGpt 70 豆豆

生活随笔收集整理的這篇文章主要介紹了【20210109期 AI周报】该重视 Vision Transformer 了小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

當(dāng)你還在研究目標(biāo)檢測(cè)中one2one的時(shí)候，當(dāng)你還在死磕模型lantency的時(shí)候，當(dāng)你還在折騰模型NPU部署的時(shí)候，當(dāng)...，我不得不提一下：該重視Vision Transformer了。自2020年5月，Facebook AI提出了DeTr后，Transformers在計(jì)算機(jī)視覺(jué)領(lǐng)域無(wú)處不在的。包括且不限于以下內(nèi)容：

1 推薦2篇綜述

論文：A Survey on Visual Transformer
鏈接：https://arxiv.org/abs/2012.12556

Transformer 是一種基于自注意力機(jī)制的深度神經(jīng)網(wǎng)絡(luò)，最初應(yīng)用于自然語(yǔ)言處理領(lǐng)域。受到Transformer 強(qiáng)大的表示能力的啟發(fā)，研究人員提議將Transformer 擴(kuò)展到計(jì)算機(jī)視覺(jué)任務(wù)。與其他網(wǎng)絡(luò)類(lèi)型（例如卷積網(wǎng)絡(luò)和循環(huán)網(wǎng)絡(luò)）相比，基于Transformer 的模型在各種視覺(jué)基準(zhǔn)上顯示出競(jìng)爭(zhēng)力甚至更好的性能。在本文中，我們通過(guò)將這些視覺(jué)Transformer模型分類(lèi)為不同的任務(wù)，并分析了這些方法的優(yōu)缺點(diǎn)，提供了文獻(xiàn)綜述。特別地，主要類(lèi)別包括基本圖像分類(lèi)，高級(jí)視覺(jué)，低級(jí)視覺(jué)和視頻處理。由于自注意力是 Transformer 的基本組成部分，因此也簡(jiǎn)要回顧了計(jì)算機(jī)視覺(jué)中的自注意力，包括有效的Transformer 方法，可將Transformer 推入實(shí)際應(yīng)用。最后，我們討論了視覺(jué)變壓器的進(jìn)一步研究方向。
?

論文：Transformers in Vision: A Survey
鏈接：https://arxiv.org/abs/2101.01169

Transformers?模型在自然語(yǔ)言任務(wù)方面的驚人結(jié)果，吸引了視覺(jué)界研究其在計(jì)算機(jī)視覺(jué)問(wèn)題中的應(yīng)用。這項(xiàng)調(diào)查旨在提供計(jì)算機(jī)視覺(jué)學(xué)科中的 Transformers?模型的全面概述，首先介紹Transformers?模型背后的基本概念，即自我監(jiān)督和自我關(guān)注。Transformers?體系結(jié)構(gòu)利用自我關(guān)注機(jī)制在輸入域中對(duì)遠(yuǎn)程依賴項(xiàng)進(jìn)行編碼，從而使其具有較高的表達(dá)力。由于他們假定對(duì)問(wèn)題的結(jié)構(gòu)沒(méi)有任何先驗(yàn)知識(shí)，因此將使用前置任務(wù)的自我監(jiān)督應(yīng)用于大規(guī)模（未標(biāo)記）數(shù)據(jù)集上的預(yù)訓(xùn)練變壓器模型。然后，在下游任務(wù)上對(duì)學(xué)習(xí)的表示進(jìn)行微調(diào)，由于編碼特征的泛化和表現(xiàn)力，通常可導(dǎo)致出色的性能。我們涵蓋了Transformers?在視覺(jué)領(lǐng)域的廣泛應(yīng)用，包括流行的識(shí)別任務(wù)（例如圖像分類(lèi)，目標(biāo)檢測(cè)，動(dòng)作識(shí)別和分割），生成模型，多模式任務(wù)（例如視覺(jué)問(wèn)題解答和視覺(jué)推理），視頻處理（例如活動(dòng)識(shí)別，視頻預(yù)測(cè)），低級(jí)視覺(jué)（例如圖像超分辨率和彩色化）和3D分析（例如點(diǎn)云分類(lèi)和分割）。我們從網(wǎng)絡(luò)和實(shí)驗(yàn)兩個(gè)方面比較了流行技術(shù)各自的優(yōu)點(diǎn)和局限性。最后，我們對(duì)研究方向和可能的未來(lái)工作進(jìn)行了分析。

Blog：https://zhuanlan.zhihu.com/p/340149804

2 再補(bǔ)充幾篇新的論文

論文：TransTrack: Multiple-Object Tracking with Transformer
鏈接：https://arxiv.org/abs/2012.15460
代碼：https://github.com/PeizeSun/TransTrack

在這項(xiàng)工作中，我們提出了TransTrack，這是使用Transformer進(jìn)行MOT的基準(zhǔn)。它利用查詢鍵機(jī)制，并將一組學(xué)習(xí)到的對(duì)象查詢引入到管道中，以檢測(cè)新出現(xiàn)的對(duì)象。 TransTrack具有三個(gè)主要優(yōu)點(diǎn)：（1）它是基于查詢鍵機(jī)制的在線聯(lián)合檢測(cè)跟蹤管道。簡(jiǎn)化了先前方法中的復(fù)雜步驟和多步驟組件。（2）它是基于Transformer的全新體系結(jié)構(gòu)。學(xué)習(xí)的對(duì)象查詢將檢測(cè)當(dāng)前幀中的對(duì)象。來(lái)自上一幀的對(duì)象特征查詢將那些當(dāng)前對(duì)象與先前的對(duì)象相關(guān)聯(lián)。（3）首次展示了一種基于查詢鍵機(jī)制的簡(jiǎn)單有效的方法，并且Transformer架構(gòu)可以在MOT17挑戰(zhàn)數(shù)據(jù)集上獲得具有競(jìng)爭(zhēng)力的65.8％的MOTA。我們希望TransTrack可以為多對(duì)象跟蹤提供新的視角。

論文：TrackFormer: Multi-Object Tracking with Transformers
鏈接：https://arxiv.org/pdf/2101.02702.pdf

TrackFormer，一個(gè)端到端的多對(duì)象基于encoder-decoder Transformer體系結(jié)構(gòu)的跟蹤和分段模型。該方法引入了跟蹤查詢嵌入，這些跟蹤跟隨對(duì)象以自回歸方式播放的視頻序列。新查詢由DETR對(duì)象檢測(cè)器生成，并隨時(shí)間嵌入其對(duì)應(yīng)對(duì)象的位置。 Transformer解碼器調(diào)整軌道查詢嵌入從一幀到另一幀，從而跟隨變化的對(duì)象位置。 TrackFormer通過(guò)新的注意跟蹤實(shí)現(xiàn)了幀之間的無(wú)縫數(shù)據(jù)關(guān)聯(lián)自我和編碼器-解碼器注意機(jī)制的范例，可在多對(duì)象跟蹤任務(wù)上提供最先進(jìn)的性能。希望我們統(tǒng)一執(zhí)行檢測(cè)和跟蹤的方式將促進(jìn)未來(lái)多目標(biāo)跟蹤和視頻理解方面的研究。

3 基礎(chǔ)知識(shí)Self-Attention

可以查看：

attention專欄

CV中的Attention和Self-Attention

通過(guò)代碼學(xué)習(xí)Transformer

DETR: Postprocessing-free Detector

學(xué)術(shù)交流

如果你平時(shí)遇到任何困擾你已久、或面試中的遇到目標(biāo)檢測(cè)等相關(guān)問(wèn)題，可以加群（掃碼下方二維碼，備注互助群，就會(huì)拉入群），告訴我們，統(tǒng)一記錄在《Question List》中。盡力幫助大家解決難題，真正解決問(wèn)題的那種！

下載1

在【AI約讀社】公眾號(hào)后臺(tái)回復(fù)：目標(biāo)檢測(cè)，即可獲取《圖解目標(biāo)檢測(cè)》鏈接

總結(jié)

以上是生活随笔為你收集整理的【20210109期 AI周报】该重视 Vision Transformer 了的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： xp wifi android,《解决没
下一篇： “撒币”直播这么火，会答题的AI无屏电视