當(dāng)前位置：首頁 > 运维知识 > windows >内容正文

windows

论文浅尝 - CVPR2020 | 基于网格特征的可视问答系统

發(fā)布時間：2024/7/5 windows 39 豆豆

生活随笔收集整理的這篇文章主要介紹了论文浅尝 - CVPR2020 | 基于网格特征的可视问答系统小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

論文筆記整理：李爽，天津大學(xué)。

鏈接：https://arxiv.org/pdf/2001.03615v1.pdf

動機

隨著“自下而上”注意力的普及，基于邊界框(或區(qū)域)的視覺特征最近已經(jīng)超越了傳統(tǒng)的基于網(wǎng)格的卷積特征，成為視覺和語言任務(wù)的事實標(biāo)準(zhǔn)。然而，目前尚不清楚區(qū)域優(yōu)勢是否是自下而上的注意力成功的關(guān)鍵原因。作者重新審視了用于VQA的網(wǎng)格特性，發(fā)現(xiàn)它們的性能令人驚訝——在同樣的精度下，運行速度要快一個數(shù)量級。通過大量的實驗，作者驗證了這種觀察在不同的VQA模型(報告了最先進的VQA 2.0 test-std, 72.71)、數(shù)據(jù)集上都是正確的，并且可以很好地推廣到其他任務(wù)，比如圖像描述。作者從頭到尾學(xué)習(xí)了VQA模型，從像素直接到答案，并證明了在訓(xùn)練前不使用任何區(qū)域標(biāo)注也可以實現(xiàn)較強的性能。

亮點

在基于邊界框的視覺特征已經(jīng)廣為應(yīng)用，替代了傳統(tǒng)的基于網(wǎng)格特征的現(xiàn)狀下，作者又重新審視了網(wǎng)格特征，將網(wǎng)格特征與區(qū)域特征進行實驗對比，探索二者的性能是否存在大的差異。

論文框架介紹

Bottom-Up Attention with Regions

自下而上的注意力方法使用了Faster R-CNN檢測模型。為了獲得像VQA這樣的任務(wù)的自下而上的注意力特征，需要兩個與區(qū)域相關(guān)的步驟:

1、區(qū)域選擇。

由于Faster R-CNN是一個兩級檢測器，因此在管道中進行兩次區(qū)域選擇。第一個是通過區(qū)域建議網(wǎng)絡(luò)，它變形并選擇突出的候選“錨”作為感興趣的區(qū)域(RoIs)。另一個選擇作為后處理完成，以類的方式聚合頂部N個框。在這兩個步驟中，都使用了非最大抑制(NMS)，保持分類分數(shù)最高的區(qū)域，并去除局部鄰域內(nèi)的其他近重復(fù)項。

2、區(qū)域特性計算。

給定第一階段的區(qū)域(最多數(shù)千個)，使用RoIPool操作提取初始的區(qū)域級特征。然后，其他網(wǎng)絡(luò)層分別計算區(qū)域的輸出表示。最后，通過兩次選擇的區(qū)域特征被堆疊在一起作為自下而上的特征來表示圖像。

需要注意的是，由于VG數(shù)據(jù)集的復(fù)雜性和使用的特定Faster R-CNN檢測器，這兩個步驟都需要大量計算。相反，直接使用網(wǎng)格特性可以跳過或加速這些步驟，并提供潛在的顯著加速。

Grid Features from the Same Layer

將區(qū)域特征轉(zhuǎn)換為網(wǎng)格的最簡單的方法是看是否可以直接計算相同網(wǎng)絡(luò)層的輸出，但以共享的、完全卷積的方式。為此，進一步研究最初的自下而上的attention所使用的特定Faster R-CNN架構(gòu)。

Faster R-CNN是C4模型的一個變體，增加了一個用于屬性分類的分支。它將ResNet的權(quán)重劃分為兩個單獨的集合:給定一個輸入圖像，它首先使用ResNet到C4的較低的塊計算feature maps。這張feature map是所有區(qū)域共享的。然后，在14×14 RoIPool特征上分別應(yīng)用C5塊進行逐區(qū)域特征計算。然后，C5的輸出被AvgPool轉(zhuǎn)換為每個區(qū)域的最終向量，作為自下而上特征。由于最終的區(qū)域特征都來自C5，所以很容易將檢測器轉(zhuǎn)換回ResNet分類器，并使用相同的C5層作為我們的輸出網(wǎng)格特征。如圖說明了轉(zhuǎn)換過程。

1×1 RoIPool for Improved Grid Features

簡單地使用1×1 RoIPool對模型做一些最小的調(diào)整來改進網(wǎng)格特征。這意味著用一個向量來表示每個區(qū)域，而不是在Faster R-CNN中使用一個三維張量。雖然這種修改對VG上的對象檢測性能有負面影響，但重要的是，使用1×1的RoIPool regions也意味著網(wǎng)格feature map上的每個向量必須單獨覆蓋一個空間區(qū)域的所有信息，這可能會導(dǎo)致更強的網(wǎng)格特征。

但是直接在原始模型上應(yīng)用1×1 RoIPool是有問題的，可能是因為C5由幾個ImageNet預(yù)先訓(xùn)練好的卷積層組成，這些層最適合特定空間維度的輸入。為了解決這個問題，作者在對象檢測和使用整個ResNet到C5作為共享特征計算骨干；對于區(qū)域級計算，在頂部放置兩個1024D全連接(FC)層，默認情況下接受向量作為輸入。

在使用C5匯聚的特征訓(xùn)練檢測器時，為了減少低分辨率的影響，將stride-2層替換為stride-1層，其余的層以2的倍數(shù)擴張。對于網(wǎng)格特征提取，移除這個膨脹并將其轉(zhuǎn)換回正常的ResNet。下圖為改進網(wǎng)格之后的轉(zhuǎn)換過程。

實驗

從這一部分開始，報告比較區(qū)域和網(wǎng)格的實驗結(jié)果。作者選擇VQA2.0作為感興趣的主要任務(wù)，因為它目前是評估聯(lián)合視覺和語言理解的主要基準(zhǔn)，并且具有清晰的評估指標(biāo)。為了進行分析，默認情況下，作者將Faster R-CNN與ResNet-50骨干網(wǎng)一起在ImageNet上進行預(yù)訓(xùn)練，主要結(jié)果如下表所示。

為了了解這些不同數(shù)量的區(qū)域特征如何影響精度，作者對不同數(shù)量的特征N進行了實驗，結(jié)果如下圖所示。

與以前的設(shè)置不同，作者使用trainval + vqa-eval進行訓(xùn)練。下表為對比結(jié)果。與直接使用卷積特征圖的網(wǎng)格特征不同，區(qū)域特征涉及區(qū)域選擇和區(qū)域特征計算的其他操作。對于基于區(qū)域的模型，這些額外的操作花費了總推理時間的98.3％。將作者的網(wǎng)格特征作為輸入的VQA模型比使用自下而上的區(qū)域特征的模型運行速度快48倍。

作者提出網(wǎng)格特征能夠work的原因有以下兩點：

Input Image Size

在ImageNet預(yù)訓(xùn)練模型的特征提取過程中使用的標(biāo)準(zhǔn)圖像大小為448×448，丟棄了縱橫比；而對于自下而上注意力中的VG檢測，默認尺寸為600×1000，同時保持縱橫比不變。作者對不同的組合進行了實驗，下表為實驗結(jié)果結(jié)果。從結(jié)果可以看出，對于網(wǎng)格特性，更大的輸入大小意味著VQA模型有更多的特性。

Pre-Training Task

研究在ImageNet（分類）和VG（detection）中由于預(yù)訓(xùn)練任務(wù)而導(dǎo)致的VQA精確度的差異。為了更好地理解這些差異，作者在每個環(huán)境中引入了一個額外的預(yù)訓(xùn)練模型。對于分類，包括了一個在YFCC上訓(xùn)練過的模型，它有92M張帶有圖像標(biāo)簽的圖像。對于檢測，包括一個來自COCO的標(biāo)準(zhǔn)模型，它只有對象注釋（沒有屬性）。所有型號都使用ResNet-50主干網(wǎng)進行公平比較。結(jié)果見下表。

總結(jié)

在文章中，作者重新討論網(wǎng)格特征，作為視覺和語言任務(wù)中廣泛使用的自下而上區(qū)域特征的替代方法，結(jié)果表明，二者的效果不相上下。作者也發(fā)現(xiàn)，相對于特征的“格式”（區(qū)域與網(wǎng)格），特征所代表的語義內(nèi)容對其有效性更為關(guān)鍵，而這種有效的表示可以通過對對象和屬性數(shù)據(jù)集（如VG）的預(yù)訓(xùn)練來實現(xiàn)。

OpenKG

開放知識圖譜（簡稱 OpenKG）旨在促進中文知識圖譜數(shù)據(jù)的開放與互聯(lián)，促進知識圖譜和語義技術(shù)的普及和廣泛應(yīng)用。

點擊閱讀原文，進入 OpenKG 博客。

總結(jié)

以上是生活随笔為你收集整理的论文浅尝 - CVPR2020 | 基于网格特征的可视问答系统的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：论文浅尝 | AMUSE: 基于 RDF
下一篇：征稿 | 软件学报专刊征文：知识赋能的信