日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 运维知识 > windows >内容正文

windows

论文浅尝 - CVPR2020 | 基于网格特征的可视问答系统

發(fā)布時間:2024/7/5 windows 39 豆豆
生活随笔 收集整理的這篇文章主要介紹了 论文浅尝 - CVPR2020 | 基于网格特征的可视问答系统 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

論文筆記整理:李爽,天津大學(xué)。


鏈接:https://arxiv.org/pdf/2001.03615v1.pdf


動機

隨著“自下而上”注意力的普及,基于邊界框(或區(qū)域)的視覺特征最近已經(jīng)超越了傳統(tǒng)的基于網(wǎng)格的卷積特征,成為視覺和語言任務(wù)的事實標(biāo)準(zhǔn)。然而,目前尚不清楚區(qū)域優(yōu)勢是否是自下而上的注意力成功的關(guān)鍵原因。作者重新審視了用于VQA的網(wǎng)格特性,發(fā)現(xiàn)它們的性能令人驚訝——在同樣的精度下,運行速度要快一個數(shù)量級。通過大量的實驗,作者驗證了這種觀察在不同的VQA模型(報告了最先進的VQA 2.0 test-std, 72.71)、數(shù)據(jù)集上都是正確的,并且可以很好地推廣到其他任務(wù),比如圖像描述。作者從頭到尾學(xué)習(xí)了VQA模型,從像素直接到答案,并證明了在訓(xùn)練前不使用任何區(qū)域標(biāo)注也可以實現(xiàn)較強的性能。


亮點

在基于邊界框的視覺特征已經(jīng)廣為應(yīng)用,替代了傳統(tǒng)的基于網(wǎng)格特征的現(xiàn)狀下,作者又重新審視了網(wǎng)格特征,將網(wǎng)格特征與區(qū)域特征進行實驗對比,探索二者的性能是否存在大的差異。


論文框架介紹

Bottom-Up Attention with Regions

自下而上的注意力方法使用了Faster R-CNN檢測模型。為了獲得像VQA這樣的任務(wù)的自下而上的注意力特征,需要兩個與區(qū)域相關(guān)的步驟:

1、區(qū)域選擇。

由于Faster R-CNN是一個兩級檢測器,因此在管道中進行兩次區(qū)域選擇。第一個是通過區(qū)域建議網(wǎng)絡(luò),它變形并選擇突出的候選“錨”作為感興趣的區(qū)域(RoIs)。另一個選擇作為后處理完成,以類的方式聚合頂部N個框。在這兩個步驟中,都使用了非最大抑制(NMS),保持分類分數(shù)最高的區(qū)域,并去除局部鄰域內(nèi)的其他近重復(fù)項。

2、區(qū)域特性計算。

給定第一階段的區(qū)域(最多數(shù)千個),使用RoIPool操作提取初始的區(qū)域級特征。然后,其他網(wǎng)絡(luò)層分別計算區(qū)域的輸出表示。最后,通過兩次選擇的區(qū)域特征被堆疊在一起作為自下而上的特征來表示圖像。

需要注意的是,由于VG數(shù)據(jù)集的復(fù)雜性和使用的特定Faster R-CNN檢測器,這兩個步驟都需要大量計算。相反,直接使用網(wǎng)格特性可以跳過或加速這些步驟,并提供潛在的顯著加速。

Grid Features from the Same Layer

將區(qū)域特征轉(zhuǎn)換為網(wǎng)格的最簡單的方法是看是否可以直接計算相同網(wǎng)絡(luò)層的輸出,但以共享的、完全卷積的方式。為此,進一步研究最初的自下而上的attention所使用的特定Faster R-CNN架構(gòu)。

Faster R-CNN是C4模型的一個變體,增加了一個用于屬性分類的分支。它將ResNet的權(quán)重劃分為兩個單獨的集合:給定一個輸入圖像,它首先使用ResNet到C4的較低的塊計算feature maps。這張feature map是所有區(qū)域共享的。然后,在14×14 RoIPool特征上分別應(yīng)用C5塊進行逐區(qū)域特征計算。然后,C5的輸出被AvgPool轉(zhuǎn)換為每個區(qū)域的最終向量,作為自下而上特征。由于最終的區(qū)域特征都來自C5,所以很容易將檢測器轉(zhuǎn)換回ResNet分類器,并使用相同的C5層作為我們的輸出網(wǎng)格特征。如圖說明了轉(zhuǎn)換過程。

1×1 RoIPool for Improved Grid Features

簡單地使用1×1 RoIPool對模型做一些最小的調(diào)整來改進網(wǎng)格特征。這意味著用一個向量來表示每個區(qū)域,而不是在Faster R-CNN中使用一個三維張量。雖然這種修改對VG上的對象檢測性能有負面影響,但重要的是,使用1×1的RoIPool regions也意味著網(wǎng)格feature map上的每個向量必須單獨覆蓋一個空間區(qū)域的所有信息,這可能會導(dǎo)致更強的網(wǎng)格特征。

但是直接在原始模型上應(yīng)用1×1 RoIPool是有問題的,可能是因為C5由幾個ImageNet預(yù)先訓(xùn)練好的卷積層組成,這些層最適合特定空間維度的輸入。為了解決這個問題,作者在對象檢測和使用整個ResNet到C5作為共享特征計算骨干;對于區(qū)域級計算,在頂部放置兩個1024D全連接(FC)層,默認情況下接受向量作為輸入。

在使用C5匯聚的特征訓(xùn)練檢測器時,為了減少低分辨率的影響,將stride-2層替換為stride-1層,其余的層以2的倍數(shù)擴張。對于網(wǎng)格特征提取,移除這個膨脹并將其轉(zhuǎn)換回正常的ResNet。下圖為改進網(wǎng)格之后的轉(zhuǎn)換過程。

實驗

從這一部分開始,報告比較區(qū)域和網(wǎng)格的實驗結(jié)果。作者選擇VQA2.0作為感興趣的主要任務(wù),因為它目前是評估聯(lián)合視覺和語言理解的主要基準(zhǔn),并且具有清晰的評估指標(biāo)。為了進行分析,默認情況下,作者將Faster R-CNN與ResNet-50骨干網(wǎng)一起在ImageNet上進行預(yù)訓(xùn)練,主要結(jié)果如下表所示。

為了了解這些不同數(shù)量的區(qū)域特征如何影響精度,作者對不同數(shù)量的特征N進行了實驗,結(jié)果如下圖所示。

與以前的設(shè)置不同,作者使用trainval + vqa-eval進行訓(xùn)練。下表為對比結(jié)果。與直接使用卷積特征圖的網(wǎng)格特征不同,區(qū)域特征涉及區(qū)域選擇和區(qū)域特征計算的其他操作。對于基于區(qū)域的模型,這些額外的操作花費了總推理時間的98.3%。將作者的網(wǎng)格特征作為輸入的VQA模型比使用自下而上的區(qū)域特征的模型運行速度快48倍。

作者提出網(wǎng)格特征能夠work的原因有以下兩點:

Input Image Size

在ImageNet預(yù)訓(xùn)練模型的特征提取過程中使用的標(biāo)準(zhǔn)圖像大小為448×448,丟棄了縱橫比;而對于自下而上注意力中的VG檢測,默認尺寸為600×1000,同時保持縱橫比不變。作者對不同的組合進行了實驗,下表為實驗結(jié)果結(jié)果。從結(jié)果可以看出,對于網(wǎng)格特性,更大的輸入大小意味著VQA模型有更多的特性。

Pre-Training Task

研究在ImageNet(分類)和VG(detection)中由于預(yù)訓(xùn)練任務(wù)而導(dǎo)致的VQA精確度的差異。為了更好地理解這些差異,作者在每個環(huán)境中引入了一個額外的預(yù)訓(xùn)練模型。對于分類,包括了一個在YFCC上訓(xùn)練過的模型,它有92M張帶有圖像標(biāo)簽的圖像。對于檢測,包括一個來自COCO的標(biāo)準(zhǔn)模型,它只有對象注釋(沒有屬性)。所有型號都使用ResNet-50主干網(wǎng)進行公平比較。結(jié)果見下表。

總結(jié)

在文章中,作者重新討論網(wǎng)格特征,作為視覺和語言任務(wù)中廣泛使用的自下而上區(qū)域特征的替代方法,結(jié)果表明,二者的效果不相上下。作者也發(fā)現(xiàn),相對于特征的“格式”(區(qū)域與網(wǎng)格),特征所代表的語義內(nèi)容對其有效性更為關(guān)鍵,而這種有效的表示可以通過對對象和屬性數(shù)據(jù)集(如VG)的預(yù)訓(xùn)練來實現(xiàn)。

?


?

OpenKG

開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數(shù)據(jù)的開放與互聯(lián),促進知識圖譜和語義技術(shù)的普及和廣泛應(yīng)用。

點擊閱讀原文,進入 OpenKG 博客。

總結(jié)

以上是生活随笔為你收集整理的论文浅尝 - CVPR2020 | 基于网格特征的可视问答系统的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。