TextVQA论文汇总
生活随笔
收集整理的這篇文章主要介紹了
TextVQA论文汇总
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
目錄
- CVPR2019:LoRRA(數(shù)據(jù)集)
- ICCV2019:ST-VQA(數(shù)據(jù)集)
CVPR2019:LoRRA(數(shù)據(jù)集)
- 題目
Towards VQA Models That Can Read
下載鏈接
出自Facebook AI研究院 - 動機(jī)
視覺障礙者對于VQA的需求主要圍繞于閱讀圖片上的問題,但是現(xiàn)有的VQA模型并沒有這個功能。故本文提出了一個全新的數(shù)據(jù)集“TextVQA”,并基于此數(shù)據(jù)集提出了可以利用圖片上文字信息進(jìn)行VQA的方法LoRRA。
- 貢獻(xiàn)
- 方法
本文方法的整體框架如下圖所示,共分為三個部分:對問題編碼、提取圖片特征、提取圖片文字(OCR)。方法的流程一目了然,只是在傳統(tǒng)的VQA方法上,添加了OCR模塊提取圖片中的文字信息,并在answer set中添加了OCR token。
TextVQA數(shù)據(jù)集的一些樣本:
TextVQA數(shù)據(jù)集中,question中的word分布如下圖所示。其中,以"what"開始的詞比較多。
- 實驗
在TextVQA數(shù)據(jù)集上的實驗結(jié)果。其中,QQQ代表Question特征,III代表Image特征,OOO代表OCR token特征,CCC代表Copy Module。
ICCV2019:ST-VQA(數(shù)據(jù)集)
- 題目
Scene Text Visual Question Answering
下載鏈接 - 動機(jī)
當(dāng)前的VQA中,沒有考慮圖像中的文本信息。而作者認(rèn)為,文本作為高級語義信息,應(yīng)在VQA中占有一席之地,故提出ST-VQA數(shù)據(jù)集,并在此數(shù)據(jù)集上定義了一系列較難的任務(wù)。在這些任務(wù)中,需要考慮到上下文中的文本信息。同時,針對這些任務(wù),本文提出了新的metric,可以同時考慮文本識別模塊的推理錯誤和缺陷。
- 貢獻(xiàn)
- 方法
如下圖所示,ST-VQA數(shù)據(jù)集從六個不同的數(shù)據(jù)集搜集了共包括23038張圖像和31791個問題,其中,訓(xùn)練集為19027/26308,測試集為2993/4163。
下圖是ST-VQA數(shù)據(jù)中question和answer的單詞長度的分布情況,和Text-VQA進(jìn)行了對比,兩個數(shù)據(jù)集的分布很相似。
下圖是ST-VQA數(shù)據(jù)集中,question中單詞的使用頻率分布,what 的使用頻率最高。
下圖是對于不同類型的問題,answer的分布情況。可以看出,對于不同類型的問題,answer的分布都較為平均。
- 實驗
下圖是一些baselines在ST-VQA數(shù)據(jù)集上的實驗結(jié)果,其中,ANLS代表Average Normalized Levenshtein similarity(平均正則化編輯距離),是本文針對ST-VQA數(shù)據(jù)集提出的新metric。本文提出了三種不同的Task,分別是:strongly contextualised(強(qiáng)上下文)、weakly contextualised(弱上下文)和open vocabulary(開放詞匯)。這三種不同的task使用不同的先驗知識(字典)。對于強(qiáng)上下文,每張圖片具有自己的字典,字典中包括100個單詞。對于弱上下文,所有圖片共用一個大的字典,字典中包括30000個單詞,其中22000個是ground truth,其他的是干擾項。對于開放詞匯,字典是空的,即:沒有先驗知識。
在上述實驗結(jié)果中,Random代表從字典中隨機(jī)抽取一個作為答案。STR的全稱是Scene Text Recognition(場景文本識別),STR(retrieval)和STR(bbox)使用了兩種不同的策略,前者使用特定的任務(wù)字典作為給定圖像的查詢,后者針對圖像中最大的文本示例提出問題。Scene Image OCR將檢測到的文本排序輸出置信度最高的。SAAA是一個標(biāo)準(zhǔn)的VQA模型結(jié)構(gòu),使用CNN+LSTM。SAN也是標(biāo)準(zhǔn)的VQA模型結(jié)構(gòu),使用預(yù)訓(xùn)練的VGG提取圖像特征,使用LSTM提取question特征。
在task3上,不同方法的在不同類型問題上的準(zhǔn)確率展示。
在task1上的結(jié)果展示:
總結(jié)
以上是生活随笔為你收集整理的TextVQA论文汇总的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。