當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

TextVQA论文汇总

發布時間：2025/3/15 编程问答 23 豆豆

生活随笔收集整理的這篇文章主要介紹了 TextVQA论文汇总小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

CVPR2019：LoRRA（數據集）

題目
Towards VQA Models That Can Read
下載鏈接
出自Facebook AI研究院
動機
視覺障礙者對于VQA的需求主要圍繞于閱讀圖片上的問題，但是現有的VQA模型并沒有這個功能。故本文提出了一個全新的數據集“TextVQA”，并基于此數據集提出了可以利用圖片上文字信息進行VQA的方法LoRRA。
貢獻

提出TextVQA數據集。

提出LoRRA方法（Look、Read、Reason & Answer），可以基于OCR的輸出進行顯式推理。

在TextVQA數據集上，LoRRA方法可以達到state-of-the-art。

方法
本文方法的整體框架如下圖所示，共分為三個部分：對問題編碼、提取圖片特征、提取圖片文字（OCR）。方法的流程一目了然，只是在傳統的VQA方法上，添加了OCR模塊提取圖片中的文字信息，并在answer set中添加了OCR token。

TextVQA數據集的一些樣本：

TextVQA數據集中，question中的word分布如下圖所示。其中，以"what"開始的詞比較多。
實驗
在TextVQA數據集上的實驗結果。其中， $Q$ 代表Question特征， $I$ 代表Image特征， $O$ 代表OCR token特征， $C$ 代表Copy Module。

ICCV2019：ST-VQA（數據集）

題目
Scene Text Visual Question Answering
下載鏈接
動機
當前的VQA中，沒有考慮圖像中的文本信息。而作者認為，文本作為高級語義信息，應在VQA中占有一席之地，故提出ST-VQA數據集，并在此數據集上定義了一系列較難的任務。在這些任務中，需要考慮到上下文中的文本信息。同時，針對這些任務，本文提出了新的metric，可以同時考慮文本識別模塊的推理錯誤和缺陷。
貢獻

提出ST-VQA數據集，數據集中的問題和答案只能通過圖像中的文本來回答。

提出了三種不同難度的任務，模擬不同程度上的先驗知識（上下文信息）。

提出了一個新的metric，用于判別模型的準確性。

方法
如下圖所示，ST-VQA數據集從六個不同的數據集搜集了共包括23038張圖像和31791個問題，其中，訓練集為19027/26308，測試集為2993/4163。

下圖是ST-VQA數據中question和answer的單詞長度的分布情況，和Text-VQA進行了對比，兩個數據集的分布很相似。

下圖是ST-VQA數據集中，question中單詞的使用頻率分布，what 的使用頻率最高。

下圖是對于不同類型的問題，answer的分布情況。可以看出，對于不同類型的問題，answer的分布都較為平均。
實驗
下圖是一些baselines在ST-VQA數據集上的實驗結果，其中，ANLS代表Average Normalized Levenshtein similarity（平均正則化編輯距離），是本文針對ST-VQA數據集提出的新metric。本文提出了三種不同的Task，分別是：strongly contextualised（強上下文）、weakly contextualised（弱上下文）和open vocabulary（開放詞匯）。這三種不同的task使用不同的先驗知識（字典）。對于強上下文，每張圖片具有自己的字典，字典中包括100個單詞。對于弱上下文，所有圖片共用一個大的字典，字典中包括30000個單詞，其中22000個是ground truth，其他的是干擾項。對于開放詞匯，字典是空的，即：沒有先驗知識。

在上述實驗結果中，Random代表從字典中隨機抽取一個作為答案。STR的全稱是Scene Text Recognition（場景文本識別），STR(retrieval)和STR(bbox)使用了兩種不同的策略，前者使用特定的任務字典作為給定圖像的查詢，后者針對圖像中最大的文本示例提出問題。Scene Image OCR將檢測到的文本排序輸出置信度最高的。SAAA是一個標準的VQA模型結構，使用CNN+LSTM。SAN也是標準的VQA模型結構，使用預訓練的VGG提取圖像特征，使用LSTM提取question特征。

在task3上，不同方法的在不同類型問題上的準確率展示。

在task1上的結果展示：

總結

以上是生活随笔為你收集整理的TextVQA论文汇总的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

编程问答

TextVQA论文汇总

目錄

CVPR2019：LoRRA（數據集）

ICCV2019：ST-VQA（數據集）

總結