日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

TextVQA论文汇总

發布時間:2025/3/15 编程问答 23 豆豆
生活随笔 收集整理的這篇文章主要介紹了 TextVQA论文汇总 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

目錄

  • CVPR2019:LoRRA(數據集)
  • ICCV2019:ST-VQA(數據集)

CVPR2019:LoRRA(數據集)

  • 題目
    Towards VQA Models That Can Read
    下載鏈接
    出自Facebook AI研究院
  • 動機
    視覺障礙者對于VQA的需求主要圍繞于閱讀圖片上的問題,但是現有的VQA模型并沒有這個功能。故本文提出了一個全新的數據集“TextVQA”,并基于此數據集提出了可以利用圖片上文字信息進行VQA的方法LoRRA。
  • 貢獻
  • 提出TextVQA數據集。
  • 提出LoRRA方法(Look、Read、Reason & Answer),可以基于OCR的輸出進行顯式推理。
  • 在TextVQA數據集上,LoRRA方法可以達到state-of-the-art。
    • 方法
      本文方法的整體框架如下圖所示,共分為三個部分:對問題編碼、提取圖片特征、提取圖片文字(OCR)。方法的流程一目了然,只是在傳統的VQA方法上,添加了OCR模塊提取圖片中的文字信息,并在answer set中添加了OCR token。

      TextVQA數據集的一些樣本:

      TextVQA數據集中,question中的word分布如下圖所示。其中,以"what"開始的詞比較多。
    • 實驗
      在TextVQA數據集上的實驗結果。其中,QQQ代表Question特征,III代表Image特征,OOO代表OCR token特征,CCC代表Copy Module。

    ICCV2019:ST-VQA(數據集)

    • 題目
      Scene Text Visual Question Answering
      下載鏈接
    • 動機
      當前的VQA中,沒有考慮圖像中的文本信息。而作者認為,文本作為高級語義信息,應在VQA中占有一席之地,故提出ST-VQA數據集,并在此數據集上定義了一系列較難的任務。在這些任務中,需要考慮到上下文中的文本信息。同時,針對這些任務,本文提出了新的metric,可以同時考慮文本識別模塊的推理錯誤和缺陷。
    • 貢獻
  • 提出ST-VQA數據集,數據集中的問題和答案只能通過圖像中的文本來回答。
  • 提出了三種不同難度的任務,模擬不同程度上的先驗知識(上下文信息)。
  • 提出了一個新的metric,用于判別模型的準確性。
    • 方法
      如下圖所示,ST-VQA數據集從六個不同的數據集搜集了共包括23038張圖像和31791個問題,其中,訓練集為19027/26308,測試集為2993/4163。

      下圖是ST-VQA數據中question和answer的單詞長度的分布情況,和Text-VQA進行了對比,兩個數據集的分布很相似。

      下圖是ST-VQA數據集中,question中單詞的使用頻率分布,what 的使用頻率最高。

      下圖是對于不同類型的問題,answer的分布情況。可以看出,對于不同類型的問題,answer的分布都較為平均。
    • 實驗
      下圖是一些baselines在ST-VQA數據集上的實驗結果,其中,ANLS代表Average Normalized Levenshtein similarity(平均正則化編輯距離),是本文針對ST-VQA數據集提出的新metric。本文提出了三種不同的Task,分別是:strongly contextualised(強上下文)、weakly contextualised(弱上下文)和open vocabulary(開放詞匯)。這三種不同的task使用不同的先驗知識(字典)。對于強上下文,每張圖片具有自己的字典,字典中包括100個單詞。對于弱上下文,所有圖片共用一個大的字典,字典中包括30000個單詞,其中22000個是ground truth,其他的是干擾項。對于開放詞匯,字典是空的,即:沒有先驗知識。

      在上述實驗結果中,Random代表從字典中隨機抽取一個作為答案。STR的全稱是Scene Text Recognition(場景文本識別),STR(retrieval)和STR(bbox)使用了兩種不同的策略,前者使用特定的任務字典作為給定圖像的查詢,后者針對圖像中最大的文本示例提出問題。Scene Image OCR將檢測到的文本排序輸出置信度最高的。SAAA是一個標準的VQA模型結構,使用CNN+LSTM。SAN也是標準的VQA模型結構,使用預訓練的VGG提取圖像特征,使用LSTM提取question特征。

      在task3上,不同方法的在不同類型問題上的準確率展示。

      在task1上的結果展示:

    總結

    以上是生活随笔為你收集整理的TextVQA论文汇总的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。