日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

TextVQA论文汇总

發(fā)布時間:2025/3/15 编程问答 20 豆豆
生活随笔 收集整理的這篇文章主要介紹了 TextVQA论文汇总 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

目錄

  • CVPR2019:LoRRA(數(shù)據(jù)集)
  • ICCV2019:ST-VQA(數(shù)據(jù)集)

CVPR2019:LoRRA(數(shù)據(jù)集)

  • 題目
    Towards VQA Models That Can Read
    下載鏈接
    出自Facebook AI研究院
  • 動機(jī)
    視覺障礙者對于VQA的需求主要圍繞于閱讀圖片上的問題,但是現(xiàn)有的VQA模型并沒有這個功能。故本文提出了一個全新的數(shù)據(jù)集“TextVQA”,并基于此數(shù)據(jù)集提出了可以利用圖片上文字信息進(jìn)行VQA的方法LoRRA。
  • 貢獻(xiàn)
  • 提出TextVQA數(shù)據(jù)集。
  • 提出LoRRA方法(Look、Read、Reason & Answer),可以基于OCR的輸出進(jìn)行顯式推理。
  • 在TextVQA數(shù)據(jù)集上,LoRRA方法可以達(dá)到state-of-the-art。
    • 方法
      本文方法的整體框架如下圖所示,共分為三個部分:對問題編碼、提取圖片特征、提取圖片文字(OCR)。方法的流程一目了然,只是在傳統(tǒng)的VQA方法上,添加了OCR模塊提取圖片中的文字信息,并在answer set中添加了OCR token。

      TextVQA數(shù)據(jù)集的一些樣本:

      TextVQA數(shù)據(jù)集中,question中的word分布如下圖所示。其中,以"what"開始的詞比較多。
    • 實驗
      在TextVQA數(shù)據(jù)集上的實驗結(jié)果。其中,QQQ代表Question特征,III代表Image特征,OOO代表OCR token特征,CCC代表Copy Module。

    ICCV2019:ST-VQA(數(shù)據(jù)集)

    • 題目
      Scene Text Visual Question Answering
      下載鏈接
    • 動機(jī)
      當(dāng)前的VQA中,沒有考慮圖像中的文本信息。而作者認(rèn)為,文本作為高級語義信息,應(yīng)在VQA中占有一席之地,故提出ST-VQA數(shù)據(jù)集,并在此數(shù)據(jù)集上定義了一系列較難的任務(wù)。在這些任務(wù)中,需要考慮到上下文中的文本信息。同時,針對這些任務(wù),本文提出了新的metric,可以同時考慮文本識別模塊的推理錯誤和缺陷。
    • 貢獻(xiàn)
  • 提出ST-VQA數(shù)據(jù)集,數(shù)據(jù)集中的問題和答案只能通過圖像中的文本來回答。
  • 提出了三種不同難度的任務(wù),模擬不同程度上的先驗知識(上下文信息)。
  • 提出了一個新的metric,用于判別模型的準(zhǔn)確性。
    • 方法
      如下圖所示,ST-VQA數(shù)據(jù)集從六個不同的數(shù)據(jù)集搜集了共包括23038張圖像和31791個問題,其中,訓(xùn)練集為19027/26308,測試集為2993/4163。

      下圖是ST-VQA數(shù)據(jù)中question和answer的單詞長度的分布情況,和Text-VQA進(jìn)行了對比,兩個數(shù)據(jù)集的分布很相似。

      下圖是ST-VQA數(shù)據(jù)集中,question中單詞的使用頻率分布,what 的使用頻率最高。

      下圖是對于不同類型的問題,answer的分布情況。可以看出,對于不同類型的問題,answer的分布都較為平均。
    • 實驗
      下圖是一些baselines在ST-VQA數(shù)據(jù)集上的實驗結(jié)果,其中,ANLS代表Average Normalized Levenshtein similarity(平均正則化編輯距離),是本文針對ST-VQA數(shù)據(jù)集提出的新metric。本文提出了三種不同的Task,分別是:strongly contextualised(強(qiáng)上下文)、weakly contextualised(弱上下文)和open vocabulary(開放詞匯)。這三種不同的task使用不同的先驗知識(字典)。對于強(qiáng)上下文,每張圖片具有自己的字典,字典中包括100個單詞。對于弱上下文,所有圖片共用一個大的字典,字典中包括30000個單詞,其中22000個是ground truth,其他的是干擾項。對于開放詞匯,字典是空的,即:沒有先驗知識。

      在上述實驗結(jié)果中,Random代表從字典中隨機(jī)抽取一個作為答案。STR的全稱是Scene Text Recognition(場景文本識別),STR(retrieval)和STR(bbox)使用了兩種不同的策略,前者使用特定的任務(wù)字典作為給定圖像的查詢,后者針對圖像中最大的文本示例提出問題。Scene Image OCR將檢測到的文本排序輸出置信度最高的。SAAA是一個標(biāo)準(zhǔn)的VQA模型結(jié)構(gòu),使用CNN+LSTM。SAN也是標(biāo)準(zhǔn)的VQA模型結(jié)構(gòu),使用預(yù)訓(xùn)練的VGG提取圖像特征,使用LSTM提取question特征。

      在task3上,不同方法的在不同類型問題上的準(zhǔn)確率展示。

      在task1上的結(jié)果展示:

    總結(jié)

    以上是生活随笔為你收集整理的TextVQA论文汇总的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。