日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Visual Question Answering概述

發(fā)布時間:2025/3/15 编程问答 51 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Visual Question Answering概述 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

目錄

  • 任務描述
  • 應用領域
  • 主要問題
  • 主流框架
  • 常用數據集
  • Metrics

部分數據集介紹摘自這篇博客

任務描述

  • 輸入:圖片III、由nnn個單詞組成的問題Q={q1,...,qn}Q=\{ q_1,...,q_n \}Q={q1?,...,qn?}
  • 輸出:由mmm個單詞組成的問題的答案A={a1,...,am}A=\{ a_1,...,a_m \}A={a1?,...,am?}

應用領域

  • 盲人導航
  • 圖靈測試

主要問題

  • 魯棒性差
    模型的魯棒性差可多個方面體現,如缺乏可解釋性、回答不一致等。造成這個問題的原因也是多方面的,如訓練集和測試集的分布不同、語言先驗等。所以魯棒性差算是一個比較籠統、大范圍的概念。
    已有方法:反事實、遷移學習、場景圖等(太多方法可以提高模型的魯棒性了)
    參考文獻:[1] CVPR 2020 Towards Causal VQA Revealing and Reducing Spurious Correlations by Invariant and Covariant Semantic Editing

  • 可解釋性
    已有方法:關系推理、場景圖
    參考文獻:[1] CVPR 2019 Explainable and Explicit Visual Reasoning over Scene Graphs
    ? ? ? ? ? ? ? ? ?[2] ICCV 2019 Language-Conditioned Graph Networks for Relational Reasoning

  • 回答一致性
    已有方法:新數據集VQA-Rephrasings、SQuINTing
    參考文獻:[1] CVPR2019 Cycle-Consistency for Robust Visual Question Answering
    ? ? ? ? ? ? ? ? ?[2] CVPR 2020 SQuINTing at VQA Models: Introspecting VQA Models with Sub-Questions

  • 訓練集和測試集分布不一致(衍生問題:出現out-of-vocabulary answer)
    已有方法:使用Self-Critical Reasoning提高influential objects的sensitivity、遷移學習、反事實
    參考文獻:[1] CVPR 2019 Self-Critical Reasoning for Robust Visual Question Answering
    ? ? ? ? ? ? ? ? ?[2] CVPR 2019 Transfer Learning via Unsupervised Task Discovery
    ? ? ? ? ? ? ? ? ?[3] CVPR 2020 Counterfactual Samples Synthesizing for Robust Visual Question Answering

  • 語言先驗
    已有方法:問題分解
    參考文獻:[1] AAAI 2020 Overcoming Language Priors in VQA via Decomposed Linguistic Representations
    ? ? ? ? ? ? ? ? ?[2] CVPR 2018 Dont just assume; look and answer: Overcoming priors for visual question answering

  • 跨模態(tài)交互(新視角)
    已有方法:轉化為機器閱讀理解任務、提取不同模態(tài)信息的summarizations
    參考文獻:[1] CVPR 2019 Visual Question Answering as Reading Comprehension
    ? ? ? ? ? ? ? ? ?[2] ICCV 2019 Multi-modality Latent Interaction Network for Visual Question Answering

  • domain拓展性
    已有方法:No Questions-Answers Training(使用問題圖生成問題,構造無意義的答案)
    參考文獻:[1] CVPR 2020 VQA with No Questions-Answers Training

  • 組合泛化
    已有方法:NMNs、neural factor graphs
    參考文獻:[1] NeurlPS 2020 Multimodal Graph Networks for Compositional Generalization in Visual Question Answering
    ? ? ? ? ? ? ? ? ?[2] CVPR 2016 Neural Module Networks

主流框架

①. 使用faster rcnn提取圖片中的regions
②. 使用LSTM/Transformer對question進行encode
③. 跨模態(tài)交互,得到answer

常用數據集

  • CLEVR,合成數據集,是由一些簡單的幾何形狀構成的視覺場景。數據集中的問題總是需要一長串的推理過程,為了對推理能力進行詳細評估,所有問題分為了5類:屬性查詢(querying attribute),屬性比較(comparing attributes),存在性(existence),計數(counting),整數比較(integer comparison)。
    下載鏈接
    論文原文
  • VQA v1,人工標注的開放式問答數據集,但是VQAv1有很多類語言偏見(bias)。
    下載鏈接
    論文原文
  • VQA v2,人工標注的開放式問答數據集,相較于VQAv1盡量減少了語言偏見(為每個問題補充了圖片),但是仍存在一些偏見。
    下載鏈接
    論文原文
  • VQA-CP v2,該數據集通過將VQA 2.0的訓練集和驗證集重新劃分,得到新的訓練集和測試集,包含219K張圖像數據、658K條問題數據、6.6M答案數據。
    下載鏈接
    論文原文
  • FVQA,該數據集不僅有圖像和QA pairs,還有外部知識(extra knowledge),知識庫有193, 449個事實句子,包含圖像2190張,問題5826個,整個數據集分成了5個train/test集,每個集合包含1100張訓練圖像和1090張測試圖像,分別有2927和2899個問題,問題總共可以分成32類。
    下載鏈接
    論文原文
  • COCO-QA,QA pairs是由NLP算法生成的,圖像來自COCO數據集,一共有78736個訓練QA pairs和38948個測試QA pairs,大部分的問題是關于圖像中的目標(69.84%),其他問題是關于顏色(16.59%),計數(7.47%),位置(6.10%)。所有問題的答案都是一個單詞,只有435個獨一無二的答案。數據集最大的缺點在于QA pairs是用NLP算法生成的,是將長句子劃分成短句子處理的,這就忽視了句子中的語法和從句問題,算法結果不夠智能;另外,數據集只有4類問題。
    下載鏈接
    論文原文
  • TDIUC,該數據集嘗試解決語言偏見,將問題分成了12類。
    下載鏈接
    論文原文
  • Visual Genome,包含圖像108077張和1445233個QA Pairs,圖像來源是YFCC100M和COCO數據集,共有約540萬張圖像中的區(qū)域描述信息,這些信息能夠達到精細的語義層次,問題類型是6W(what, where, how, when, who, why),數據集并沒有對訓練和測試數據進行切分。QA的收集有兩種方法,一種是隨意人為提問(會出現相似問題或對圖像全局內容提問),另一種是針對圖像中的特定區(qū)域提問。該數據集中沒有二值類問題。
    下載鏈接
    論文原文
  • Visual7W,是Visual Genome的一個子集,包含47,300張圖像。Visual7W的問題主要由What, Where, How, When, Who,Why, and Which構成。Visual7W的問題是多選問題,每個問題都有四個候選答案。
    下載鏈接
    論文原文
  • GQA,2019年提出的數據集,其dataset bias低,重視推理能力和組合式語言理解能力,提出了新的metric(Consistency、Validity、Plausibility、Distribution、Grounding)。
    下載鏈接
    論文原文
  • VQA-Rephrasing,2019年提出的數據集,注重問題回答一致性。
    下載鏈接
    論文原文
  • SQuINTing,2020年提出的數據集,將問題進行分類,有些問題需要回答“先驗”問題,以保證模型回答的一致性。
    下載鏈接
    論文原文
  • EST-VQA,2020年提出的場景文本數據集。
    下載鏈接
    論文原文

Metrics

  • 準確率:有更細致的劃分——Yes/No、Numbers、Others
  • WUPS(n)(Wu-Palmer Similarity):根據兩個單詞在一個分類樹中的最長公共子序列來計算相似性。如果預測單詞和標準答案單詞的相似性低于設定的閾值(n),則候選答案的評分為0。
  • Consistency:考察模型回答問題的一致性,對于同一張圖片的不同問題,回答不應該自相矛盾。
  • Validity:考察模型回答問題的有效性,如顏色相關的問題,模型的回答應該是一種顏色。
  • Plausibility:考察模型回答問題的合理性,如蘋果有紅色和綠色,但是沒有紫色的,所以在問蘋果顏色時,不能出現紫色的答案。
  • Distribution:考察預測答案的分布與真實答案的分布之間的距離,如果模型只預測那些經常出現的答案,忽略出現次數少的答案,則此分數較低。
  • Grounding:考察模型是否將attention放在了準確的區(qū)域。

總結

以上是生活随笔為你收集整理的Visual Question Answering概述的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 一区二区三区www污污污网站 | 处破痛哭a√18成年片免费 | 中文字幕视频免费观看 | 黄色二级毛片 | 色婷婷综合久久久久中文 | 欧美一级特黄aa大片 | 免费av看 | 成人亚洲天堂 | www.久久 | 黄色影音 | 国产成人一区二区三区 | 午夜激情毛片 | 国产女主播喷水视频在线观看 | japanese24hdxxxx中文字幕 | 国产成人精品在线 | 日本毛片视频 | 美国伊人网| 星空无限mv国产剧入选 | 三级黄色网络 | 美女看片 | 欧美日韩另类在线 | 日本一区二区三区四区五区 | 成人精品久久 | 精品一区二区三区精华液 | 少妇久久久久久久 | 丰满人妻一区二区 | 日本特黄特色aaa大片免费 | 欧美视频一区 | 国产东北真实交换多p免视频 | 精品一区二区三区四区五区 | а√天堂www在线天堂小说 | 国产乱强伦一区二区三区 | 97成人在线 | 亚洲AV无码精品一区二区三区 | 全黄一级片 | 亚洲男女在线观看 | 国产黄色小视频在线观看 | 97人妻精品视频一区 | av日韩中文字幕 | 亚洲视频精品在线 | 91xxx在线观看 | 91日韩一区二区 | 亚洲mv一区 | 欧美人成在线 | 97高清国语自产拍 | 日韩日日夜夜 | 欧美另类色图 | 亚洲成熟少妇视频在线观看 | 五月婷婷欧美 | 中国少妇乱子伦视频播放 | 成人第四色 | 精品视频大全 | 天天操天天艹 | 影音先锋伦理片 | 日韩成人无码影院 | 青草视频在线观看免费 | 欧美日韩不卡合集视频 | 久久久亚洲 | 国产一区二区视频在线免费观看 | 黑人操中国女人视频 | 久久综合伊人77777麻豆最新章节 | 神马午夜伦 | 欧美黄色录像视频 | 2024国产精品视频 | 捆绑无遮挡打光屁股 | 久久加久久| 99精品久久毛片a片 成人网一区 | 日韩精品一区二区在线视频 | 午夜激情免费视频 | 国产视频自拍一区 | 美女靠逼视频网站 | 最新地址在线观看 | 国产欧美又粗又猛又爽 | 日本成人在线免费视频 | 久久精品国产视频 | www.中文字幕在线观看 | 亚洲AV无码成人精品国产一区 | 亚洲v欧美| 97干干干| 在线中文字幕亚洲 | xx99小雪| 一级特黄aaaaaa大片 | 九九热在线视频免费观看 | av网页在线 | 2024av| 国产成a人亚洲精v品在线观看 | 免费无码一区二区三区 | 亚洲久热| 亚洲无码一区二区三区 | 亚洲一区二区三区视频 | 开心激情综合网 | 亚洲国产网 | 欧美第一页在线观看 | 一区二区三区国 | 九九免费视频 | 五月天激情开心网 | xxx日本少妇 | 99er精品视频 | 欧美tv |