日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

One-Stage Visual Grounding论文汇总

發(fā)布時間:2025/3/15 编程问答 17 豆豆
生活随笔 收集整理的這篇文章主要介紹了 One-Stage Visual Grounding论文汇总 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

目錄

  • 現(xiàn)有方法
    • 2017 arXiv
      • 題目
      • 動機
      • 簡介
    • 2017 CVPR
      • 題目
      • 動機
      • 簡介
    • 2017 CVPR
      • 題目
      • 動機
      • 簡介
    • 2017 IJCAI
      • 題目
      • 動機
      • 簡介
    • 2018 arXiv
      • 題目
      • 動機
      • 簡介
    • 2018 CVPR
      • 題目
      • 動機
      • 簡介
    • 2019 ICCV
      • 題目
      • 動機
      • 簡介
    • 2019 ICCV
      • 題目
    • 2019 WACV
      • 題目
      • 動機
      • 簡介
    • 2020 CVPR
      • 題目
      • 動機
      • 簡介
    • 2020 ECCV
      • 題目
      • 動機
      • 簡介
    • 2020 ECCV
      • 題目
    • 2020 ECCV
      • 題目
    • xxx
      • 題目
      • 動機
      • 簡介
  • 總結
    • one-stage解決的問題
    • one-stage方法的好處

現(xiàn)有方法

2017 arXiv

題目

An End-to-End Approach to Natural Language Object Retrieval via Context-Aware Deep Reinforcement Learning
下載鏈接

動機

本文面向natural language object retrieval任務,已有方法分為兩階段,先提取proposals,再生成每個proposal的score并排序。這樣生成的proposals是冗余的,且和referred object不相關。具體來說,已有方法(proposal based)有以下缺點:

  • 兩個階段相互獨立,訓練過程沒有對齊,導致結果為次優(yōu)解。
  • 這類方法需要提取很多的proposals來保證recall,這造成了冗余,并降低了ranking function的判別能力。

簡介

將文本特征和圖像特征融合,再使用強化學習進行定位。



2017 CVPR

題目

A Joint Speaker-Listener-Reinforcer Model for Referring Expressions
下載鏈接

動機

Generation和Comprehension是兩個獨立逆任務,現(xiàn)有的方法都是單獨針對某個任務進行。本文將兩個逆任務聯(lián)合,并添加強化學習策略,達到了更優(yōu)的實驗結果。

簡介

Speaker負責生成文本描述,Listener負責理解文本描述,Reinforcer負責控制采樣,使Speaker生成的expressions具有多樣性。在訓練完成后,Speaker和Listener都可以單獨用于grounding任務。對于Speaker,使用每個region生成expression,取與query相似度最高的expression對應的region作為結果。對于Listener,直接計算每個region和query的相似度,選score最大的即可。


2017 CVPR

題目

Weakly-supervised Visual Grounding of Phrases with Linguistic Structures
下載鏈接

動機

傳統(tǒng)的監(jiān)督框架,依賴于帶有邊框或像素級別標注的數(shù)據(jù)集,而隨著領域朝著解決更大規(guī)模問題的方向發(fā)展,獲取大量的這類標注數(shù)據(jù)成為了瓶頸。本文應對以上問題,提出了弱監(jiān)督的視覺定位方法,可以基于圖像等級的標注(沒有region-phrase標注)進行訓練,生成像素級別的grounding結果。

簡介

本文是第一個用語言層級結構進行弱監(jiān)督視覺定位的方法。文中使用了兩個loss,分別是structural loss和discriminative loss。前者用于使文本短語編碼的結構和視覺注意力掩碼相匹配,后者用于匹配image-phrase pairs。


2017 IJCAI

題目

An Attention-based Regression Model for Grounding Textual Phrases in Images
下載鏈接

動機

現(xiàn)有方法基于proposals,模型的最終性能取決于生成proposals的方法,這類方法也帶來了額外的計算成本。本文將grounding視為一個回歸問題,提出了可以直接識別短語對應區(qū)域的方法,省去了生成proposals帶來的計算量。作者總結了proposal based方法的缺點:

  • 正確的region不一定包含在proposals中。
  • 對不包含正確region的proposals進行ranking是很困難的。

簡介

方法如圖,沒什么好說的。


2018 arXiv

題目

Real-Time Referring Expression Comprehension by Single-Stage Grounding Network
下載鏈接

動機

現(xiàn)有方法為三階段,①生成proposals;②對兩種模態(tài)進行encode;③基于matching score進行ranking。經(jīng)過作者統(tǒng)計,這類方法第一步會耗費較多時間,因此并不適用于有實時需求的場景。

簡介

方法看圖即懂。


2018 CVPR

題目

Multi-level Multimodal Common Semantic Space for Image-Phrase Grounding
下載鏈接

動機

現(xiàn)有方法沒有完全挖掘多模態(tài)表示和映射空間,本文提出multi-level多模態(tài)注意力機制,可以在不同的語義等級下,生成word-level或sentence-level的注意力圖。

簡介

下圖是本文方法的大致流程,具體的模塊設計參見論文。


2019 ICCV

題目

A Fast and Accurate One-Stage Approach to Visual Grounding
下載鏈接

動機

兩階段方法依賴于proposals的質量,如果在第一階段生成的proposals沒有很好的cover ground truth,那么二階段是沒有意義的。且所有的proposals只有1-2個是正確的,浪費了很多計算資源處理錯誤的proposals。

簡介

針對上述問題,本文提出在YOLOv3中嵌入文本查詢信息,在準確性和速度上都取得了不錯的結果。


2019 ICCV

題目

Zero-Shot Grounding of Objects from Natural Language Queries
參考鏈接

2019 WACV

題目

Interpretable Visual Question Answering by Visual Grounding from Attention Supervision Mining
下載鏈接

動機

在VQA問題中,對生成answer的同時,得到relevant regions是很有必要的,這在一定程度上可以驗證模型的可解釋性。已有的方法通過注意力機制,高亮和answer相關的區(qū)域,注意力機制的使用方法可以分為了兩類:①在模型的中間部分使用注意力,不需要監(jiān)督信息,依靠模型的最終輸出進行訓練;②在模型的輸出部分使用注意力,需要使用額外監(jiān)督信息。針對第①類方法,模型學到的注意力往往提供不了可解釋信息;針對第②類方法,標注信息較為昂貴,且標注人員和我們的關注點可能不同,會帶來歧義。

簡介

本文利用Visual Genome數(shù)據(jù)集中的region descriptions和object annotations自動構建可用于注意力監(jiān)督的attention map。

本文主要的創(chuàng)新點在Attention Supervision Module,即聯(lián)合visual grounding作為輔助。


2020 CVPR

題目

A Real-Time Cross-modality Correlation Filtering Method for Referring Expression Comprehension
下載鏈接

動機

現(xiàn)有方法由于采用兩階段框架(proposal generation、proposal ranking),在不降低精度的同時,無法達到實時推理。本文從以上問題出發(fā),提出RCCF方法,可以在單GPU上達到40FPS,約為two-stage方法的兩倍。

簡介

作者將相關濾波融入多模態(tài)任務中,讓我有一種這是tracking方法的感覺。


2020 ECCV

題目

Improving One-stage Visual Grounding by Recursive Sub-query Construction
下載鏈接

動機

現(xiàn)有的visual grounding方法可以分為兩類:一階段、兩階段。本文面向一階段方法,提升現(xiàn)有方法處理長(long)、復雜(complex)query的能力。本質是:本文提出了一個可以用在一階段visual grounding模型中的query modeling方法(兩階段模型中有很多query modeling方法,但是由于一些限制,不能直接用于一階段模型)。

簡介

下圖中,子查詢學習器負責學習Query中每個word的注意力,子查詢調制器負責基于子查詢學習器得到的注意力,對text-conditional visual feature進行refine,增強referred object的特征,并壓制其他object的特征。本文方法的詳細介紹參見這篇博客


2020 ECCV

題目

Linguistic Structure Guided Context Modeling for Referring Image Segmentation
參考鏈接

2020 ECCV

題目

Propagating Over Phrase Relations for One-Stage Visual Grounding
參考鏈接

xxx

題目

下載鏈接

動機

簡介


總結

one-stage解決的問題

  • 兩階段方法存在較多冗余的proposals,浪費計算資源,無法達到實時 →\rightarrow 更快的方法
  • 兩階段方法依賴于proposals質量 →\rightarrow 更準的方法

one-stage方法的好處

  • 速度快
  • 更符合人類的認知過程

總結

以上是生活随笔為你收集整理的One-Stage Visual Grounding论文汇总的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內容還不錯,歡迎將生活随笔推薦給好友。