日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

2019年, video captioning论文汇总

發布時間:2025/3/15 编程问答 14 豆豆
生活随笔 收集整理的這篇文章主要介紹了 2019年, video captioning论文汇总 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

目錄

  • CVPR2019:GRU
  • CVPR2019:OA-BTG
  • CVPR2019:MLE+HybirdDis
  • CVPR2019:MARN
  • CVPR2019:SDVC
  • AAAI2019:FCVC-CF&IA
  • AAAI2019:TAMoE
  • AAAI2019:MGSA
  • AAAI2019:TDConvED
  • ICCV2019:POSSG-GFN
  • ICCV2019:SRL-VCT
  • ICCVW2019:Tale
  • ICCVW2019:EtENet-IRv2
  • IJCAI2019:ViCap(new task)
  • TCSVT2019:DS-RNN
  • TIP2019:CAM-RNN
  • TMM2019:STAT

CVPR2019:GRU

  • 題目
    Spatio-Temporal Dynamics and Semantic Attribute Enriched Visual Encoding for Video Captioning
    下載鏈接
  • 動機
    現有的方法主要關注使用RNN生成captions,visual features都是直接通過CNN提取。作者認為visual features也是很重要的,于是提出使用層級快速傅里葉變換得到視頻的時序信息。此外,本文還從object detector中獲取高級語義信息。
  • 貢獻
  • 本文提出一種visual encoding技術,可以有效的編碼video的時空信息,并將相關的高級語義信息嵌入到visual codes中。
  • 本文提取的visual features中包含objects的屬性、出現頻率、位置變化情況。
  • 本文建立了一個GRU-based language model,達到了最新的state-of-the-art。
    • 方法
      本文方法的整體框架如下圖所示。

      從圖中可以看出,本文對video frames同時使用2D-CNN和3D-CNN提取特征,將提取到的特征進行如下圖所示的傅里葉變換。整體框架圖中,最上側和最下側有兩條紅色的流程線,上側的代表object的高級語義信息,下側的代表action的語義信息,分別和Dictionary取交集后,得到特征向量。最后,將2D特征、3D特征、兩種語義信息輸入到Sequence model中,即可得到模型輸出。
    • 實驗
      在MSVD數據集上的實驗結果。GRU表示使用了兩層GRU,MP表示使用均值池化處理視頻的時間維度,C3D和IRV2代表計算visual code的方法,CI表示將C3D和IRV2一起使用,EVEhft\rm EVE_{hft}EVEhft?表示使用傅里葉變換,EVEhft+sem\rm EVE_{hft+sem}EVEhft+sem?表示使用傅里葉變換和高級語義信息。

      結果展示:

    CVPR2019:OA-BTG

    • 題目
      Object-aware Aggregation with Bidirectional Temporal Graph for Video Captioning
      下載鏈接
      本文出自Facebook AI
    • 動機
      captions的質量往往依賴于video representations,因此,找出視頻中的顯著物體,并了解它們的運動軌跡,對提升captions的質量有很大幫助。
    • 貢獻
  • 使用Bidirectional Temporal Graph(雙向時序圖)捕獲顯著物體的時序信息和global context,從而生成更準確的captions。
  • 基于顯著物體和和global frame使用Object-aware Aggregation得到更具有判別力的特征,并使用分層注意力機制得到不同objects的contributions。
    • 方法
      本文方法的整體框架如下圖所示,共分為三部分:Bidirectional Temporal Graph、Object-aware Aggregation和Decoder。

      第一部分,Bidirectional Temporal Graph。 這部分先使用目標檢測方法處理視頻的關鍵幀,提取出Object Regions。然后,使用相似性度量處理出object的時序圖,正序和反序的都要處理。相似性度量主要從三方面(特征相似性、IoU、面積)考慮,具體計算公式形如公式(1)。



      第二部分,Object-aware Aggregation。 這部分使用VLAD模型,對區域序列和全局幀序列進行處理。由于區域序列和全局幀序列均有正序和反序,故得到四組特征序列。

      第三部分,Decoder。 對于區域序列,使用分層注意力機制(時間(or 時序)注意力+空間注意力)。對于全局幀序列,使用時序注意力。添加attention后,將特征輸入到GRU中得到captions。
    • 實驗
      在MSVD數據集上的實驗結果

      在MSR-VTT數據集上的實驗結果

      消融實驗

      Successful結果展示

      Failed結果展示,感覺生成的也挺對的。

    CVPR2019:MLE+HybirdDis

    • 題目
      Adversarial Inference for Multi-Sentence Video Description
      下載鏈接
    • 動機
      現有的video captioning方法中,先將視頻分為多個events,再對每個event生成caption。這樣得到的captions對于單個event看起來比較好,但是從整個視頻來看,多個captions之間存在冗余和不連貫。因此,本文從上述問題出發,提出了Adversarial Inference方法。
    • 貢獻
  • 使用對抗學習生成video captions (descriptions),基于判別器得到的score選擇最優sentence。
  • 提出hybrid discriminator(混合判別器),由三種特定的判別器組合而成,取得了比單一判別器更好的結果。
  • 在多個標準上和其他方法進行了對比,在human evaluation中得到了最優的結果。
    • 方法
      本文方法的整體框架如下圖所示。整體上共分為三部分:Generator、Sampling from the Generator和Selecting the sentence based on the Discriminator。其中,Generator用于編碼event的特征(本文假設segment已經給出),提取三種特征,分別是:幀級別的特征、使用3D卷積提取的特征和區域特征。并對特征添加了attention,再將三種特征拼接,使用fc得到最終特征。Sampling from the Generator。Selecting the sentence based on the Discriminator使用Discriminator(判別器)選擇最優sentence。

      判別器的結構如下圖所示,使用三類信息對sentence進行判別,分別是:Visual Discriminator、Language Discriminator和Pairwise Discriminator。其中,Visual Discriminator用于判斷sentence和event的關聯程度,這部分和Generator有些類似,提取出video的三種特征,同時提取sentence的BOW特征(詞袋特征),將四者結合得到score。Language Discriminator用于判斷句子的結構和語義信息,這部分使用雙向LSTM對sentence進行編碼,在通過fc層回歸出score。Pairwise Discriminator用于判斷多個sentences之間的關聯程度,使用雙向LSTM對相鄰的sentence進行編碼,再通過fc層回歸出score。
    • 實驗
      在ActivityNet Captions數據集上的實驗結果:

      消融實驗結果展示:

    CVPR2019:MARN

    • 題目
      Memory-Attended Recurrent Network for Video Captioning
      下載鏈接
      本文出自騰訊和南科大王向榮老師
    • 動機
      已有的video captioning方法的框架大多是encoder-decoder,在生成captions時,只能從一個video中讀取信息。而本文作者發現,有很多actions和context在不同的訓練數據中會反復出現,只使用一個video生成caption會丟失很多有用信息。故提出了Memory-Attended Recurrent Network,通過在傳統的encoder-decoder框架中添加attended memory decoder模塊,利用多個video來輔助當前處理的video生成caption。
    • 貢獻
  • 本文方法可以capture每個單詞與多種similar visual contexts的關系。
  • 本文模型可以對每個單詞獲得更加全面的理解,提高captions的質量。
  • 本文的built memory結構可以顯式地對相鄰單詞的兼容性進行建模,不像大多數現有模型那樣要求模型進行隱式學習。
  • 實驗結果表明,本文方法已超過state-of-the-art。
    • 方法
      本文方法的整體架構如下圖所示,共分為三個部分:Encoder、Attention-based Recurrent Decoder和Attended Memory Decoder。其中,Encoder和Attention-based Recurrent Decoder和傳統的Encoder-Decoder架構基本一樣。Encoder部分,首先對video進行2D和3D特征提取,并添加attention,再進行concatenate,得到最終特征。Decoder部分,使用GRU生成captions。

      本文主要的方法在Attended Memory Decoder。這部分用于輔助Attention-based Recurrent Decoder,提高captions的質量。具體的作用在于:①對于每個單詞,可以從多個video scenes中捕獲有用信息;②傳統方法中,預測下一個單詞通常只依賴于當前單詞和其context,本文方法可以明確的對相鄰單詞的兼容性進行建模。

      Attender Memory Decoder的核心在于Memory Structure。在本文的memory中,存儲的是單詞www到描述ddd的映射<w,d><w,d><w,d>。而ddd主要包括三方面信息:視覺上下文(visual context)grg_rgr?、詞嵌入(word embedding)wrw_rwr?和輔助特征(auxiliary features)uru_rur?。其中,grg_rgr?的生成方式如下圖所示,提取所有和單詞wrw_rwr?相關的videos的2D和3D特征,添加attention后,選Top-k個,進行標準化,再加和即可。ere_rer?使用的是Attention-based Recurrent Decoder訓練得到的。uru_rur?是輔助特征,本文使用的是video類別信息。

      除上文以外,本文還提出了AC Loss,形如公式(13)。主要思想是,在對2D特征添加attention時,相鄰兩幀的權重應該相差不大,故在損失中添加了抑制項∣ai,t(n)?ai?1,t(n)∣|a^{(n)}_{i,t}-a^{(n)}_{i-1,t}|ai,t(n)??ai?1,t(n)?

      在訓練時,本文先訓練傳統的Encoder-Decoder部分,再訓練Attender Memory Decoder。
    • 實驗
      在MSR-VTT和MSVD數據集上進行的消融實驗

      對memory components進行的消融實驗

      在MAR-VTT數據集上,與其他模型的對比

      在MSVD數據集上,與其他模型的對比

      實驗結果展示

    CVPR2019:SDVC

    • 題目
      Streamlined Dense Video Captioning
      下載鏈接
    • 動機
      這篇文章是做Dense Video Captioning(以下簡稱DVC),就是在一個長視頻中找出所有的events,然后對每一個event生成caption。在這個問題中,現有的方法都是分為兩個步驟,首先,提取event proposals,然后,生成captions。這會導致生成的captions存在冗余和不一致,因為沒有考慮events之間的時間依賴性。
    • 貢獻
  • 提出一個新穎的DVC方法,可以利用events之間的時間依賴性生成captions。
  • 提出使用two-level (episode, event) rewards的強化學習方法,可以提高captions之間的一致性和event description的質量。
  • 可以達到state-of-the-art。
    • 方法
      和現有方法對比,Event Detection的區別如下圖所示。已有的方法都是提取獨立的event,本文將提取的event進行排序,生成序列的captions,加強captions之間的關聯性。

      本文方法的整體框架如下圖所示,主要分為三部分:Event Proposal Network(以下簡稱EPN)、Event Sequence Generation Network(以下簡稱ESGN)和Sequential Captioning Network(以下簡稱SCN)。其中,EPN模塊用于提取event,follow了CVPR2017的SST。ESGN模塊用于對上一個模塊得到的events進行排序,先將候選的proposals按照開始時間排序,然后輸入到RNN中,在每一步,生成每個proposal的概率,概率最大的proposal作為當前步的event。SCN模塊用于生成captions,使用雙層RNN結構,同時考慮visual context和linguistic context。

      由于具有三個模塊,本文使用的損失也分為三部分,與三個模塊分別對應。損失的具體形式如下,這里不一一介紹了。值得注意的是,SCN部分使用強化學習進行訓練,公式(14)是reward。





    • 實驗
      ActivityNet Captions validation set上的實驗結果

      ActivityNet Captions validation set上的消融實驗

      實驗結果展示

    AAAI2019:FCVC-CF&IA

    • 題目
      XXX
      下載鏈接
    • 動機
    • 貢獻
    • 方法


    • 實驗


    AAAI2019:TAMoE

    • 題目
      XXX
      下載鏈接
    • 動機
    • 貢獻
    • 方法


    • 實驗


    AAAI2019:MGSA

    • 題目
      XXX
      下載鏈接
    • 動機
    • 貢獻
    • 方法


    • 實驗


    AAAI2019:TDConvED

    • 題目
      XXX
      下載鏈接
    • 動機
    • 貢獻
    • 方法


    • 實驗


    ICCV2019:POSSG-GFN

    • 題目
      XXX
      下載鏈接
    • 動機
    • 貢獻
    • 方法


    • 實驗


    ICCV2019:SRL-VCT

    • 題目
      XXX
      下載鏈接
    • 動機
    • 貢獻
    • 方法


    • 實驗


    ICCVW2019:Tale

    • 題目
      XXX
      下載鏈接
    • 動機
    • 貢獻
    • 方法


    • 實驗


    ICCVW2019:EtENet-IRv2

    • 題目
      XXX
      下載鏈接
    • 動機
    • 貢獻
    • 方法


    • 實驗


    IJCAI2019:ViCap(new task)

    • 題目
      XXX
      下載鏈接
    • 動機
    • 貢獻
    • 方法


    • 實驗


    TCSVT2019:DS-RNN

    • 題目
      XXX
      下載鏈接
    • 動機
    • 貢獻
    • 方法


    • 實驗


    TIP2019:CAM-RNN

    • 題目
      XXX
      下載鏈接
    • 動機
    • 貢獻
    • 方法


    • 實驗


    TMM2019:STAT

    • 題目
      XXX
      下載鏈接
    • 動機
    • 貢獻
    • 方法


    • 實驗


    總結

    以上是生活随笔為你收集整理的2019年, video captioning论文汇总的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。