日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

2019年, video captioning论文汇总

發(fā)布時(shí)間:2025/3/15 编程问答 19 豆豆
生活随笔 收集整理的這篇文章主要介紹了 2019年, video captioning论文汇总 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

目錄

  • CVPR2019:GRU
  • CVPR2019:OA-BTG
  • CVPR2019:MLE+HybirdDis
  • CVPR2019:MARN
  • CVPR2019:SDVC
  • AAAI2019:FCVC-CF&IA
  • AAAI2019:TAMoE
  • AAAI2019:MGSA
  • AAAI2019:TDConvED
  • ICCV2019:POSSG-GFN
  • ICCV2019:SRL-VCT
  • ICCVW2019:Tale
  • ICCVW2019:EtENet-IRv2
  • IJCAI2019:ViCap(new task)
  • TCSVT2019:DS-RNN
  • TIP2019:CAM-RNN
  • TMM2019:STAT

CVPR2019:GRU

  • 題目
    Spatio-Temporal Dynamics and Semantic Attribute Enriched Visual Encoding for Video Captioning
    下載鏈接
  • 動(dòng)機(jī)
    現(xiàn)有的方法主要關(guān)注使用RNN生成captions,visual features都是直接通過CNN提取。作者認(rèn)為visual features也是很重要的,于是提出使用層級(jí)快速傅里葉變換得到視頻的時(shí)序信息。此外,本文還從object detector中獲取高級(jí)語義信息。
  • 貢獻(xiàn)
  • 本文提出一種visual encoding技術(shù),可以有效的編碼video的時(shí)空信息,并將相關(guān)的高級(jí)語義信息嵌入到visual codes中。
  • 本文提取的visual features中包含objects的屬性、出現(xiàn)頻率、位置變化情況。
  • 本文建立了一個(gè)GRU-based language model,達(dá)到了最新的state-of-the-art。
    • 方法
      本文方法的整體框架如下圖所示。

      從圖中可以看出,本文對(duì)video frames同時(shí)使用2D-CNN和3D-CNN提取特征,將提取到的特征進(jìn)行如下圖所示的傅里葉變換。整體框架圖中,最上側(cè)和最下側(cè)有兩條紅色的流程線,上側(cè)的代表object的高級(jí)語義信息,下側(cè)的代表action的語義信息,分別和Dictionary取交集后,得到特征向量。最后,將2D特征、3D特征、兩種語義信息輸入到Sequence model中,即可得到模型輸出。
    • 實(shí)驗(yàn)
      在MSVD數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。GRU表示使用了兩層GRU,MP表示使用均值池化處理視頻的時(shí)間維度,C3D和IRV2代表計(jì)算visual code的方法,CI表示將C3D和IRV2一起使用,EVEhft\rm EVE_{hft}EVEhft?表示使用傅里葉變換,EVEhft+sem\rm EVE_{hft+sem}EVEhft+sem?表示使用傅里葉變換和高級(jí)語義信息。

      結(jié)果展示:

    CVPR2019:OA-BTG

    • 題目
      Object-aware Aggregation with Bidirectional Temporal Graph for Video Captioning
      下載鏈接
      本文出自Facebook AI
    • 動(dòng)機(jī)
      captions的質(zhì)量往往依賴于video representations,因此,找出視頻中的顯著物體,并了解它們的運(yùn)動(dòng)軌跡,對(duì)提升captions的質(zhì)量有很大幫助。
    • 貢獻(xiàn)
  • 使用Bidirectional Temporal Graph(雙向時(shí)序圖)捕獲顯著物體的時(shí)序信息和global context,從而生成更準(zhǔn)確的captions。
  • 基于顯著物體和和global frame使用Object-aware Aggregation得到更具有判別力的特征,并使用分層注意力機(jī)制得到不同objects的contributions。
    • 方法
      本文方法的整體框架如下圖所示,共分為三部分:Bidirectional Temporal Graph、Object-aware Aggregation和Decoder。

      第一部分,Bidirectional Temporal Graph。 這部分先使用目標(biāo)檢測(cè)方法處理視頻的關(guān)鍵幀,提取出Object Regions。然后,使用相似性度量處理出object的時(shí)序圖,正序和反序的都要處理。相似性度量主要從三方面(特征相似性、IoU、面積)考慮,具體計(jì)算公式形如公式(1)。



      第二部分,Object-aware Aggregation。 這部分使用VLAD模型,對(duì)區(qū)域序列和全局幀序列進(jìn)行處理。由于區(qū)域序列和全局幀序列均有正序和反序,故得到四組特征序列。

      第三部分,Decoder。 對(duì)于區(qū)域序列,使用分層注意力機(jī)制(時(shí)間(or 時(shí)序)注意力+空間注意力)。對(duì)于全局幀序列,使用時(shí)序注意力。添加attention后,將特征輸入到GRU中得到captions。
    • 實(shí)驗(yàn)
      在MSVD數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果

      在MSR-VTT數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果

      消融實(shí)驗(yàn)

      Successful結(jié)果展示

      Failed結(jié)果展示,感覺生成的也挺對(duì)的。

    CVPR2019:MLE+HybirdDis

    • 題目
      Adversarial Inference for Multi-Sentence Video Description
      下載鏈接
    • 動(dòng)機(jī)
      現(xiàn)有的video captioning方法中,先將視頻分為多個(gè)events,再對(duì)每個(gè)event生成caption。這樣得到的captions對(duì)于單個(gè)event看起來比較好,但是從整個(gè)視頻來看,多個(gè)captions之間存在冗余和不連貫。因此,本文從上述問題出發(fā),提出了Adversarial Inference方法。
    • 貢獻(xiàn)
  • 使用對(duì)抗學(xué)習(xí)生成video captions (descriptions),基于判別器得到的score選擇最優(yōu)sentence。
  • 提出hybrid discriminator(混合判別器),由三種特定的判別器組合而成,取得了比單一判別器更好的結(jié)果。
  • 在多個(gè)標(biāo)準(zhǔn)上和其他方法進(jìn)行了對(duì)比,在human evaluation中得到了最優(yōu)的結(jié)果。
    • 方法
      本文方法的整體框架如下圖所示。整體上共分為三部分:Generator、Sampling from the Generator和Selecting the sentence based on the Discriminator。其中,Generator用于編碼event的特征(本文假設(shè)segment已經(jīng)給出),提取三種特征,分別是:幀級(jí)別的特征、使用3D卷積提取的特征和區(qū)域特征。并對(duì)特征添加了attention,再將三種特征拼接,使用fc得到最終特征。Sampling from the GeneratorSelecting the sentence based on the Discriminator使用Discriminator(判別器)選擇最優(yōu)sentence。

      判別器的結(jié)構(gòu)如下圖所示,使用三類信息對(duì)sentence進(jìn)行判別,分別是:Visual Discriminator、Language Discriminator和Pairwise Discriminator。其中,Visual Discriminator用于判斷sentence和event的關(guān)聯(lián)程度,這部分和Generator有些類似,提取出video的三種特征,同時(shí)提取sentence的BOW特征(詞袋特征),將四者結(jié)合得到score。Language Discriminator用于判斷句子的結(jié)構(gòu)和語義信息,這部分使用雙向LSTM對(duì)sentence進(jìn)行編碼,在通過fc層回歸出score。Pairwise Discriminator用于判斷多個(gè)sentences之間的關(guān)聯(lián)程度,使用雙向LSTM對(duì)相鄰的sentence進(jìn)行編碼,再通過fc層回歸出score。
    • 實(shí)驗(yàn)
      在ActivityNet Captions數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果:

      消融實(shí)驗(yàn)結(jié)果展示:

    CVPR2019:MARN

    • 題目
      Memory-Attended Recurrent Network for Video Captioning
      下載鏈接
      本文出自騰訊和南科大王向榮老師
    • 動(dòng)機(jī)
      已有的video captioning方法的框架大多是encoder-decoder,在生成captions時(shí),只能從一個(gè)video中讀取信息。而本文作者發(fā)現(xiàn),有很多actions和context在不同的訓(xùn)練數(shù)據(jù)中會(huì)反復(fù)出現(xiàn),只使用一個(gè)video生成caption會(huì)丟失很多有用信息。故提出了Memory-Attended Recurrent Network,通過在傳統(tǒng)的encoder-decoder框架中添加attended memory decoder模塊,利用多個(gè)video來輔助當(dāng)前處理的video生成caption。
    • 貢獻(xiàn)
  • 本文方法可以capture每個(gè)單詞與多種similar visual contexts的關(guān)系。
  • 本文模型可以對(duì)每個(gè)單詞獲得更加全面的理解,提高captions的質(zhì)量。
  • 本文的built memory結(jié)構(gòu)可以顯式地對(duì)相鄰單詞的兼容性進(jìn)行建模,不像大多數(shù)現(xiàn)有模型那樣要求模型進(jìn)行隱式學(xué)習(xí)。
  • 實(shí)驗(yàn)結(jié)果表明,本文方法已超過state-of-the-art。
    • 方法
      本文方法的整體架構(gòu)如下圖所示,共分為三個(gè)部分:Encoder、Attention-based Recurrent Decoder和Attended Memory Decoder。其中,Encoder和Attention-based Recurrent Decoder和傳統(tǒng)的Encoder-Decoder架構(gòu)基本一樣。Encoder部分,首先對(duì)video進(jìn)行2D和3D特征提取,并添加attention,再進(jìn)行concatenate,得到最終特征。Decoder部分,使用GRU生成captions。

      本文主要的方法在Attended Memory Decoder。這部分用于輔助Attention-based Recurrent Decoder,提高captions的質(zhì)量。具體的作用在于:①對(duì)于每個(gè)單詞,可以從多個(gè)video scenes中捕獲有用信息;②傳統(tǒng)方法中,預(yù)測(cè)下一個(gè)單詞通常只依賴于當(dāng)前單詞和其context,本文方法可以明確的對(duì)相鄰單詞的兼容性進(jìn)行建模。

      Attender Memory Decoder的核心在于Memory Structure。在本文的memory中,存儲(chǔ)的是單詞www到描述ddd的映射<w,d><w,d><w,d>。而ddd主要包括三方面信息:視覺上下文(visual context)grg_rgr?、詞嵌入(word embedding)wrw_rwr?和輔助特征(auxiliary features)uru_rur?。其中,grg_rgr?的生成方式如下圖所示,提取所有和單詞wrw_rwr?相關(guān)的videos的2D和3D特征,添加attention后,選Top-k個(gè),進(jìn)行標(biāo)準(zhǔn)化,再加和即可。ere_rer?使用的是Attention-based Recurrent Decoder訓(xùn)練得到的。uru_rur?是輔助特征,本文使用的是video類別信息。

      除上文以外,本文還提出了AC Loss,形如公式(13)。主要思想是,在對(duì)2D特征添加attention時(shí),相鄰兩幀的權(quán)重應(yīng)該相差不大,故在損失中添加了抑制項(xiàng)∣ai,t(n)?ai?1,t(n)∣|a^{(n)}_{i,t}-a^{(n)}_{i-1,t}|ai,t(n)??ai?1,t(n)?

      在訓(xùn)練時(shí),本文先訓(xùn)練傳統(tǒng)的Encoder-Decoder部分,再訓(xùn)練Attender Memory Decoder。
    • 實(shí)驗(yàn)
      在MSR-VTT和MSVD數(shù)據(jù)集上進(jìn)行的消融實(shí)驗(yàn)

      對(duì)memory components進(jìn)行的消融實(shí)驗(yàn)

      在MAR-VTT數(shù)據(jù)集上,與其他模型的對(duì)比

      在MSVD數(shù)據(jù)集上,與其他模型的對(duì)比

      實(shí)驗(yàn)結(jié)果展示

    CVPR2019:SDVC

    • 題目
      Streamlined Dense Video Captioning
      下載鏈接
    • 動(dòng)機(jī)
      這篇文章是做Dense Video Captioning(以下簡(jiǎn)稱DVC),就是在一個(gè)長(zhǎng)視頻中找出所有的events,然后對(duì)每一個(gè)event生成caption。在這個(gè)問題中,現(xiàn)有的方法都是分為兩個(gè)步驟,首先,提取event proposals,然后,生成captions。這會(huì)導(dǎo)致生成的captions存在冗余和不一致,因?yàn)闆]有考慮events之間的時(shí)間依賴性。
    • 貢獻(xiàn)
  • 提出一個(gè)新穎的DVC方法,可以利用events之間的時(shí)間依賴性生成captions。
  • 提出使用two-level (episode, event) rewards的強(qiáng)化學(xué)習(xí)方法,可以提高captions之間的一致性和event description的質(zhì)量。
  • 可以達(dá)到state-of-the-art。
    • 方法
      和現(xiàn)有方法對(duì)比,Event Detection的區(qū)別如下圖所示。已有的方法都是提取獨(dú)立的event,本文將提取的event進(jìn)行排序,生成序列的captions,加強(qiáng)captions之間的關(guān)聯(lián)性。

      本文方法的整體框架如下圖所示,主要分為三部分:Event Proposal Network(以下簡(jiǎn)稱EPN)、Event Sequence Generation Network(以下簡(jiǎn)稱ESGN)和Sequential Captioning Network(以下簡(jiǎn)稱SCN)。其中,EPN模塊用于提取event,follow了CVPR2017的SST。ESGN模塊用于對(duì)上一個(gè)模塊得到的events進(jìn)行排序,先將候選的proposals按照開始時(shí)間排序,然后輸入到RNN中,在每一步,生成每個(gè)proposal的概率,概率最大的proposal作為當(dāng)前步的event。SCN模塊用于生成captions,使用雙層RNN結(jié)構(gòu),同時(shí)考慮visual context和linguistic context。

      由于具有三個(gè)模塊,本文使用的損失也分為三部分,與三個(gè)模塊分別對(duì)應(yīng)。損失的具體形式如下,這里不一一介紹了。值得注意的是,SCN部分使用強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練,公式(14)是reward。





    • 實(shí)驗(yàn)
      ActivityNet Captions validation set上的實(shí)驗(yàn)結(jié)果

      ActivityNet Captions validation set上的消融實(shí)驗(yàn)

      實(shí)驗(yàn)結(jié)果展示

    AAAI2019:FCVC-CF&IA

    • 題目
      XXX
      下載鏈接
    • 動(dòng)機(jī)
    • 貢獻(xiàn)
    • 方法


    • 實(shí)驗(yàn)


    AAAI2019:TAMoE

    • 題目
      XXX
      下載鏈接
    • 動(dòng)機(jī)
    • 貢獻(xiàn)
    • 方法


    • 實(shí)驗(yàn)


    AAAI2019:MGSA

    • 題目
      XXX
      下載鏈接
    • 動(dòng)機(jī)
    • 貢獻(xiàn)
    • 方法


    • 實(shí)驗(yàn)


    AAAI2019:TDConvED

    • 題目
      XXX
      下載鏈接
    • 動(dòng)機(jī)
    • 貢獻(xiàn)
    • 方法


    • 實(shí)驗(yàn)


    ICCV2019:POSSG-GFN

    • 題目
      XXX
      下載鏈接
    • 動(dòng)機(jī)
    • 貢獻(xiàn)
    • 方法


    • 實(shí)驗(yàn)


    ICCV2019:SRL-VCT

    • 題目
      XXX
      下載鏈接
    • 動(dòng)機(jī)
    • 貢獻(xiàn)
    • 方法


    • 實(shí)驗(yàn)


    ICCVW2019:Tale

    • 題目
      XXX
      下載鏈接
    • 動(dòng)機(jī)
    • 貢獻(xiàn)
    • 方法


    • 實(shí)驗(yàn)


    ICCVW2019:EtENet-IRv2

    • 題目
      XXX
      下載鏈接
    • 動(dòng)機(jī)
    • 貢獻(xiàn)
    • 方法


    • 實(shí)驗(yàn)


    IJCAI2019:ViCap(new task)

    • 題目
      XXX
      下載鏈接
    • 動(dòng)機(jī)
    • 貢獻(xiàn)
    • 方法


    • 實(shí)驗(yàn)


    TCSVT2019:DS-RNN

    • 題目
      XXX
      下載鏈接
    • 動(dòng)機(jī)
    • 貢獻(xiàn)
    • 方法


    • 實(shí)驗(yàn)


    TIP2019:CAM-RNN

    • 題目
      XXX
      下載鏈接
    • 動(dòng)機(jī)
    • 貢獻(xiàn)
    • 方法


    • 實(shí)驗(yàn)


    TMM2019:STAT

    • 題目
      XXX
      下載鏈接
    • 動(dòng)機(jī)
    • 貢獻(xiàn)
    • 方法


    • 實(shí)驗(yàn)


    總結(jié)

    以上是生活随笔為你收集整理的2019年, video captioning论文汇总的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。