2019年, video captioning论文汇总
生活随笔
收集整理的這篇文章主要介紹了
2019年, video captioning论文汇总
小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
目錄
- CVPR2019:GRU
- CVPR2019:OA-BTG
- CVPR2019:MLE+HybirdDis
- CVPR2019:MARN
- CVPR2019:SDVC
- AAAI2019:FCVC-CF&IA
- AAAI2019:TAMoE
- AAAI2019:MGSA
- AAAI2019:TDConvED
- ICCV2019:POSSG-GFN
- ICCV2019:SRL-VCT
- ICCVW2019:Tale
- ICCVW2019:EtENet-IRv2
- IJCAI2019:ViCap(new task)
- TCSVT2019:DS-RNN
- TIP2019:CAM-RNN
- TMM2019:STAT
CVPR2019:GRU
- 題目
Spatio-Temporal Dynamics and Semantic Attribute Enriched Visual Encoding for Video Captioning
下載鏈接 - 動(dòng)機(jī)
現(xiàn)有的方法主要關(guān)注使用RNN生成captions,visual features都是直接通過CNN提取。作者認(rèn)為visual features也是很重要的,于是提出使用層級(jí)快速傅里葉變換得到視頻的時(shí)序信息。此外,本文還從object detector中獲取高級(jí)語義信息。 - 貢獻(xiàn)
- 方法
本文方法的整體框架如下圖所示。
從圖中可以看出,本文對(duì)video frames同時(shí)使用2D-CNN和3D-CNN提取特征,將提取到的特征進(jìn)行如下圖所示的傅里葉變換。整體框架圖中,最上側(cè)和最下側(cè)有兩條紅色的流程線,上側(cè)的代表object的高級(jí)語義信息,下側(cè)的代表action的語義信息,分別和Dictionary取交集后,得到特征向量。最后,將2D特征、3D特征、兩種語義信息輸入到Sequence model中,即可得到模型輸出。
- 實(shí)驗(yàn)
在MSVD數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。GRU表示使用了兩層GRU,MP表示使用均值池化處理視頻的時(shí)間維度,C3D和IRV2代表計(jì)算visual code的方法,CI表示將C3D和IRV2一起使用,EVEhft\rm EVE_{hft}EVEhft?表示使用傅里葉變換,EVEhft+sem\rm EVE_{hft+sem}EVEhft+sem?表示使用傅里葉變換和高級(jí)語義信息。
結(jié)果展示:
CVPR2019:OA-BTG
- 題目
Object-aware Aggregation with Bidirectional Temporal Graph for Video Captioning
下載鏈接
本文出自Facebook AI - 動(dòng)機(jī)
captions的質(zhì)量往往依賴于video representations,因此,找出視頻中的顯著物體,并了解它們的運(yùn)動(dòng)軌跡,對(duì)提升captions的質(zhì)量有很大幫助。 - 貢獻(xiàn)
- 方法
本文方法的整體框架如下圖所示,共分為三部分:Bidirectional Temporal Graph、Object-aware Aggregation和Decoder。
第一部分,Bidirectional Temporal Graph。 這部分先使用目標(biāo)檢測(cè)方法處理視頻的關(guān)鍵幀,提取出Object Regions。然后,使用相似性度量處理出object的時(shí)序圖,正序和反序的都要處理。相似性度量主要從三方面(特征相似性、IoU、面積)考慮,具體計(jì)算公式形如公式(1)。
第二部分,Object-aware Aggregation。 這部分使用VLAD模型,對(duì)區(qū)域序列和全局幀序列進(jìn)行處理。由于區(qū)域序列和全局幀序列均有正序和反序,故得到四組特征序列。
第三部分,Decoder。 對(duì)于區(qū)域序列,使用分層注意力機(jī)制(時(shí)間(or 時(shí)序)注意力+空間注意力)。對(duì)于全局幀序列,使用時(shí)序注意力。添加attention后,將特征輸入到GRU中得到captions。 - 實(shí)驗(yàn)
在MSVD數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果
在MSR-VTT數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果
消融實(shí)驗(yàn)
Successful結(jié)果展示
Failed結(jié)果展示,感覺生成的也挺對(duì)的。
CVPR2019:MLE+HybirdDis
- 題目
Adversarial Inference for Multi-Sentence Video Description
下載鏈接 - 動(dòng)機(jī)
現(xiàn)有的video captioning方法中,先將視頻分為多個(gè)events,再對(duì)每個(gè)event生成caption。這樣得到的captions對(duì)于單個(gè)event看起來比較好,但是從整個(gè)視頻來看,多個(gè)captions之間存在冗余和不連貫。因此,本文從上述問題出發(fā),提出了Adversarial Inference方法。
- 貢獻(xiàn)
- 方法
本文方法的整體框架如下圖所示。整體上共分為三部分:Generator、Sampling from the Generator和Selecting the sentence based on the Discriminator。其中,Generator用于編碼event的特征(本文假設(shè)segment已經(jīng)給出),提取三種特征,分別是:幀級(jí)別的特征、使用3D卷積提取的特征和區(qū)域特征。并對(duì)特征添加了attention,再將三種特征拼接,使用fc得到最終特征。Sampling from the Generator。Selecting the sentence based on the Discriminator使用Discriminator(判別器)選擇最優(yōu)sentence。
判別器的結(jié)構(gòu)如下圖所示,使用三類信息對(duì)sentence進(jìn)行判別,分別是:Visual Discriminator、Language Discriminator和Pairwise Discriminator。其中,Visual Discriminator用于判斷sentence和event的關(guān)聯(lián)程度,這部分和Generator有些類似,提取出video的三種特征,同時(shí)提取sentence的BOW特征(詞袋特征),將四者結(jié)合得到score。Language Discriminator用于判斷句子的結(jié)構(gòu)和語義信息,這部分使用雙向LSTM對(duì)sentence進(jìn)行編碼,在通過fc層回歸出score。Pairwise Discriminator用于判斷多個(gè)sentences之間的關(guān)聯(lián)程度,使用雙向LSTM對(duì)相鄰的sentence進(jìn)行編碼,再通過fc層回歸出score。
- 實(shí)驗(yàn)
在ActivityNet Captions數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果:
消融實(shí)驗(yàn)結(jié)果展示:
CVPR2019:MARN
- 題目
Memory-Attended Recurrent Network for Video Captioning
下載鏈接
本文出自騰訊和南科大王向榮老師 - 動(dòng)機(jī)
已有的video captioning方法的框架大多是encoder-decoder,在生成captions時(shí),只能從一個(gè)video中讀取信息。而本文作者發(fā)現(xiàn),有很多actions和context在不同的訓(xùn)練數(shù)據(jù)中會(huì)反復(fù)出現(xiàn),只使用一個(gè)video生成caption會(huì)丟失很多有用信息。故提出了Memory-Attended Recurrent Network,通過在傳統(tǒng)的encoder-decoder框架中添加attended memory decoder模塊,利用多個(gè)video來輔助當(dāng)前處理的video生成caption。
- 貢獻(xiàn)
- 方法
本文方法的整體架構(gòu)如下圖所示,共分為三個(gè)部分:Encoder、Attention-based Recurrent Decoder和Attended Memory Decoder。其中,Encoder和Attention-based Recurrent Decoder和傳統(tǒng)的Encoder-Decoder架構(gòu)基本一樣。Encoder部分,首先對(duì)video進(jìn)行2D和3D特征提取,并添加attention,再進(jìn)行concatenate,得到最終特征。Decoder部分,使用GRU生成captions。
本文主要的方法在Attended Memory Decoder。這部分用于輔助Attention-based Recurrent Decoder,提高captions的質(zhì)量。具體的作用在于:①對(duì)于每個(gè)單詞,可以從多個(gè)video scenes中捕獲有用信息;②傳統(tǒng)方法中,預(yù)測(cè)下一個(gè)單詞通常只依賴于當(dāng)前單詞和其context,本文方法可以明確的對(duì)相鄰單詞的兼容性進(jìn)行建模。
Attender Memory Decoder的核心在于Memory Structure。在本文的memory中,存儲(chǔ)的是單詞www到描述ddd的映射<w,d><w,d><w,d>。而ddd主要包括三方面信息:視覺上下文(visual context)grg_rgr?、詞嵌入(word embedding)wrw_rwr?和輔助特征(auxiliary features)uru_rur?。其中,grg_rgr?的生成方式如下圖所示,提取所有和單詞wrw_rwr?相關(guān)的videos的2D和3D特征,添加attention后,選Top-k個(gè),進(jìn)行標(biāo)準(zhǔn)化,再加和即可。ere_rer?使用的是Attention-based Recurrent Decoder訓(xùn)練得到的。uru_rur?是輔助特征,本文使用的是video類別信息。
除上文以外,本文還提出了AC Loss,形如公式(13)。主要思想是,在對(duì)2D特征添加attention時(shí),相鄰兩幀的權(quán)重應(yīng)該相差不大,故在損失中添加了抑制項(xiàng)∣ai,t(n)?ai?1,t(n)∣|a^{(n)}_{i,t}-a^{(n)}_{i-1,t}|∣ai,t(n)??ai?1,t(n)?∣。
在訓(xùn)練時(shí),本文先訓(xùn)練傳統(tǒng)的Encoder-Decoder部分,再訓(xùn)練Attender Memory Decoder。 - 實(shí)驗(yàn)
在MSR-VTT和MSVD數(shù)據(jù)集上進(jìn)行的消融實(shí)驗(yàn)
對(duì)memory components進(jìn)行的消融實(shí)驗(yàn)
在MAR-VTT數(shù)據(jù)集上,與其他模型的對(duì)比
在MSVD數(shù)據(jù)集上,與其他模型的對(duì)比
實(shí)驗(yàn)結(jié)果展示
CVPR2019:SDVC
- 題目
Streamlined Dense Video Captioning
下載鏈接 - 動(dòng)機(jī)
這篇文章是做Dense Video Captioning(以下簡(jiǎn)稱DVC),就是在一個(gè)長(zhǎng)視頻中找出所有的events,然后對(duì)每一個(gè)event生成caption。在這個(gè)問題中,現(xiàn)有的方法都是分為兩個(gè)步驟,首先,提取event proposals,然后,生成captions。這會(huì)導(dǎo)致生成的captions存在冗余和不一致,因?yàn)闆]有考慮events之間的時(shí)間依賴性。
- 貢獻(xiàn)
- 方法
和現(xiàn)有方法對(duì)比,Event Detection的區(qū)別如下圖所示。已有的方法都是提取獨(dú)立的event,本文將提取的event進(jìn)行排序,生成序列的captions,加強(qiáng)captions之間的關(guān)聯(lián)性。
本文方法的整體框架如下圖所示,主要分為三部分:Event Proposal Network(以下簡(jiǎn)稱EPN)、Event Sequence Generation Network(以下簡(jiǎn)稱ESGN)和Sequential Captioning Network(以下簡(jiǎn)稱SCN)。其中,EPN模塊用于提取event,follow了CVPR2017的SST。ESGN模塊用于對(duì)上一個(gè)模塊得到的events進(jìn)行排序,先將候選的proposals按照開始時(shí)間排序,然后輸入到RNN中,在每一步,生成每個(gè)proposal的概率,概率最大的proposal作為當(dāng)前步的event。SCN模塊用于生成captions,使用雙層RNN結(jié)構(gòu),同時(shí)考慮visual context和linguistic context。
由于具有三個(gè)模塊,本文使用的損失也分為三部分,與三個(gè)模塊分別對(duì)應(yīng)。損失的具體形式如下,這里不一一介紹了。值得注意的是,SCN部分使用強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練,公式(14)是reward。
- 實(shí)驗(yàn)
ActivityNet Captions validation set上的實(shí)驗(yàn)結(jié)果
ActivityNet Captions validation set上的消融實(shí)驗(yàn)
實(shí)驗(yàn)結(jié)果展示
AAAI2019:FCVC-CF&IA
- 題目
XXX
下載鏈接 - 動(dòng)機(jī)
- 貢獻(xiàn)
- 方法
- 實(shí)驗(yàn)
AAAI2019:TAMoE
- 題目
XXX
下載鏈接 - 動(dòng)機(jī)
- 貢獻(xiàn)
- 方法
- 實(shí)驗(yàn)
AAAI2019:MGSA
- 題目
XXX
下載鏈接 - 動(dòng)機(jī)
- 貢獻(xiàn)
- 方法
- 實(shí)驗(yàn)
AAAI2019:TDConvED
- 題目
XXX
下載鏈接 - 動(dòng)機(jī)
- 貢獻(xiàn)
- 方法
- 實(shí)驗(yàn)
ICCV2019:POSSG-GFN
- 題目
XXX
下載鏈接 - 動(dòng)機(jī)
- 貢獻(xiàn)
- 方法
- 實(shí)驗(yàn)
ICCV2019:SRL-VCT
- 題目
XXX
下載鏈接 - 動(dòng)機(jī)
- 貢獻(xiàn)
- 方法
- 實(shí)驗(yàn)
ICCVW2019:Tale
- 題目
XXX
下載鏈接 - 動(dòng)機(jī)
- 貢獻(xiàn)
- 方法
- 實(shí)驗(yàn)
ICCVW2019:EtENet-IRv2
- 題目
XXX
下載鏈接 - 動(dòng)機(jī)
- 貢獻(xiàn)
- 方法
- 實(shí)驗(yàn)
IJCAI2019:ViCap(new task)
- 題目
XXX
下載鏈接 - 動(dòng)機(jī)
- 貢獻(xiàn)
- 方法
- 實(shí)驗(yàn)
TCSVT2019:DS-RNN
- 題目
XXX
下載鏈接 - 動(dòng)機(jī)
- 貢獻(xiàn)
- 方法
- 實(shí)驗(yàn)
TIP2019:CAM-RNN
- 題目
XXX
下載鏈接 - 動(dòng)機(jī)
- 貢獻(xiàn)
- 方法
- 實(shí)驗(yàn)
TMM2019:STAT
- 題目
XXX
下載鏈接 - 動(dòng)機(jī)
- 貢獻(xiàn)
- 方法
- 實(shí)驗(yàn)
總結(jié)
以上是生活随笔為你收集整理的2019年, video captioning论文汇总的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 2019年, VQA论文汇总
- 下一篇: ICCV 2019 《Robust Ch