當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

2019年, video captioning论文汇总

發(fā)布時(shí)間：2025/3/15 编程问答 19 豆豆

生活随笔收集整理的這篇文章主要介紹了 2019年, video captioning论文汇总小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

CVPR2019：GRU
CVPR2019：OA-BTG
CVPR2019：MLE+HybirdDis
CVPR2019：MARN
CVPR2019：SDVC
AAAI2019：FCVC-CF&IA
AAAI2019：TAMoE
AAAI2019：MGSA
AAAI2019：TDConvED
ICCV2019：POSSG-GFN
ICCV2019：SRL-VCT
ICCVW2019：Tale
ICCVW2019：EtENet-IRv2
IJCAI2019：ViCap（new task）
TCSVT2019：DS-RNN
TIP2019：CAM-RNN
TMM2019：STAT

CVPR2019：GRU

題目
Spatio-Temporal Dynamics and Semantic Attribute Enriched Visual Encoding for Video Captioning
下載鏈接
動(dòng)機(jī)
現(xiàn)有的方法主要關(guān)注使用RNN生成captions，visual features都是直接通過CNN提取。作者認(rèn)為visual features也是很重要的，于是提出使用層級(jí)快速傅里葉變換得到視頻的時(shí)序信息。此外，本文還從object detector中獲取高級(jí)語義信息。
貢獻(xiàn)

本文提出一種visual encoding技術(shù)，可以有效的編碼video的時(shí)空信息，并將相關(guān)的高級(jí)語義信息嵌入到visual codes中。

本文提取的visual features中包含objects的屬性、出現(xiàn)頻率、位置變化情況。

本文建立了一個(gè)GRU-based language model，達(dá)到了最新的state-of-the-art。

方法
本文方法的整體框架如下圖所示。

從圖中可以看出，本文對(duì)video frames同時(shí)使用2D-CNN和3D-CNN提取特征，將提取到的特征進(jìn)行如下圖所示的傅里葉變換。整體框架圖中，最上側(cè)和最下側(cè)有兩條紅色的流程線，上側(cè)的代表object的高級(jí)語義信息，下側(cè)的代表action的語義信息，分別和Dictionary取交集后，得到特征向量。最后，將2D特征、3D特征、兩種語義信息輸入到Sequence model中，即可得到模型輸出。
實(shí)驗(yàn)
在MSVD數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。GRU表示使用了兩層GRU，MP表示使用均值池化處理視頻的時(shí)間維度，C3D和IRV2代表計(jì)算visual code的方法，CI表示將C3D和IRV2一起使用， $EVEhft\rm EVE_{hft}$ 表示使用傅里葉變換， $EVEhft+sem\rm EVE_{hft+sem}$ 表示使用傅里葉變換和高級(jí)語義信息。

結(jié)果展示：

CVPR2019：OA-BTG

題目
Object-aware Aggregation with Bidirectional Temporal Graph for Video Captioning
下載鏈接
本文出自Facebook AI
動(dòng)機(jī)
captions的質(zhì)量往往依賴于video representations，因此，找出視頻中的顯著物體，并了解它們的運(yùn)動(dòng)軌跡，對(duì)提升captions的質(zhì)量有很大幫助。
貢獻(xiàn)

使用Bidirectional Temporal Graph（雙向時(shí)序圖）捕獲顯著物體的時(shí)序信息和global context，從而生成更準(zhǔn)確的captions。

基于顯著物體和和global frame使用Object-aware Aggregation得到更具有判別力的特征，并使用分層注意力機(jī)制得到不同objects的contributions。

方法
本文方法的整體框架如下圖所示，共分為三部分：Bidirectional Temporal Graph、Object-aware Aggregation和Decoder。

第一部分，Bidirectional Temporal Graph。 這部分先使用目標(biāo)檢測(cè)方法處理視頻的關(guān)鍵幀，提取出Object Regions。然后，使用相似性度量處理出object的時(shí)序圖，正序和反序的都要處理。相似性度量主要從三方面（特征相似性、IoU、面積）考慮，具體計(jì)算公式形如公式（1）。

第二部分，Object-aware Aggregation。 這部分使用VLAD模型，對(duì)區(qū)域序列和全局幀序列進(jìn)行處理。由于區(qū)域序列和全局幀序列均有正序和反序，故得到四組特征序列。

第三部分，Decoder。 對(duì)于區(qū)域序列，使用分層注意力機(jī)制（時(shí)間（or 時(shí)序）注意力+空間注意力）。對(duì)于全局幀序列，使用時(shí)序注意力。添加attention后，將特征輸入到GRU中得到captions。
實(shí)驗(yàn)
在MSVD數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果

在MSR-VTT數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果

消融實(shí)驗(yàn)

Successful結(jié)果展示

Failed結(jié)果展示，感覺生成的也挺對(duì)的。

CVPR2019：MLE+HybirdDis

題目
Adversarial Inference for Multi-Sentence Video Description
下載鏈接
動(dòng)機(jī)
現(xiàn)有的video captioning方法中，先將視頻分為多個(gè)events，再對(duì)每個(gè)event生成caption。這樣得到的captions對(duì)于單個(gè)event看起來比較好，但是從整個(gè)視頻來看，多個(gè)captions之間存在冗余和不連貫。因此，本文從上述問題出發(fā)，提出了Adversarial Inference方法。
貢獻(xiàn)

使用對(duì)抗學(xué)習(xí)生成video captions (descriptions)，基于判別器得到的score選擇最優(yōu)sentence。

提出hybrid discriminator（混合判別器），由三種特定的判別器組合而成，取得了比單一判別器更好的結(jié)果。

在多個(gè)標(biāo)準(zhǔn)上和其他方法進(jìn)行了對(duì)比，在human evaluation中得到了最優(yōu)的結(jié)果。

方法
本文方法的整體框架如下圖所示。整體上共分為三部分：Generator、Sampling from the Generator和Selecting the sentence based on the Discriminator。其中，Generator用于編碼event的特征（本文假設(shè)segment已經(jīng)給出），提取三種特征，分別是：幀級(jí)別的特征、使用3D卷積提取的特征和區(qū)域特征。并對(duì)特征添加了attention，再將三種特征拼接，使用fc得到最終特征。Sampling from the Generator。Selecting the sentence based on the Discriminator使用Discriminator（判別器）選擇最優(yōu)sentence。

判別器的結(jié)構(gòu)如下圖所示，使用三類信息對(duì)sentence進(jìn)行判別，分別是：Visual Discriminator、Language Discriminator和Pairwise Discriminator。其中，Visual Discriminator用于判斷sentence和event的關(guān)聯(lián)程度，這部分和Generator有些類似，提取出video的三種特征，同時(shí)提取sentence的BOW特征（詞袋特征），將四者結(jié)合得到score。Language Discriminator用于判斷句子的結(jié)構(gòu)和語義信息，這部分使用雙向LSTM對(duì)sentence進(jìn)行編碼，在通過fc層回歸出score。Pairwise Discriminator用于判斷多個(gè)sentences之間的關(guān)聯(lián)程度，使用雙向LSTM對(duì)相鄰的sentence進(jìn)行編碼，再通過fc層回歸出score。
實(shí)驗(yàn)
在ActivityNet Captions數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果：

消融實(shí)驗(yàn)結(jié)果展示：

CVPR2019：MARN

題目
Memory-Attended Recurrent Network for Video Captioning
下載鏈接
本文出自騰訊和南科大王向榮老師
動(dòng)機(jī)
已有的video captioning方法的框架大多是encoder-decoder，在生成captions時(shí)，只能從一個(gè)video中讀取信息。而本文作者發(fā)現(xiàn)，有很多actions和context在不同的訓(xùn)練數(shù)據(jù)中會(huì)反復(fù)出現(xiàn)，只使用一個(gè)video生成caption會(huì)丟失很多有用信息。故提出了Memory-Attended Recurrent Network，通過在傳統(tǒng)的encoder-decoder框架中添加attended memory decoder模塊，利用多個(gè)video來輔助當(dāng)前處理的video生成caption。
貢獻(xiàn)

本文方法可以capture每個(gè)單詞與多種similar visual contexts的關(guān)系。

本文模型可以對(duì)每個(gè)單詞獲得更加全面的理解，提高captions的質(zhì)量。

本文的built memory結(jié)構(gòu)可以顯式地對(duì)相鄰單詞的兼容性進(jìn)行建模，不像大多數(shù)現(xiàn)有模型那樣要求模型進(jìn)行隱式學(xué)習(xí)。

實(shí)驗(yàn)結(jié)果表明，本文方法已超過state-of-the-art。

方法
本文方法的整體架構(gòu)如下圖所示，共分為三個(gè)部分：Encoder、Attention-based Recurrent Decoder和Attended Memory Decoder。其中，Encoder和Attention-based Recurrent Decoder和傳統(tǒng)的Encoder-Decoder架構(gòu)基本一樣。Encoder部分，首先對(duì)video進(jìn)行2D和3D特征提取，并添加attention，再進(jìn)行concatenate，得到最終特征。Decoder部分，使用GRU生成captions。

本文主要的方法在Attended Memory Decoder。這部分用于輔助Attention-based Recurrent Decoder，提高captions的質(zhì)量。具體的作用在于：①對(duì)于每個(gè)單詞，可以從多個(gè)video scenes中捕獲有用信息；②傳統(tǒng)方法中，預(yù)測(cè)下一個(gè)單詞通常只依賴于當(dāng)前單詞和其context，本文方法可以明確的對(duì)相鄰單詞的兼容性進(jìn)行建模。

Attender Memory Decoder的核心在于Memory Structure。在本文的memory中，存儲(chǔ)的是單詞 $w$ 到描述 $d$ 的映射 $< w, d >$ 。而 $d$ 主要包括三方面信息：視覺上下文（visual context） $g_r$ 、詞嵌入（word embedding） $w_r$ 和輔助特征（auxiliary features） $u_r$ 。其中， $g_r$ 的生成方式如下圖所示，提取所有和單詞 $w_r$ 相關(guān)的videos的2D和3D特征，添加attention后，選Top-k個(gè)，進(jìn)行標(biāo)準(zhǔn)化，再加和即可。 $e_r$ 使用的是Attention-based Recurrent Decoder訓(xùn)練得到的。 $u_r$ 是輔助特征，本文使用的是video類別信息。

除上文以外，本文還提出了AC Loss，形如公式（13）。主要思想是，在對(duì)2D特征添加attention時(shí)，相鄰兩幀的權(quán)重應(yīng)該相差不大，故在損失中添加了抑制項(xiàng) $∣ai,t(n)?ai?1,t(n)∣|a^{(n)}_{i,t}-a^{(n)}_{i-1,t}|$ 。

在訓(xùn)練時(shí)，本文先訓(xùn)練傳統(tǒng)的Encoder-Decoder部分，再訓(xùn)練Attender Memory Decoder。
實(shí)驗(yàn)
在MSR-VTT和MSVD數(shù)據(jù)集上進(jìn)行的消融實(shí)驗(yàn)

對(duì)memory components進(jìn)行的消融實(shí)驗(yàn)

在MAR-VTT數(shù)據(jù)集上，與其他模型的對(duì)比

在MSVD數(shù)據(jù)集上，與其他模型的對(duì)比

實(shí)驗(yàn)結(jié)果展示

CVPR2019：SDVC

題目
Streamlined Dense Video Captioning
下載鏈接
動(dòng)機(jī)
這篇文章是做Dense Video Captioning（以下簡(jiǎn)稱DVC），就是在一個(gè)長(zhǎng)視頻中找出所有的events，然后對(duì)每一個(gè)event生成caption。在這個(gè)問題中，現(xiàn)有的方法都是分為兩個(gè)步驟，首先，提取event proposals，然后，生成captions。這會(huì)導(dǎo)致生成的captions存在冗余和不一致，因?yàn)闆]有考慮events之間的時(shí)間依賴性。
貢獻(xiàn)

提出一個(gè)新穎的DVC方法，可以利用events之間的時(shí)間依賴性生成captions。

提出使用two-level (episode, event) rewards的強(qiáng)化學(xué)習(xí)方法，可以提高captions之間的一致性和event description的質(zhì)量。

可以達(dá)到state-of-the-art。

方法
和現(xiàn)有方法對(duì)比，Event Detection的區(qū)別如下圖所示。已有的方法都是提取獨(dú)立的event，本文將提取的event進(jìn)行排序，生成序列的captions，加強(qiáng)captions之間的關(guān)聯(lián)性。

本文方法的整體框架如下圖所示，主要分為三部分：Event Proposal Network（以下簡(jiǎn)稱EPN）、Event Sequence Generation Network（以下簡(jiǎn)稱ESGN）和Sequential Captioning Network（以下簡(jiǎn)稱SCN）。其中，EPN模塊用于提取event，follow了CVPR2017的SST。ESGN模塊用于對(duì)上一個(gè)模塊得到的events進(jìn)行排序，先將候選的proposals按照開始時(shí)間排序，然后輸入到RNN中，在每一步，生成每個(gè)proposal的概率，概率最大的proposal作為當(dāng)前步的event。SCN模塊用于生成captions，使用雙層RNN結(jié)構(gòu)，同時(shí)考慮visual context和linguistic context。

由于具有三個(gè)模塊，本文使用的損失也分為三部分，與三個(gè)模塊分別對(duì)應(yīng)。損失的具體形式如下，這里不一一介紹了。值得注意的是，SCN部分使用強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練，公式（14）是reward。
實(shí)驗(yàn)
ActivityNet Captions validation set上的實(shí)驗(yàn)結(jié)果

ActivityNet Captions validation set上的消融實(shí)驗(yàn)

實(shí)驗(yàn)結(jié)果展示

AAAI2019：FCVC-CF&IA

題目
XXX
下載鏈接
動(dòng)機(jī)
貢獻(xiàn)
方法
實(shí)驗(yàn)

AAAI2019：TAMoE

題目
XXX
下載鏈接
動(dòng)機(jī)
貢獻(xiàn)
方法
實(shí)驗(yàn)

AAAI2019：MGSA

題目
XXX
下載鏈接
動(dòng)機(jī)
貢獻(xiàn)
方法
實(shí)驗(yàn)

AAAI2019：TDConvED

題目
XXX
下載鏈接
動(dòng)機(jī)
貢獻(xiàn)
方法
實(shí)驗(yàn)

ICCV2019：POSSG-GFN

題目
XXX
下載鏈接
動(dòng)機(jī)
貢獻(xiàn)
方法
實(shí)驗(yàn)

ICCV2019：SRL-VCT

題目
XXX
下載鏈接
動(dòng)機(jī)
貢獻(xiàn)
方法
實(shí)驗(yàn)

ICCVW2019：Tale

題目
XXX
下載鏈接
動(dòng)機(jī)
貢獻(xiàn)
方法
實(shí)驗(yàn)

ICCVW2019：EtENet-IRv2

題目
XXX
下載鏈接
動(dòng)機(jī)
貢獻(xiàn)
方法
實(shí)驗(yàn)

IJCAI2019：ViCap（new task）

題目
XXX
下載鏈接
動(dòng)機(jī)
貢獻(xiàn)
方法
實(shí)驗(yàn)

TCSVT2019：DS-RNN

題目
XXX
下載鏈接
動(dòng)機(jī)
貢獻(xiàn)
方法
實(shí)驗(yàn)

TIP2019：CAM-RNN

題目
XXX
下載鏈接
動(dòng)機(jī)
貢獻(xiàn)
方法
實(shí)驗(yàn)

TMM2019：STAT

題目
XXX
下載鏈接
動(dòng)機(jī)
貢獻(xiàn)
方法
實(shí)驗(yàn)

總結(jié)

以上是生活随笔為你收集整理的2019年, video captioning论文汇总的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： 2019年, VQA论文汇总
下一篇： ICCV 2019 《Robust Ch