日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

2020年, video captioning论文汇总

發布時間:2025/3/15 编程问答 18 豆豆
生活随笔 收集整理的這篇文章主要介紹了 2020年, video captioning论文汇总 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

目錄

  • CVPR2020:ORG-TRL
  • CVPR2020:STG-KD
  • TIP2020:OSTG
  • TPAMI2020:SibNet(MM2018)
  • WACV2020:DSD
  • WACV2020:STaTS

CVPR2020:ORG-TRL

  • 題目
    Object Relational Graph with Teacher-Recommended Learning for Video Captioning
    下載鏈接
  • 動機
  • 貢獻
  • 方法


  • 實驗


CVPR2020:STG-KD

  • 題目
    Spatio-Temporal Graph for Video Captioning with Knowledge Distillation
    下載鏈接
  • 動機
    已有的video captioning方法中,使用object-level或scene-level的信息生成captions,而不考慮objects之間的交互,這樣生成的captions缺乏可解釋性。本文提出在空間和時間兩個維度上考慮objects之間的關系。
  • 貢獻
  • 本文提出了新穎的時空圖網絡( spatio-temporal graph network),用于video captioning。
  • 本文提出了基于對象感知的知識蒸餾機制(object-aware knowledge distillation mechanism),用于處理時空圖網絡中的noisy features。
    • 方法
      本文方法的整體框架如下圖所示。其中,從Transformer到output之間存在一條線,作者為了圖像清晰沒有畫出來。
    • 實驗
      在MSR-VTT上的實驗結果:

      在MSVD上的實驗結果:

      在MSVD上的消融實驗:

      一些實驗結果,其中對比的方法出自ICCV 2019。

    TIP2020:OSTG

    • 題目
      Video Captioning with Object-Aware Spatio-Temporal Correlation and Aggregation
      下載鏈接
    • 動機
      本文方法和STG-KD幾乎一致,作者認為準確的video captioning需要不僅需要考慮整體內容和顯著物體,還要考慮物體間的關系(時間+空間)。
    • 貢獻
  • 雙向時間對齊(Bidirectional temporal alignment)。在兩個時間方向上對objects進行對齊,可以實現互補。
  • 基于圖的空間關系學習(Graph based spatial relation learning)。使用圖卷積捕獲每幀中的物體之間的關系,將結果輸入到后續的處理中,提高captions的準確性。
  • 基于對象感知的特征聚合(Object-aware feature aggregation)。本文在物體的雙向軌跡(the bidirectional trajectories of objects)上構造trainable VLAD(Vector of Locally Aggregated Descriptors),可以學到每個物體的具有判別力的特征。
    • 方法
      本文方法的整體框架如下圖所示。其中,VLAD(vector of locally aggregated descriptors)出自
    • 實驗
      在 MSVD數據集上的實驗結果:

      在MSR-VTT上的實驗結果:

      消融實驗:

    TPAMI2020:SibNet(MM2018)

    • 題目
      SibNet: Sibling Convolutional Encoder for Video Captioning
      下載鏈接
    • 動機
      現有的方法中,編碼video的信息時,常使用“一條線”(a single flow),本文為了更好的編碼video信息,提出了“兩條線”(two-branch)方法。其中,第一個分支(內容分支,content branch)使用自編碼器編碼video的視覺內容。第二個分支(語義分支,semantic branch)使用視覺-語義嵌入編碼video的語義信息。然后,使用soft-attention將二者聯合,再使用RNN進行解碼,得到最終輸出。
    • 貢獻
  • 提出Sibling Convolutional Encoder (SibNet),由兩個分支組成,內容分支負責捕獲視覺信息,語義分支用于生成“特定語義 (semantic-specific)”的表示,這種表示可以捕獲某些幀在語義上的重要性,為內容分支提供補充。
  • 本文設計了新的損失函數,由三項組成,分別是:content loss、semantic loss、decoder loss。
    • 方法
      本文方法的整體架構如下圖所示。

      上圖中,TCB(temporal convolutional blocks)是本文提出的一個模塊,其結構如下圖所示。
    • 實驗
      在MSVD上的實驗結果:

      在MSR-VTT上的實驗結果:

      消融實驗:

      與其他模型的參數量對比:

      一些實驗結果展示:

    WACV2020:DSD

    • 題目
      Domain-Specific Semantics Guided Approach to Video Captioning
      下載鏈接
    • 動機
      這篇文章的出發點有些類似于Tracking中的MDNet,基于video features進行domain分類,對于每個domain都有一個語義特定的decoder。
    • 貢獻
  • 提出領域特定(domain-specific)方法,使用領域特定的語義tags進行video captioning。
  • 提出一種同時使用視覺特征和語義特征對video進行domain分類的方法。
  • 提出一種視頻共享的方法生成不同domain的decoder。
  • 提出使用temporal VLAD聚合使用2D-CNN和3D-CNN模型提取的視頻幀的描述符。
    • 方法
      本文方法的整體框架如下圖所示。關于domain,本文使用tags進行聚類,得到多個domain。
    • 實驗
      消融實驗:

      在MSVD數據集上的實驗結果:

      在MSR-VTT數據集上的實驗結果:

      實驗結果展示:

    WACV2020:STaTS

    • 題目
      Spatio-Temporal Ranked-Attention Networks for Video Captioning
      下載鏈接
    • 動機
      本文從空間和時間的角度出發,提出在模型中同時添加兩種不同的attention,并分兩條線、兩種順序添加。第一條線是先S后T,另一條線是先T后S。并在第一條線上添加了本文提出的Ranked Attention。
    • 貢獻
  • 提出s-t和t-s模型,兩條線可以實現互補。
  • 提出ranked attention,使用LSTM對rank-SVM進行仿真。
  • 實驗表明達到了sota。
    • 方法
      本文方法的整體架構如下圖所示。

      其中,ST模塊的結構如下圖所示。其中,Ranked Attention即為ST中的T。

      其中,TS模塊的結構如下圖所示。
    • 實驗
      使用不同特征,在MSVD和MSR-VTT上的實驗結果:

      在MSVD上與SOTA相比:

      在MSR-VTT上與SOTA相比:

    總結

    以上是生活随笔為你收集整理的2020年, video captioning论文汇总的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。