日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

偶像剪辑,一键获取:多模态联合建模的视频人物摘要

發布時間:2024/10/8 编程问答 48 豆豆
生活随笔 收集整理的這篇文章主要介紹了 偶像剪辑,一键获取:多模态联合建模的视频人物摘要 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

「論文訪談間」是由 PaperWeekly 和中國中文信息學會社會媒體處理專委會(SMP)聯合發起的論文報道欄目,旨在讓國內優質論文得到更多關注和認可。

?

社交媒體的興起推動了“二次創作”的流行。其中,旨在對原始視頻進行濃縮,以關鍵幀或者高亮片段的形式涵蓋原始視頻的視頻摘要成為重要形式之一。而在視頻摘要之中,面向特定人物的“視頻人物摘要”,即從指定的影視視頻中剪輯特定人物出場片段所組成的摘要,受到了廣泛的關注和應用。例如,某位明星的影迷們經常將明星出場的片段單獨剪輯作為收藏。事實上,視頻服務商們也已開始提供類似的功能,如騰訊視頻的“只看 TA”功能等。

然而,目前面向“視頻人物摘要”的二次創作仍以人工實現為主。其原因之一在于現有技術難以有效適應這一應用場景。例如,傳統的人物重識別技術在面向特定場景,如穩定的背景、固定的衣著和姿態等條件下的人物捕捉有著較好的效果,但對于影視場景中多變的角度、姿態、衣著等情況下乏善可陳。與此同時,社交媒體中所富含的其他模態信息,尤其是由大眾所創造的眾包文本信息(如彈幕)往往難以與現有技術實現有效結合。

針對以上問題,本文引入了一個新的框架用于自動生成視頻人物摘要,并通過文本與視覺的模態融合來增強摘要的質量。該任務可以定義為:給定包含多模態信息的原始視頻以及目標人物,目的是從原始視頻中自動抽取出包含目標人物的摘要視頻。

接下來介紹本文中視頻人物摘要框架的主要結構,如圖 1 所示,本摘要框架由人物檢測模塊,人物重識別模塊和關鍵幀聚合模塊組成:

▲?圖1.?視頻人物摘要的整體框架

人物檢測模塊(Person Detection)的主要作用是無差別地檢測出視頻中出現的所有人物,這部分主要是對 R-cnn 系列的 detector 進行微調——我們使用基于 ResNet-50 初始化的 Cascade R-CNN 構建一個簡單的二分類器(是否包含人),從而逐幀地預測人物出現的區域(Regions of Interest, RoI),人物檢測模塊可以看做是對視頻流數據所進行的預處理。

人物重識別模塊(Person Re-identification)的主要作用是在人物檢測模塊的基礎上,判斷每一個候選的人物出現區域是否包含了目標人物c。具體來說,模型的輸入為一對 <目標查詢 q,候選 g>,我們先是對候選 g 包含的人物區域以及附近的文本信息進行特征抽取,得到候選 g 的多模態特征,繼而參考 Y.Shen et al. (2018) 中的張量積匹配方法,以度量學習的思路,計算候選 g 與目標查詢 q 之間的相似度。模型的輸出為一個二元數組,判斷目標對象和候選對象是否屬于同一個人物,[1,0] 代表是,[0,1] 代表否。

▲?圖2.?多模態重識別模型

在視覺與文本特征的融合過程中,一個重要的問題就是文本中普遍存在的高噪聲會對特征融合產生負面影響。針對文本信息如何降噪的問題,本文結合視覺 context,先是通過注意力機制進行 document-level 的降噪。

如圖 2 所示,我們認為相近時間內的文本更可能表達相似的語義和構成對人物的相似的描述,所以我們把時間窗口內的文本劃分為 k 個段落的集合,并通過 Char-LSTM 或 Neural Topic Model 得到初始的文本特征矩陣?,文本特征矩陣的每一行都對應一個段落內的文本的聯合表征向量,其中 r 表示文本的聯合表征向量的維度。同時,不同段落的文本描述與人物的相關性可能各有不同,所以我們通過一個注意力機制來計算每個段落的文本向量??的重要性得分?:


其中 Vis 表示模型主干的頂層特征圖通過全局池化和全連接層后壓縮得到的語義向量,之所以選擇使用頂層的特征圖作語義向量的映射,是因為在卷機網絡中,越頂層特征圖往往越能表達越抽象的語義信息。我們根據重要性更新每個段落的語義向量:

繼而我們又考慮到彈幕評論作為一類主觀性很強的文本,與作為客觀描述的字幕文本在適用場景上迥異,所以根據情境選擇合適的文本類型將是很重要的,我們通過文本源選擇機制對合適的文本源(字幕 or 彈幕文本)進行篩選。

如圖 3 所示,我們拼接目標查詢 q 和候選 g 的頂層的視覺特征圖,得到一個聯合的特征圖,其中 w,h,c 分別代表特征圖的寬,高和通道數量,將 Uv?經過全局池化層,2 x 2 的池化層(步長為 2),全連接層和 sigmoid?非線性函數后,最終就得到了文本源選擇向量。

▲?圖3:文本源選擇機制

關鍵幀聚合模塊(Key-frame Aggregation)的主要作用是根據重識別模塊判斷的存在目標人物的關鍵幀,通過基于時序關聯性的啟發式方法,將零散的關鍵幀聚合為流暢的視頻片段,最后形成面向目標人物的視頻摘要。

實驗部分,本文收集了 bilibili 視頻網站上的視頻數據,共包含 167 個長視頻(包含 32 部動漫,19 部電影),以及相應的字幕和彈幕文本。并分別在動漫和電影數據集上做了評估:

▲?表1:人物搜索(Person Search)效果對比

可以看到文本信息的引入對于搜索精度有較大的提升,在多數指標上都取得了最好的效果。本文同時也針對摘要結果進行了主觀的評估(一致性 3 分,顯著性 2 分),模型在動漫和電影數據集上相較于基礎模型也分別取得了 0.22 和 0.09 的提升,本文還通過一些直觀的案例來展示模型效果:

▲?圖4.?文本描述為人物身份識別提供有益線

最后,我們通過考察高權重的文本主題分布,歸納了文本主題在視頻人物搜索任務上的規律,如表 2 所示,通過統計分析,我們發現包含身份/昵稱和外觀描述的文本信息在該任務上更受青睞也更有價值:

▲?表2.?高權重文本信息的主題分布

作者有話說

我們的創新之處在于,將文本信息使用到視頻人物搜索和摘要過程中,通過降噪后的文本信息來為人物身份識別提供新的線索,并設計了能夠進行自動人物摘要的整體流程。實驗結果也表明,通過該方法得到的摘要框架具有更高的搜索精度和摘要質量。

我們的后續工作將主要著眼于更進一步的視頻理解,我們將在視頻人物檢索的基礎上,通過人物的共現(co-occurrence),在多模態的 context 下進行人物關系的理解。

此外,在人物檢索和摘要問題上,如何利用更豐富的多模態信息(諸如音頻特征,人臉特征),如何對不同模態進行降噪和有效的融合,如何細致地處理 detection 和 re-identification 之間的誤差傳遞問題,如何提升搜索效率等等,都是可以思考的角度,也對應著很大的提升空間。

相關論文

Peilun Zhou, Tong Xu, Zhizhuo Yin, Dong Liu, Enhong Chen, Guangyi Lv, Changliang Li, Character-oriented Video Summarization with Visual and Textual Cues, IEEE Transactions on Multimedia, 2019

關于作者

周培倫,中國科學技術大學碩士研究生。?于 2017 年獲得中國科學技術大學學士學位。目前于安徽省大數據分析與應用重點實驗室攻讀碩士學位。主要研究方向包括多模態學習,計算機視覺與自然語言處理。

徐童,中國科學技術大學副研究員。?于 2016 年獲得中國科學技術大學博士學位。現為中國中文信息學會青年工作委員會委員、中文信息學會社會媒體處理專委會通訊委員。主要研究方向為社交網絡與社交媒體分析,近年來,在相關領域國際重要期刊及會議發表論文近 50 篇。

尹智卓,中國科學技術大學本科生。?于 2019 年獲得中國科學技術大學學士學位。主要興趣方向是計算機視覺與高性能計算。

劉東,中國科學技術大學副教授。?于 2004 年和 2009 年分別獲得中國科學技術大學學士和博士學位。以作者身份發表國際會議與期刊論文逾百篇,研究內容主要包括圖像與視頻編碼,多媒體信號處理和多媒體數據挖掘等。曾獲 2009 年 TCSVT 最佳論文獎。

陳恩紅,中國科學技術大學教授、大數據學院執行院長。?主要研究內容包括數據挖掘,機器學習,社交網絡分析與推薦系統,在相關領域發表國際會議與期刊論文兩百余篇。包括Nature Communications, IEEE/ACM Transactions, KDD, NIPS, IJCAI and AAAI 等。擔任 KDD, ICDM, 和 SDM 等國際學術會議程序委員會委員。曾獲 KDD’2008最佳應用論文獎,ICDM’2011 最佳研究論文獎和 SDM’2015 最佳論文獎。

呂廣奕,中國科學技術大學博士。?于2013年和2019年分別獲得中國科學技術大學學士和博士學位。研究內容主要包括深度學習,自然語言處理和推薦系統。

李長亮,金山公司AI Lab負責人。?于2015年獲得中國科學研究院自動化所博士學位。研究內容主要包括深度學習,自然語言處理和數據挖掘。曾在EMNLP, IJCNN, PAKDD, NLPCC等頂級國際會議上發表多篇論文。

主辦單位

點擊以下標題查看更多往期內容:?

  • 巧用文本語境信息:基于上下文感知的向量優化

  • 雇水軍刷分有效嗎?虛假評論的影響研究分析

  • 基于深度強化學習的謠言早期檢測模型

  • KDD 2019 | 使用神經網絡為A*搜索算法賦能

  • 讓陌生人說出你的興趣:基于深度學習的推薦模型

  • 基于雙層注意力機制的異質圖深度神經網絡

  • 堅守還是離開?初期城市移民流失預測問題分析

    ????

現在,在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

關于PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。

▽ 點擊 |?閱讀原文?| 下載論文

總結

以上是生活随笔為你收集整理的偶像剪辑,一键获取:多模态联合建模的视频人物摘要的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。