ICCV 2019 | 通过多标签相关性研究提升神经网络视频分类能力
作者丨王磊
單位丨汽車之家視頻理解工程師
研究方向丨深度學習、計算機視覺
本文介紹了汽車之家團隊 ICCV 2019 一篇關于視頻理解論文相關的工作。針對視頻多標簽分類的問題,論文提出了將視頻多標簽之間相關性特征加入到網(wǎng)絡之中,結(jié)果證明該方法可以顯著的提高視頻多標簽分類效果。本文作者為該論文原作者。
背景介紹
隨著短視頻應用的不斷普及,基于視頻內(nèi)容的理解與分析也成為計算機視覺領域一個熱門的方向。2017 年,Google 開源了其大規(guī)模視頻內(nèi)容數(shù)據(jù)集 Youtube-8M,鼓勵研究者利用深度學習技術(shù)對視頻內(nèi)容進行理解分析。
最新的 Youtube-8M 數(shù)據(jù)集包括兩部分,第一部分為 video-level(視頻層級)的標注,該部分總計包含 610 萬個已標注的視頻,3862 個分類,平均每個視頻標注了 3 個標簽;第二部分為 segment-level(視頻片段標注),該部分挑選了 1000 個分類,對視頻中隨機抽取的 5 秒片段進行標注,該部分總共有 23.7 萬個標注數(shù)據(jù);值得注意的是,segment-level 的數(shù)據(jù)標注僅標注了抽取的 5 秒視頻片段是否屬于某一特定標簽,并沒有標識該視頻片段的所有標簽。
標簽相關性
近年來,視頻理解成為計算機視覺領域的一個熱點方向。相比較圖像內(nèi)容,視頻內(nèi)容更為復雜多樣,因此對于視頻內(nèi)容而言,單個標簽很難完整的表征視頻的內(nèi)容,對于視頻內(nèi)容理解分析大多為多標簽的分類問題。
在視頻的多標簽中,標簽之間會有一定的相關性并成對出現(xiàn);如圖一所示(標簽從 Youtube8M 數(shù)據(jù)集中選取),當寶馬(BMW)、發(fā)動機(Engine)的標簽出現(xiàn)時,汽車(Car)的標簽大概率也會出現(xiàn);但是當汽車的標簽出現(xiàn)時,寶馬標簽出現(xiàn)的可能性則非常低。
▲?圖1. 標簽有向圖示例
通過對 Youtube8M 數(shù)據(jù)集的部分標簽數(shù)據(jù)進行分析,可以得到一個圖來表征各個標簽之間的關系,如圖二所示。
▲?圖2.?標簽相關性Weighted-Graph表示
圖二中每個不同顏色的節(jié)點代表一個獨立的標簽類別,不同節(jié)點之間的連線代表著兩個節(jié)點之間是否有相關性,節(jié)點之間連線上的數(shù)值則代表了不同的標簽之間聯(lián)系的緊密程度,數(shù)值越大,則聯(lián)系越高;沒有聯(lián)系的節(jié)點之間則不會有線連接。通過對視頻的多標簽之間的相關性進行建模分析,并通過圖神經(jīng)網(wǎng)絡將標簽類別映射為對應類別分類器加入到最終的視頻多標簽分類網(wǎng)絡之中,可以提升整體模型的學習分類能力。
圖卷積神經(jīng)網(wǎng)絡
如何有效獲取目標標簽之間的相關性?如何利用這些標簽相關性提升網(wǎng)絡的特征學習以及分類表現(xiàn)?這是視頻多標簽分類的兩個重要問題。由于圖的特點可以很好的表征各個標簽之間的相互依賴性,因此我們選擇基于圖神經(jīng)網(wǎng)絡進行建模學習,并用于最終視頻分類網(wǎng)絡中。一個圖神經(jīng)網(wǎng)絡的基本結(jié)構(gòu)如圖三所示:
▲?圖3.?圖卷積網(wǎng)絡示例
Input輸入有兩個,一個為特征描述矩陣 H(n*d),另一個為相關系數(shù)矩陣 A(n*n),其中 n 為節(jié)點個數(shù),即數(shù)據(jù)集標簽的個數(shù),d 為特征的維度,特征維度由根據(jù)采用的 CNN 結(jié)構(gòu)決定。?
相關系數(shù)矩陣是 GCN 網(wǎng)絡中表征標簽關系的一個矩陣,因此如何構(gòu)建相關系數(shù)矩陣 A 就成了 GCN 模型中一個非常重要的問題。由于 Youtube8M 數(shù)據(jù)集有超過 600 萬的 video-level 的視頻標注數(shù)據(jù),因此我們可以通過挖掘標簽在數(shù)據(jù)集中的共現(xiàn)情況來初始化相關系數(shù)矩陣 A。?
如下公式所示,為標簽 i 在數(shù)據(jù)中出現(xiàn)的次數(shù),為標簽 i 和標簽 j 兩個標簽一起出現(xiàn)的概率,兩者相除便可以得到不同標簽之間的條件概率。
考慮到標注數(shù)據(jù)中可能存在不準確的情況以及標簽在訓練和測試集中共現(xiàn)的次數(shù)可能會相差比較大,因此我們設置了一個閾值剔除相關性比較弱的噪聲的影響。對于上面得到的矩陣 P,只有其值大于某特定值(論文中為 0.5)的時候才會考慮,否則矩陣中這兩個標簽的相關度會設置為 0:
Hidden Layer 用來學習節(jié)點之間的相關信息并更新節(jié)點表示,每一個 Hidden Layer 都可以用一個非線性函數(shù)表示:
Hidden Layer 可以有多層,堆疊多個 GCN 層來對節(jié)點之間交織的復雜關系進行建模。在本論文中 Hidden Layer 為兩層,通過訓練學習便可以得到優(yōu)化后的表征標簽相關性的矩陣 Output,并用于幫助視頻標簽分類。
整體網(wǎng)絡
最終的完整網(wǎng)絡結(jié)構(gòu)如圖四所示,我們使用 InceptionV3 來提取輸入視頻的特征;NeXtVLAD 網(wǎng)絡是第二屆 Youtube8M 比賽單模型冠軍網(wǎng)絡,該網(wǎng)絡可以很好的視頻的多維度特征進行聚合,并且在降低特征維度的同時還能很好的保證模型性能;在網(wǎng)絡的下半部分,我們用一個雙層的 GCN 網(wǎng)絡來幫助進行最后的視頻標簽分類。
▲?圖4.?視頻多標簽分類網(wǎng)絡
最終的對比實驗中,加入 GCN 后的視頻多標簽分類網(wǎng)絡 MAP (Mean-Average-Precision) 提高了接近一個百分點,GCN 網(wǎng)絡的加入顯著性顯著的提高了視頻多標簽的分類能力;也證明了對于多標簽分類任務,通過研究多標簽之間的相關依賴關系提升網(wǎng)絡分類能力是一個很好的方向。
結(jié)論
視頻理解與分析是計算機視覺領域的一個熱門問題,針對視頻的特征提取以及特征聚合全世界的研究已經(jīng)做了大量的工作。本文提出了從多標簽相關性的視角來提升視頻的多標簽分類能力,并進行了有效的實驗驗證。通過對視頻的圖像特征、時序特征、標簽相關性特征進行融合的分類網(wǎng)絡可以很好的增強神經(jīng)網(wǎng)絡的視頻理解能力。
點擊以下標題查看更多往期內(nèi)容:?
ICCV 2019 | 沉迷AI換臉?不如來試試“AI換衣”
ICCV 2019?| 單幅圖像下實現(xiàn)任意尺度自然變換
ICCV 2019?| 打造炫酷動態(tài)的藝術(shù)字
ICCV 2019 | 基于關聯(lián)語義注意力模型的圖像修復
ICCV 2019 | 基于元學習和AutoML的模型壓縮
ICCV 2019?| 適用于視頻分割的全新Attention機制
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學習心得或技術(shù)干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創(chuàng)作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發(fā),請在投稿時提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認每篇文章都是首發(fā),均會添加“原創(chuàng)”標志
???? 投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發(fā)送?
? 請留下即時聯(lián)系方式(微信或手機),以便我們在編輯發(fā)布時和作者溝通
????
現(xiàn)在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術(shù)平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 下載論文
與50位技術(shù)專家面對面20年技術(shù)見證,附贈技術(shù)全景圖總結(jié)
以上是生活随笔為你收集整理的ICCV 2019 | 通过多标签相关性研究提升神经网络视频分类能力的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 夏天用保鲜柜卖肉怎么样
- 下一篇: Russell大师课+大厂专家倾授+5小