當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

NeurIPS 2018 | 基于自监督学习的视听觉信息同一性判断

發布時間：2024/10/8 编程问答 48 豆豆

生活随笔收集整理的這篇文章主要介紹了 NeurIPS 2018 | 基于自监督学习的视听觉信息同一性判断小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

在碎片化閱讀充斥眼球的時代，越來越少的人會去關注每篇論文背后的探索和思考。

在這個欄目里，你會快速 get 每篇精選論文的亮點和痛點，時刻緊跟 AI 前沿成果。

點擊本文底部的「閱讀原文」即刻加入社區，查看更多最新論文推薦。

這是 PaperDaily 的第?124?篇文章

作者丨武廣

學校丨合肥工業大學碩士生

研究方向丨圖像生成

視覺和聽覺存在著緊密的關聯，同時空下視覺和聽覺不僅在語義上存在著一致性，在時序上也是對齊的。失聰患者可以利用視覺信息做出判斷，盲人也可以利用聽覺信息做出判斷，而一般正常人對事物的決策往往是結合視覺和聽覺協同完成的。

達特茅斯學院和?Facebook 聯合發表于?NeurIPS 2018 的這篇文章正是通過對視覺和聽覺信息做同一性判斷，在整體上優化視覺特征和聽覺特征提取網絡，在獨立模態下也提高了各自的任務準確率。不同于我們之前說的 Look, Listen and Learn [1]，這篇論文不僅僅在語義上判斷視覺和聽覺的一致性，還在時序上做了嚴格對齊判斷。

論文引入

日常休閑娛樂很多人喜歡看電影，有時看電影的過程中會出現畫面和音頻對不上的情況，這會大大降低觀影體驗。為什么我們會察覺到畫面和音頻對不上呢？

這就是人類潛意識里已經建立了視覺和聽覺上對應的關系，一旦客觀現象中視覺和聽覺信息對應不上，我們立馬就會發現哪里出現了問題。人類不僅僅可以察覺畫面和音頻對應不上，結合已有的知識甚至可以推斷是畫面延遲了還是音頻延遲了。?

目前機器學習大部分還是停留在單一模態下信息的分析和學習，比如計算機視覺是一個大的研究方向，音頻分析和處理又是一個方向。然而，機器如果想更進一步的智能化，必須要像人類一樣，利用多模態去分析和學習，結合不同模態下的信息和聯系做出判斷和決策。

已經有越來越多的研究者關注到了多模態信息的學習，跨模態檢索、遷移學習、多模態信息聯合決策、跨模態轉換等。視覺和聽覺這兩個模態，本身就是嚴格關聯的，只要物體運動了，視覺上的變化勢必會帶來聽覺上聲音的產生，如何結合視覺和聽覺信息去提高視覺任務和聽覺任務的處理，正是我們今天要看的這篇論文的核心。?

如何去結合視覺和聽覺信息呢？論文采用的方式是“視聽覺時間同步”英文縮寫為 AVTS (Audio-Visual Temporal Synchronization)，就是在語義和時序上對視覺和聽覺信息做對齊判斷，如果視覺信息和聽覺信息不僅在語義上是關聯的（視頻和聲音是可以對上的）而且在時序上也是對齊的（視頻和聲音不存在延遲，是對齊關系的）就判斷為同步信息，否則認為是非同步。優化決策結果，則會提高視覺和聽覺特征提取網絡，特征提取好了自然在獨立的任務上可以取得改善。?

筆者在之前的論文解讀中對 Look, Listen and Learn 一文簡稱為做過分析 [2]，也是對視覺和聽覺信息做關聯性判斷，但是判斷視覺和聽覺關聯上僅僅是通過語義上是否關聯判斷的，而論文 AVTS 則是在此基礎上考慮到視頻的時序信息，進一步嚴格了視覺和聽覺的同步性判斷。?

利用視頻和音頻之間的相關性作為特征學習的方法，在訓練過程中是不引入人為標簽的，拿來視頻和音頻只需要知道是否是同步的不需要任何其它的標簽就可以優化整體網絡，這種方式符合自監督學習方法，所以論文的標題特意強調文章是在自監督下完成同步性判斷的。

這對于處理視頻這樣的大數據集是可觀的，一旦利用 AVTS 自監督方式預訓練好特征提取網絡可以在微調階段發揮出更好的效果的同時，不引入額外的標注開銷。?

總結一下 AVTS 的優勢：?

視覺聽覺在語義和時序同步性判斷；
視聽覺相關性判斷，實現了自監督學習特征提取；
預訓練 AVTS 模型在視覺信息和聽覺信息獨立任務上取得了提高。

AVTS模型

VTS 模型是對視覺信息和聽覺信息在語義和時序上同步性的判斷，判斷結果是二分類問題，要么同步要么不同步，我們先看一下模型框架：

由上圖 (a) 所示，AVTS 模型采取的是雙流結構，一路是視頻特征提取網絡，一路是音頻特征提取網絡，對提取得到的特征利用對比度損失進行優化。

整體上看 AVTS 還是很容易理解的，我們要強調一下具體的實現。

我們先從模型優化的訓練集說起。整體訓練集定義為由 N 個標記的音頻視頻對組成。其中 a(n) 表示音頻第 n 個樣本，v(n) 表示視頻第 n 個樣本（視頻由連續幀組成），標簽 y(n)∈{0,1} 表示視頻和音頻是否同步，0 為不同步，1 為同步。?

訓練集選擇同一視頻下時序對應的視頻和音頻為同步的正例，對于負例，定義不同視頻下視頻和音頻為簡單負例，同一視頻下時序不同步的為硬（“hard”）負例，硬負例下時序相差太遠的定義為超硬負例，我們由下圖可以進一步理解正負例定義原則。

優化 AVTS 模型中，論文作者一開始直接采用交叉熵損失進行優化，發現從頭開始學習時很難在這種損失下實現模態間的融合，通過最小化對比度損失可以獲得更一致和穩健的優化，在正對上產生小距離，在負對上產生更大距離：

其中為視頻提取的特征表示，為音頻提取的特征表示，對于標簽 y(n)=1 時，此時最小化對比度損失E時需要與盡可能相近，也就是希望同步的視頻特征和音頻特征盡量相近。

對于非同步的視頻-音頻對，即 y(n)=0 時，對應到公式的后一項，只有當與距離越遠的時候，才會比 0 要小，此時 max 達到最佳值 0，其中 η 為邊際超參數。

對于視頻特征提取網絡 (b)，文章采用 2D 和 3D 卷積網絡結合實現，我們簡單分析一下 3D 卷積網絡，對于 (b) 圖中對應的是前 2 個卷積塊，后 3 個卷積塊為 2D 卷積網絡，最后一層為全連接層。

3D 卷積網絡下視頻輸入是包含幀的，這里輸入的視頻幀為 3，長寬為 7 × 7，通道數為 3，batchsize 為 64。論文解釋為在特征提取的后半部分將不再依靠時間軸，這時候可以直接利用 2D 卷積網絡，論文稱這種方法為混合卷積架構（MC），實驗也驗證了混合架構性能要好些。

對于音頻信息，先要對音頻信息提取對應的聲譜圖然后再對其利用2D卷積網絡做特征提取，網絡結構為 (c) 圖展示。

課程方式訓練

論文在訓練模型的時候發現，如果一開始對負例的選擇上簡單負例和硬負例按 3:1 訓練時，訓練效果很一般。論文認為一開始讓模型去區分硬負例有些太難了，文章采用循序漸進增進難度的方式。

論文實驗發現在前 50 個 epoch 下負例只選擇簡單負例，在 51-90 epoch 下簡單負例和硬負例按 3:1 訓練時，模型效果最佳。這個也符合人類的學習方式，一上來就做難題不僅打擊自信，基礎也不能打扎實，只有掌握了充分的基礎知識后，再做些難題才能錦上添花。

論文對比了設置課程的效果：

實驗

訓練上邊際超參 η 為 0.99，訓練在四塊 GPU 機器上完成，每個 GPU 有一個小批量的 16 個樣本。每次損失值在超過 5 個時期內沒有減少時，學習率將縮放 0.1。

在驗證視覺信號和聽覺信號同步性問題，論文做了與的對比：

在評估視覺特征性能時，正如預期的那樣，使用動作類標簽對 Kinetics 數據集進行預訓練可以提高 UCF101 和 HDMB51 的準確度。但是，這會占用 500K 視頻剪輯上手動標記的巨大成本。相反，AVTS 預訓練是自監督的，因此它可以應用于更大的數據集而無需額外的人工成本。

在評估聽覺特征性能時，直接在音頻特征提取的 conv_5 AVTS 功能上訓練多類一對一線性 SVM，以對音頻事件進行分類。通過對樣本中的分數求平均來計算每個音頻樣本的分類分數，然后預測具有較高分數的類。

可以看到，AVTS 在音頻分類任務上取得了比人工稍好的效果。更多實驗，可以進一步閱讀原文。

總結

視聽覺時間同步（AVTS）的自監督機制可用于學習音頻和視覺領域的模型，通過視覺和聽覺上的相關性實現視覺和聽覺上性能的提高，視覺和聽覺上的關聯，對于視覺下運動分析可以很好的結合聽覺上的特征信息進一步提高判別和識別的準確。可以想象。視聽覺結合對于提高分類和識別任務上還有進一步提升空間。

參考文獻

[1]?Relja Arandjelovi? and Andrew Zisserman. ook, Listen and Learn. In ICCV 2017.

[2] www.paperweekly.site/papers/notes/594

本文由 AI 學術社區 PaperWeekly 精選推薦，社區目前已覆蓋自然語言處理、計算機視覺、人工智能、機器學習、數據挖掘和信息檢索等研究方向，點擊「閱讀原文」即刻加入社區！

點擊標題查看更多論文解讀：?

自動機器學習（AutoML）最新綜述
自然語言處理中的語言模型預訓練方法
從傅里葉分析角度解讀深度學習的泛化能力
深度解讀DeepMind新作：史上最強GAN圖像生成器
兩行代碼玩轉Google BERT句向量詞向量
本周有哪些值得讀的AI論文？進來告訴你答案
TensorSpace：超酷炫3D神經網絡可視化框架
深度長文：NLP的巨人肩膀（上）

#投稿通道#

?讓你的論文被更多人看到?

如何才能讓更多的優質內容以更短路徑到達讀者群體，縮短讀者尋找優質內容的成本呢？?答案就是：你不認識的人。

總有一些你不認識的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁，促使不同背景、不同方向的學者和學術靈感相互碰撞，迸發出更多的可能性。?

PaperWeekly 鼓勵高校實驗室或個人，在我們的平臺上分享各類優質內容，可以是最新論文解讀，也可以是學習心得或技術干貨。我們的目的只有一個，讓知識真正流動起來。

??來稿標準：

? 稿件確系個人原創作品，來稿需注明作者個人信息（姓名+學校/工作單位+學歷/職位+研究方向）?

? 如果文章并非首發，請在投稿時提醒并附上所有已發布鏈接?

? PaperWeekly 默認每篇文章都是首發，均會添加“原創”標志

? 投稿郵箱：

? 投稿郵箱：hr@paperweekly.site?

? 所有文章配圖，請單獨在附件中發送?

? 請留下即時聯系方式（微信或手機），以便我們在編輯發布時和作者溝通

現在，在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

關于PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域，歡迎在公眾號后臺點擊「交流群」，小助手將把你帶入 PaperWeekly 的交流群里。

▽ 點擊 |?閱讀原文?| 下載論文

總結

以上是生活随笔為你收集整理的NeurIPS 2018 | 基于自监督学习的视听觉信息同一性判断的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：近期知识图谱顶会论文推荐，你都读过哪几篇
下一篇：经典论文复现 | 基于深度卷积网络的图像