CVPR 2022 Oral | 人大高瓴AI学院提出:面向动态视音场景的问答学习机制
點擊下方卡片,關注“CVer”公眾號
AI/CV重磅干貨,第一時間送達
標 ?? 題:CVPR2022 Oral | 人大高瓴AI學院提出面向動態視音場景的問答學習任務
作??? 者:李光耀?,衛雅珂?,田亞鵬?,徐辰良,文繼榮,胡迪*
你知道AI可以自己欣賞音樂會嗎?而且AI可以知道演奏場景中每一個樂器的演奏狀態,這是不是很神奇?對人類而言,欣賞美妙的音樂會是一件很享受的事情,但對于機器來說,如何將優美的旋律和激昂的演奏畫面珠聯璧合來提升欣賞體驗卻頗有挑戰。
最近,中國人民大學高瓴人工智能學院GeWu實驗室就針對這一問題提出了一種新的框架,讓AI能像人一樣觀看和聆聽樂器演奏,并對給定的視音問題做出跨模態時空推理。
目前這一成果已被 CVPR 2022 接收并選為 Oral Presentation,相關數據集和代碼已經開源。
論文:https://gewu-lab.github.io/MUSIC-AVQA/static/files/MUSIC-AVQA.pdf
代碼(已開源):https://github.com/GeWu-Lab/MUSIC-AVQA
項目地址:https://gewu-lab.github.io/MUSIC-AVQA/
接下來讓我們一起來看一下這個有趣的工作!
1. 引言
我們在日常生活中被視覺和聲音信息所包圍,這兩種信息的結合利用提高了我們對場景的感知和理解能力。想象一下,當我們身處在一場音樂會中時,同時觀看樂器演奏動作和聆聽音樂的旋律可以很好地幫我們享受演出。受此啟發,如何讓機器整合多模態信息,尤其是視覺和聲音等自然模態,以達到與人類相當的場景感知和理解能力,是一個有趣且有價值的課題。因此,我們專注于視聽問答(Audio-Visual Question Answering, AVQA)任務,旨在回答有關不同視覺對象、聲音及其在視頻中的關聯的問題。顯然,必須對視聽場景進行全面的多模態理解和時空推理才能做出正確的回答。
近年來,研究人員在聲音對象感知、音頻場景分析、視聽場景解析和內容描述等方面取得了顯著進展。盡管這些方法能將視覺對象與聲音關聯,但它們中的大多數在復雜視聽場景下的跨模態推理能力仍然有限。相比之下,人類可以充分利用多模態場景中的上下文內容和時間信息來解決復雜的場景推理任務,如視聽問答任務等。現有的視覺問答(VQA)和聲音問答(AQA)方法等往往只關注單一模態,從而不能很好的在真實的視音場景中進行復雜的推理任務。
如下圖所示的單簧管雙重奏場景,當回答“哪個單簧管先發聲?”的問題時,需要在視聽場景中先定位出發聲的單簧管,并在時序維度上重點聚焦于哪個單簧管先發出聲音。要正確回答這個問題,本質上需要有效地對視聽場景理解和時空推理。
圖1 AVQA任務問題樣例展示
對于上面這個例子,若我們僅考慮基于視覺模態的VQA模型則很難對問題中涉及的聲音信息進行處理,相反,若我們只考慮基于聲音模態的AQA模型,同樣難以對問題中涉及的空間位置信息進行處理。但是,我們可以看到同時使用聽覺和視覺信息可以很容易的對場景進行理解并正確的回答上述問題。
2. 數據集
為了更好的探索視聽場景理解和時空推理的問題,我們構建了一個專注于問答任務的大規模的視聽數據集(Spatial-Temporal Music AVQA, MUSIC-AVQA)。我們知道高質量的數據集對于視音問答任務的研究具有相當大的價值,因此,考慮到樂器演奏是一個典型的視音多模態場景,并由豐富的視聽成分及其交互組成,非常適合用于探索視聽場景理解和推理任務。故我們從YouTube上收集了大量用戶上傳的樂器演奏視頻,構建數據集中的視頻包括了獨奏、重奏的合奏等多種演奏形式。具體來說,我們一共選取了22種不同的樂器(如吉他、鋼琴、二胡、嗩吶等),設計了九種問題模板并涵蓋了聲音、視覺和視音三種不同的模態場景類型。
表1 MUCIS-AVQA數據集與其他QA數據集多維對比
如表1所示,我們發布的MUSIC-AVQA數據集具有以下優勢:
1)MUSIC-AVQA數據集涵蓋大量的聲音問題、視覺問題和視聽問題的問答對,比其他問答類數據集更全面豐富。對于大多數問答任務數據集(ActivityNet-QA, TVQA等)來說,僅包含了視覺問題,難以探索視聽相關的研究。雖然現有的AVQA數據集(AVSD, Pano-AVQA等)也提供了視聽問答對,但它們更專注于相對簡單的問題(Existential或Location),只需要空間推理即可做出回答。
2)MUSIC-AVQA數據集由包含豐富視聽成分的樂器演奏場景組成,有助于更好地研究視聽交互場景理解和推理,并可以在一定程度上避免場景中的噪聲問題。大多數公開問答類數據集(ActivityNet-QA, AVSD等)中的聲音信息通常與其視覺對象不匹配,會產生嚴重的噪聲(如背景音樂),這使得它們難以探索不同模態之間的關聯。此外,TVQA數據集雖然包含視覺和聲音模態,但其聲音是由人類說話聲組成的,在其問答對構建過程中也只使用了相應的字幕信息,并不是真正的視音關聯場景。
最終數據集包含了9,288個視頻并包含了22種樂器,其總時長超過150小時。并且以眾包的形式形成了45,867個問答對,平均每個視頻約5個問答對,這些問答對涵蓋了不同模態下的9類問題類型以及33個不同的問題模板。豐富而多樣復雜的數據集對AVQA任務的研究具有相當大的價值和意義。
圖 2 MUSIC-AVQA數據集多維統計分析
3. 模型方法
為了解決上述 AVQA 任務,我們分別從空間和時序感知的角度出發,提出了一種動態視音場景下的空間-時序問答模型(如下圖所示)。首先,聲音及其視覺源的位置反映了視聽模態之間的空間關聯,這有助于將復雜的場景分解為具體的視聽關聯。因此我們提出了一個基于注意力機制的聲源定位的空間模塊來模擬這種跨模態的關聯。其次,由于視聽場景隨時間動態變化,因此捕捉和突出與問題密切相關的關鍵時間戳至關重要。因此,我們提出了使用問題特征作為查詢的時間基礎模塊來聚焦關鍵時間片段,以有效地編碼問題感知音頻和視覺的嵌入。最后,融合上述空間感知和時間感知的視聽特征,得到問答的聯合表示,以預測視頻關聯問題的答案。
圖3 動態視音場景的空間-時序問答模型
4. 實驗結果
如表2所示,引入Audio和Visual模態信息都有助于模型性能的提升。此外,能明顯看到當結合聲音和視覺模態時,AV+Q 模型的性能比A+Q和V+Q模型要好得多,這表明多感官感知有助于提升問答任務的性能。我們也能看到視音空間關聯模塊和時序關聯模塊都能夠很明顯的提升模型的性能,從而更好地對場景進行理解。
表2 不同模態消融實驗表
表3展示了一些最近的QA方法在我們的MUSIC-AVQA數據集上的結果。結果首先表明所有的AVQA方法都要好于VQA、AQA和VideoQA方法,這說明多模態感知可以有益于AVQA任務。其次我們的方法在大多數視聽問題上取得了相當大的進步,尤其是對于需要空間和時序推理的視聽問題更為明顯(如Temporal和Localization等)。
表3 與其他QA類方法對比
為了進一步說明所提模型的有效性和可解釋性,我們進行了一些可視化展示。其中熱力圖表示聲源的位置,熱力圖下方的表格表示時序上的注意力分數。從可視化結果可以明顯看出所提的模型在多模態視聽場景中具有很好的理解和推理能力。
圖4 可視化結果
5. 總述
總體來說,本文探索了如何回答有關不同視覺對象、聲音及其在視頻中的關聯的問題,從而對動態復雜的視音場景進行細粒度理解和推理。作者團隊構建了一個包含45,867個不同視聽模態和多種問題類型問答對的大規模MUSIC-AVQA數據集,以及提出了一個簡單高效的視音時序-空間模型來很好的解決AVQA問題。我們相信提出的MUSIC-AVQA數據集可以成為評估視聽場景細粒度理解和時空推理的基準平臺,同時也認為這項工作是探索視聽推理的開篇之作,為該領域開創了一個良好的開端,并借此希望能夠激勵更多的研究者同我們一道去探索這一領域。
團隊主要來自人大AI學院
本項研究由中國人民大學高瓴人工智能學院主導,與美國羅徹斯特大學合作完成,通訊作者為GeWu實驗室胡迪助理教授,主要內容由GeWu實驗室博士生李光耀負責。
GeWu實驗室目前具體的研究方向主要包括多模態場景理解、多模態學習機制和跨模態交互與生成等,最近半年實驗室同學已發表多篇高質量文章,如TPAMI(人工智能領域影響因子最高的期刊,IF=17.861)和多篇CVPR(均為Oral)。
PS:我們發現常用的多模態模型存在欠優化的單模態表征,這是由某些場景中另一種主導模態導致的。為此我們設計了OGM-GE方法,通過監控不同模態對學習目標的貢獻差異來自適應地調制每種模態的優化,從而緩解了這種優化上的不平衡。這篇工作也被CVPR2022接收為Oral Presentation,具體內容我們將在后續發布中解說。
此外,GeWu實驗室非常歡迎對上述研究方向感興趣的同學加入(本、碩、博和訪問學生),詳情請進一步查看實驗室招生宣傳?:
https://zhuanlan.zhihu.com/p/496452639)
ICCV和CVPR 2021論文和代碼下載
后臺回復:CVPR2021,即可下載CVPR 2021論文和代碼開源的論文合集
后臺回復:ICCV2021,即可下載ICCV?2021論文和代碼開源的論文合集
后臺回復:Transformer綜述,即可下載最新的3篇Transformer綜述PDF
目標檢測和Transformer交流群成立 掃描下方二維碼,或者添加微信:CVer6666,即可添加CVer小助手微信,便可申請加入CVer-Transformer或者目標檢測?微信交流群。另外其他垂直方向已涵蓋:目標檢測、圖像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超分辨率、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感圖像、行為識別、視頻理解、圖像融合、圖像檢索、論文投稿&交流、PyTorch、TensorFlow和Transformer等。 一定要備注:研究方向+地點+學校/公司+昵稱(如Transformer或者目標檢測+上海+上交+卡卡),根據格式備注,可更快被通過且邀請進群▲掃碼或加微信: CVer6666,進交流群 CVer學術交流群(知識星球)來了!想要了解最新最快最好的CV/DL/ML論文速遞、優質開源項目、學習教程和實戰訓練等資料,歡迎掃描下方二維碼,加入CVer學術交流群,已匯集數千人!▲掃碼進群 ▲點擊上方卡片,關注CVer公眾號整理不易,請點贊和在看總結
以上是生活随笔為你收集整理的CVPR 2022 Oral | 人大高瓴AI学院提出:面向动态视音场景的问答学习机制的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: ZOJ1111 - Poker Hand
- 下一篇: 丘比特之箭——知乎多场景内容匹配项目:实