音视频多模态研究点
音視頻多模態研究點介紹
前言
關于多模態的學習,其實有很多的研究領域。在音視頻方面主要有以下幾個相關論文,這是我參照github上一位作者公布的論文名單:
https://github.com/pliang279/awesome-multimodal-ml#audio-and-visual
下面我簡單記錄論文的相關工作,為今后的研究作為一個鋪墊。論文下載地址在文章末尾。
論文分析
1.Learning Individual Styles of Conversational Gesture
代碼: http://people.eecs.berkeley.edu/~shiry/speech2gesture
摘要:人類的言語通常伴隨著手勢和手臂手勢。給定音頻語音輸入,我們將生成合理的手勢以隨聲音一起移動。具體來說,我們執行跨模式轉換,從單個發言人的“狂野”獨白語音轉換為他們的手和手臂動作;我們在未標記的視頻上進行訓練,對于這些視頻,我們僅從自動姿勢檢測系統中獲得了嘈雜的偽地面真相我們提出的模型在定量比較中明顯優于基線方法,為支持對手勢和語音之間關系的計算理解的研究,我們發布了一個大型的針對特定手勢的視頻數據集。可以在此http URL上找到 。
個人理解:這篇文章是通過給定音頻的輸入,生成一個說話的時候聲音動作的描述。并且他制作了相關的數據集。我們可以通過這個數據集來繼續開展下一步的工作。
2.Capture, Learning, and Synthesis of 3D Speaking Styles
代碼:https://github.com/TimoBolkart/voca
摘要:音頻驅動的三維面部動畫已經得到了廣泛的應用,但實現逼真的、類人的表現仍然是一個未解決的問題。這是由于缺乏可用的3D數據集、模型和標準的評估指標。為了彌補這一點,我們介紹了一個獨特的四維面部數據集約29分鐘的四維掃描捕獲在60幀每秒和同步音頻從12個揚聲器。然后,我們在數據集上訓練一個神經網絡,從面部表情來識別身份。在這個學習模型中,VOCA(語音操作字符動畫)將任何語音信號作為輸入——甚至是英語以外的語言的語音——并逼真地模擬各種各樣的成人面孔。在訓練過程中對子對象標簽進行調整,可以讓模型學習各種現實的說話風格。VOCA還提供了一個imator控件,可以在動畫過程中改變說話風格、依賴身份的面部形狀和姿勢(即頭部、下巴和眼球轉動)。據我們所知,VOCA是唯一被讀取的逼真的三維面部動畫模型。
個人理解:這篇論文的工作是根據一個聲音,還有一個靜態的3d圖生成說話時候的臉部變化。
3.Disjoint Mapping Network for Cross-modal Matching of Voices and Faces
摘要:我們提出了一個新穎的框架,稱為不相交映射網絡(DIMNet),用于跨模式生物特征匹配,尤其是聲音和面部表情。與現有方法不同,DIMNet沒有顯式學習模態之間的聯合關系。相反,DIMNet通過將它們分別映射到它們的共同協變量來學習不同模態的共享表示。這些共享的表示然后可以用來查找模態之間的對應關系。我們從經驗上證明,DIMNet可以比其他當前方法實現更好的性能,并具有從概念上更簡單且數據密集度較低的其他好處。
個人理解:通過聲音和面部的表情進行一個網絡的嵌入。從而更有效地進行識別。這個論文從摘要上看的主要工作還不明顯,需要進一步的從論文中閱讀。
4.Wav2Pix: Speech-conditioned Face Generation using Generative Adversarial Networks
代碼:https://imatge-upc.github.io/wav2pix/
摘要:語音是一種豐富的生物特征信號,其中包含有關說話者的身份,性別和情緒狀態的信息。在這項工作中,我們探索了通過使用原始語音輸入來調節生成對抗網絡(GAN)來生成發言人面部圖像的潛力。我們提出了一種深度神經網絡,該網絡以端到端的方式從頭開始進行訓練,可直接從原始語音波形生成人臉,而無需任何其他身份信息(例如參考圖像或單次熱編碼)。我們的模型通過利用視頻中自然對齊的音頻和視頻信號,以自我監督的方式進行訓練。為了從視頻數據中進行訓練,我們提供了一個為這項工作而收集的新穎數據集,其中包括高質量的youtuber視頻,這些視頻在語音和視覺信號方面均具有出色的表現力。
個人理解:通過生成對抗網絡生成人的面部。該網絡的輸入是只有聲音,因此我在初步看這篇論文時候,感覺會不會有一些識別精度的難點。但是這篇論文很有意思,后面可以做相關的研究。
5.Jointly Discovering Visual Objects and Spoken Words from Raw Sensory Input
代碼:https://github.com/LiqunChen0606/Jointly-Discovering-Visual-Objects-and-Spoken-Words
摘要:在本文中,我們探索了神經網絡模型,該模型學習將語音字幕的片段與它們所引用的自然圖像的語義相關部分相關聯。我們證明,這些視聽關聯的本地化來自網絡內部表示形式,它們是作為執行圖像音頻檢索任務的訓練副產品而學習的。我們的模型直接在圖像像素和語音波形上運行,并且在訓練過程中不依賴任何常規監控,包括標簽,分割或模態之間的對齊方式。我們使用Places 205和ADE20k數據集執行分析,表明我們的模型隱式學習了語義耦合的對象和單詞檢測器。
個人理解:這是一個無監督學習。語音字幕中的片段和對應視頻中相關部分進行相連。
6.Seeing Voices and Hearing Faces: Cross-modal Biometric Matching
代碼:https://github.com/a-nagrani/SVHF-Net
摘要:我們引入了一項看似不可能的任務:僅給某人講話的音頻片段,確定講話者是兩個面部圖像中的哪個。在本文中,我們研究了這一問題以及許多相關的跨模式任務,旨在回答以下問題:我們可以從關于面部的聲音中推斷出多少,反之亦然?我們使用公開可用的數據集,從靜態圖像(VGGFace)和音頻的說話者識別(VoxCeleb)中使用公開的數據集,“在野外”研究此任務。這些為交叉模式匹配的靜態和動態測試提供了培訓和測試方案。我們做出了以下貢獻:(i)我們介紹了用于二進制和多路交叉模式人臉和音頻匹配的CNN架構,(ii)比較了動態測試(可提供視頻信息,但音頻不是來自同一視頻,而是經過靜態測試(只有一個靜止圖像可用),并且(iii)我們使用人工測試作為基準來校準任務的難度。我們展示了CNN確實可以在靜態和動態場景中都經過訓練來解決此任務,并且甚至在給定聲音的情況下對人臉進行10次分類的可能性也大大超過了。CNN在簡單示例(例如,兩張面孔上的性別不同)上與人類表現相匹配,但在更具挑戰性的示例(例如,具有相同性別,年齡和國籍的面孔)上,其表現優于人類。甚至在給定聲音的情況下對人臉進行10種分類的機會都大大超過了。CNN在簡單示例(例如,兩張面孔上的性別不同)上與人類表現相匹配,但在更具挑戰性的示例(例如,具有相同性別,年齡和國籍的面孔)上,其表現優于人類。甚至在給定聲音的情況下對人臉進行10種分類的機會都大大超過了。CNN在簡單示例(例如,兩張面孔上的性別不同)上與人類表現相匹配,但在更具挑戰性的示例(例如,具有相同性別,年齡和國籍的面孔)上,其表現優于人類。
個人理解:僅通過某個人說話的聲音片段就能確定是哪一個人在說話。
7.Learning to Separate Object Sounds by Watching Unlabeled Video
摘要:介紹了一種新穎的聲源分離方法,實現了這種直觀感覺。我們的方法首先對大量未加注釋的視頻進行處理,以發現每個可見對象的潛在聲音表示。特別地,我們使用最先進的圖像識別工具來推斷每個視頻片段中出現的對象,并且我們在每個視頻的audic通道上執行非負矩陣分解(NMF)來恢復其頻率基向量集。在這一點上,它是未知的音頻基地,以配合哪些視覺對象(s)。為了恢復這種關聯,我們構造了一個多實例多標簽學習(MIML)的新網絡,將音頻庫映射到被檢測到的視覺對象的分布。從這個音頻基對象關聯網絡中,我們提取了與每個可視對象相連接的音頻基,從而得到了其典型的光譜模式。最后,給出了一個新的視頻,我們使用學習的每對象音頻基來進行音頻源分離。
個人理解:理解事物的本質和場景,一般我們是通過看。但是聲音也是一種理解。這篇論文使用沒有標簽的視頻。把他們分為音頻和圖像。對他們進行一個特征的融合,分離對象的聲音。。
8.Deep Audio-Visual Speech Recognition
摘要:這項工作的目的是識別有語音或無語音的說話人說話的短語和句子。與以前專注于識別有限數量的單詞或短語的作品不同,我們將唇讀作為一個開放世界的問題來解決-不受限制的自然語言句子和野外視頻。我們的主要貢獻是:(1)我們比較了兩種用于唇讀的模型,一種使用CTC損失,另一種使用序列間損失。兩種模型都建立在變壓器自我關注架構的基礎上。(2)我們研究唇讀在多大程度上與音頻語音識別相輔相成,特別是當音頻信號有噪聲時;(3)我們引入并公開發布了用于視聽語音識別的新數據集LRS2-BBC,其中包括來自英國電視臺的數千個自然句子。
個人理解:這個沒看太懂。大致意思好像是通過音頻和嘴唇的變化更準確的把語言翻譯出來。
9.Look, Listen and Learn
摘要:我們考慮這樣一個問題:通過觀看和收聽大量未標記的視頻,我們能學到什么?視頻本身包含了一個有價值的,但迄今為止尚未開發的信息來源——視頻流和音頻流之間的對應關系,我們介紹了一個利用這一點的新穎的“視聽對應”學習任務。從零開始訓練視頻和音頻網絡,除了原始的無約束視頻本身之外,不需要任何額外的監督,可以成功地解決這個任務,更有趣的是,可以得到良好的視頻和音頻表示。這些特性在兩個完善的分類基準上設置了新的最先進技術,并與ImageNet分類上的最先進的自監督方法相媲美。我們還演示了該網絡能夠在兩種模式中定位對象,以及執行細粒度的識別任務。
個人理解:通過輸入視頻中的音頻和圖像部分判斷這兩個數據是不是同一個關聯數據。
10.Unsupervised Learning of Spoken Language with Visual Context
摘要:人類在會讀或寫之前就學會了說話,那么為什么計算機不能做同樣的事情呢?在本文中,我們提出了一種深層神經網絡模型,該模型能夠使用未轉錄的音頻訓練數據進行初級口語習得,其唯一的監督形式是上下文相關的視覺圖像。我們描述了我們的數據的收集,包括超過12萬個地方圖像數據集的語音字幕,并在一個圖像搜索和注釋任務上評估我們的模型。我們還提供了一些可視化,這表明我們的模型正在學習識別標題光譜圖中的有意義的單詞。
個人理解:通過上下文的視覺圖像監督學習音頻單詞。在這篇論文中,以學習跨音頻和視覺模式的高級語義概念。來自多種模式的相關傳感器數據流——在本例中是一個視覺圖像,伴隨著描述該圖像的語音字幕——被用來訓練網絡,使其能夠使用未標記的訓練數據發現模式。例如,這些網絡能夠從連續的語音信號中找出“水”這個詞的實例,并將它們與包含水體的圖像聯系起來。網絡直接從數據中學習這些關聯,而不使用傳統的語音識別、文本轉錄或任何專業的語言知識。
11.SoundNet: Learning Sound Representations from Unlabeled Video
代碼: http://projects.csail.mit.edu/soundnet/
摘要:我們利用在野外收集的大量未標記聲音數據來學習豐富的自然聲音表示。我們利用視覺和聲音之間的自然同步來學習使用200萬個未標記視頻的聲音表示。未標記的視頻的優點是可以經濟地大規模獲取,但仍包含有關自然聲音的有用信號。我們提出了一個學生-教師培訓程序,該程序使用未標記的視頻作為橋梁,將成熟的視覺識別模型中的辨別性視覺知識轉換為聲音模態。與聲音場景/對象分類的標準基準上的最新結果相比,我們的聲音表示可顯著提高性能。
個人理解:從沒有標簽的視頻中學習聲音場景和對象分類。該網絡的模型向比較。其他的標準模型更為準確。
論文下載
鏈接:https://pan.baidu.com/s/19tHKvfO10Y6KRwPRt8951w
提取碼:1dt0
復制這段內容后打開百度網盤手機App,操作更方便哦
總結
- 上一篇: 松下MINAS-A6伺服电机调试记录
- 下一篇: 2021-08-04 jQuery基础整