SoundNet:根据声音来识别场景环境实践
聲音也是識別對象的一種重要數據源。其中根據聲音來識別聲音所處的環境也是語音識別的研究內容之一。今天對NIPS 2016年的這篇文章SoundNet: Learning Sound Representations from Unlabeled Video,(論文項目所在地址為:https://projects.csail.mit.edu/soundnet/)進行了復現,覺得這篇文章的做法挺有意義的。
1、論文原理
從題目中可以看出,其主要是從無標記的視頻數據中來學習聲音的相關信息。由于視頻中包含圖像和語音,由于圖像現在的場景識別已經可以做到比較準確,因此根據識別的環境和語音之間的映射學習,從而可以學習得到語音與場景環境之間的對應關系。
論文的主要原理如下圖所示:
即通過SoundNet架構與ImageNet,Place CNN等進行聯合訓練。首先視頻數據集中的每個視頻都切分成兩部分,一部分為音頻,一部分為RGB圖像幀。視覺識別網絡采用在ImageNet和Places兩個大型圖像數據集上的預訓練VGG模型。ImageNet和Places都是圖像識別領域的大型數據集,其中Imagenet是圖像目標分類數據集,Places是圖像場景分類數據集。將從視頻中分割出來的RGB幀輸入到預訓練的VGG模型(代碼中正常使用ResNet34)中,得到的輸出結果作為聲音識別網絡的監督信息。聲音識別網絡采用8層的全卷積結構,使用從視頻中提取出的聲音時間序列作為網絡的輸入,損失函數采用KL-divergence。
2、論文實踐:
(1) 給定一個聲音,識別聲音所在場景,可以識別出為火車相關的環境場景;
(2) 對給定一首歌曲,可以識別其發生場景為藝術廳
總結
以上是生活随笔為你收集整理的SoundNet:根据声音来识别场景环境实践的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: ANSYS Workbench 16 -
- 下一篇: 1.1初步了解和认识大数据