SoundNet:根据声音来识别场景环境实践
聲音也是識(shí)別對(duì)象的一種重要數(shù)據(jù)源。其中根據(jù)聲音來(lái)識(shí)別聲音所處的環(huán)境也是語(yǔ)音識(shí)別的研究?jī)?nèi)容之一。今天對(duì)NIPS 2016年的這篇文章SoundNet: Learning Sound Representations from Unlabeled Video,(論文項(xiàng)目所在地址為:https://projects.csail.mit.edu/soundnet/)進(jìn)行了復(fù)現(xiàn),覺(jué)得這篇文章的做法挺有意義的。
1、論文原理
從題目中可以看出,其主要是從無(wú)標(biāo)記的視頻數(shù)據(jù)中來(lái)學(xué)習(xí)聲音的相關(guān)信息。由于視頻中包含圖像和語(yǔ)音,由于圖像現(xiàn)在的場(chǎng)景識(shí)別已經(jīng)可以做到比較準(zhǔn)確,因此根據(jù)識(shí)別的環(huán)境和語(yǔ)音之間的映射學(xué)習(xí),從而可以學(xué)習(xí)得到語(yǔ)音與場(chǎng)景環(huán)境之間的對(duì)應(yīng)關(guān)系。
論文的主要原理如下圖所示:
即通過(guò)SoundNet架構(gòu)與ImageNet,Place CNN等進(jìn)行聯(lián)合訓(xùn)練。首先視頻數(shù)據(jù)集中的每個(gè)視頻都切分成兩部分,一部分為音頻,一部分為RGB圖像幀。視覺(jué)識(shí)別網(wǎng)絡(luò)采用在ImageNet和Places兩個(gè)大型圖像數(shù)據(jù)集上的預(yù)訓(xùn)練VGG模型。ImageNet和Places都是圖像識(shí)別領(lǐng)域的大型數(shù)據(jù)集,其中Imagenet是圖像目標(biāo)分類(lèi)數(shù)據(jù)集,Places是圖像場(chǎng)景分類(lèi)數(shù)據(jù)集。將從視頻中分割出來(lái)的RGB幀輸入到預(yù)訓(xùn)練的VGG模型(代碼中正常使用ResNet34)中,得到的輸出結(jié)果作為聲音識(shí)別網(wǎng)絡(luò)的監(jiān)督信息。聲音識(shí)別網(wǎng)絡(luò)采用8層的全卷積結(jié)構(gòu),使用從視頻中提取出的聲音時(shí)間序列作為網(wǎng)絡(luò)的輸入,損失函數(shù)采用KL-divergence。
2、論文實(shí)踐:
(1) 給定一個(gè)聲音,識(shí)別聲音所在場(chǎng)景,可以識(shí)別出為火車(chē)相關(guān)的環(huán)境場(chǎng)景;
(2) 對(duì)給定一首歌曲,可以識(shí)別其發(fā)生場(chǎng)景為藝術(shù)廳
總結(jié)
以上是生活随笔為你收集整理的SoundNet:根据声音来识别场景环境实践的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: ANSYS Workbench 16 -
- 下一篇: 1.1初步了解和认识大数据