當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

SoundNet：根据声音来识别场景环境实践

發(fā)布時(shí)間：2023/12/8 编程问答 75 豆豆

生活随笔收集整理的這篇文章主要介紹了 SoundNet：根据声音来识别场景环境实践小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

聲音也是識(shí)別對(duì)象的一種重要數(shù)據(jù)源。其中根據(jù)聲音來(lái)識(shí)別聲音所處的環(huán)境也是語(yǔ)音識(shí)別的研究?jī)?nèi)容之一。今天對(duì)NIPS 2016年的這篇文章SoundNet: Learning Sound Representations from Unlabeled Video，（論文項(xiàng)目所在地址為：https://projects.csail.mit.edu/soundnet/）進(jìn)行了復(fù)現(xiàn)，覺(jué)得這篇文章的做法挺有意義的。

1、論文原理

從題目中可以看出，其主要是從無(wú)標(biāo)記的視頻數(shù)據(jù)中來(lái)學(xué)習(xí)聲音的相關(guān)信息。由于視頻中包含圖像和語(yǔ)音，由于圖像現(xiàn)在的場(chǎng)景識(shí)別已經(jīng)可以做到比較準(zhǔn)確，因此根據(jù)識(shí)別的環(huán)境和語(yǔ)音之間的映射學(xué)習(xí)，從而可以學(xué)習(xí)得到語(yǔ)音與場(chǎng)景環(huán)境之間的對(duì)應(yīng)關(guān)系。

論文的主要原理如下圖所示：

即通過(guò)SoundNet架構(gòu)與ImageNet,Place CNN等進(jìn)行聯(lián)合訓(xùn)練。首先視頻數(shù)據(jù)集中的每個(gè)視頻都切分成兩部分，一部分為音頻，一部分為RGB圖像幀。視覺(jué)識(shí)別網(wǎng)絡(luò)采用在ImageNet和Places兩個(gè)大型圖像數(shù)據(jù)集上的預(yù)訓(xùn)練VGG模型。ImageNet和Places都是圖像識(shí)別領(lǐng)域的大型數(shù)據(jù)集，其中Imagenet是圖像目標(biāo)分類(lèi)數(shù)據(jù)集，Places是圖像場(chǎng)景分類(lèi)數(shù)據(jù)集。將從視頻中分割出來(lái)的RGB幀輸入到預(yù)訓(xùn)練的VGG模型（代碼中正常使用ResNet34）中，得到的輸出結(jié)果作為聲音識(shí)別網(wǎng)絡(luò)的監(jiān)督信息。聲音識(shí)別網(wǎng)絡(luò)采用8層的全卷積結(jié)構(gòu)，使用從視頻中提取出的聲音時(shí)間序列作為網(wǎng)絡(luò)的輸入，損失函數(shù)采用KL-divergence。

2、論文實(shí)踐：

（1）　給定一個(gè)聲音，識(shí)別聲音所在場(chǎng)景，可以識(shí)別出為火車(chē)相關(guān)的環(huán)境場(chǎng)景；

（2）　對(duì)給定一首歌曲，可以識(shí)別其發(fā)生場(chǎng)景為藝術(shù)廳

總結(jié)

以上是生活随笔為你收集整理的SoundNet：根据声音来识别场景环境实践的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： ANSYS Workbench 16 -
下一篇： 1.1初步了解和认识大数据

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

SoundNet：根据声音来识别场景环境实践

總結(jié)