日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

SoundNet:根据声音来识别场景环境实践

發布時間:2023/12/8 编程问答 62 豆豆
生活随笔 收集整理的這篇文章主要介紹了 SoundNet:根据声音来识别场景环境实践 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

聲音也是識別對象的一種重要數據源。其中根據聲音來識別聲音所處的環境也是語音識別的研究內容之一。今天對NIPS 2016年的這篇文章SoundNet: Learning Sound Representations from Unlabeled Video,(論文項目所在地址為:https://projects.csail.mit.edu/soundnet/)進行了復現,覺得這篇文章的做法挺有意義的。

1、論文原理

從題目中可以看出,其主要是從無標記的視頻數據中來學習聲音的相關信息。由于視頻中包含圖像和語音,由于圖像現在的場景識別已經可以做到比較準確,因此根據識別的環境和語音之間的映射學習,從而可以學習得到語音與場景環境之間的對應關系。

論文的主要原理如下圖所示:


即通過SoundNet架構與ImageNet,Place CNN等進行聯合訓練。首先視頻數據集中的每個視頻都切分成兩部分,一部分為音頻,一部分為RGB圖像幀。視覺識別網絡采用在ImageNet和Places兩個大型圖像數據集上的預訓練VGG模型。ImageNet和Places都是圖像識別領域的大型數據集,其中Imagenet是圖像目標分類數據集,Places是圖像場景分類數據集。將從視頻中分割出來的RGB幀輸入到預訓練的VGG模型(代碼中正常使用ResNet34)中,得到的輸出結果作為聲音識別網絡的監督信息。聲音識別網絡采用8層的全卷積結構,使用從視頻中提取出的聲音時間序列作為網絡的輸入,損失函數采用KL-divergence。

2、論文實踐:

(1) 給定一個聲音,識別聲音所在場景,可以識別出為火車相關的環境場景;


(2) 對給定一首歌曲,可以識別其發生場景為藝術廳


總結

以上是生活随笔為你收集整理的SoundNet:根据声音来识别场景环境实践的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。