當(dāng)前位置：首頁 > 运维知识 > windows >内容正文

windows

DCASE 2017声场分类任务描述——数据集及基线系统

發(fā)布時間：2023/12/15 windows 50 豆豆

生活随笔收集整理的這篇文章主要介紹了 DCASE 2017声场分类任务描述——数据集及基线系统小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

前言

　　DCASE 2017繼續(xù)通過比較使用公共可用數(shù)據(jù)集的不同方法來支持計算場景和事件分析方法的開發(fā)。

　　聲音帶有大量有關(guān)我們?nèi)粘－h(huán)境和身體事件的信息。我們可以感受到我們所在的聲音場景（繁忙的街道，辦公室等），并且識別出各種聲源（汽車通過，腳步聲等）。開發(fā)用于自動提取信息的信號處理方法在多個應(yīng)用中具有巨大的潛力，例如基于其音頻內(nèi)容搜索多媒體，使上下文感知移動設(shè)備，機(jī)器人，汽車等以及智能監(jiān)控系統(tǒng)識別其環(huán)境中的活動使用聲學(xué)信息。然而，仍然需要大量的研究來可靠地識別現(xiàn)實聲音中的聲音場景和個體聲源，其中多個聲音通常同時存在并被環(huán)境扭曲。

音頻場景識別概述

　　音頻場景識別的目標(biāo)：將測試記錄（輸入）分類為所提供的預(yù)定義類別之一，其描述了記錄環(huán)境的一個環(huán)境，例如“park”，“home”，“office”。

音頻數(shù)據(jù)集

　　TUT聲學(xué)場景2017數(shù)據(jù)集將用作任務(wù)的開發(fā)數(shù)據(jù)。數(shù)據(jù)集由來自各種聲場的記錄組成，具有不同的記錄位置。對于每個記錄位置，捕獲了3-5分鐘的長音頻記錄。然后將原始記錄分割成長度為10秒的段。這些音頻段在單獨的文件中提供。

聲場任務(wù)（15）：
- 公共汽車 - 乘汽車在城市（車輛）
- 咖啡廳/餐廳 - 小咖啡廳/餐廳（室內(nèi)）
- 汽車駕駛或作為乘客旅行，在城市（車輛）
- 市中心（室外）
- 森林小徑（戶外）
- 雜貨店 - 中型雜貨店（室內(nèi)）
- 家（室內(nèi)）
- 湖畔沙灘（室外）
- 圖書館（室內(nèi)）
- 地鐵站（室內(nèi)）
- 辦公室 - 多人，典型工作日（室內(nèi)）
- 住宅區(qū)（室外）
- 火車（行車，車輛）
- 電車（行車，車輛）
- 城市公園（室外）
  詳細(xì)的數(shù)據(jù)集描述見DCASE 2016 任務(wù)1頁面
數(shù)據(jù)集說明
- 該數(shù)據(jù)集于2015年6月至2017年1月期間由坦佩雷理工大學(xué)在芬蘭收集。數(shù)據(jù)收集已獲得歐洲研究理事會的資助。
- 記錄和注釋程序
  對于所有的聲場，記錄被捕獲在不同的位置：不同的街道，不同的公園，不同的家園。錄音使用Soundman OKM II Klassik /演播室A3，駐極體雙耳麥克風(fēng)和使用44.1 kHz采樣率和24位分辨率的Roland Edirol R-09波形錄音機(jī)進(jìn)行。麥克風(fēng)專門用于看起來像戴耳機(jī)的耳機(jī)。因此，記錄的音頻與到達(dá)佩戴設(shè)備的人的人體聽覺系統(tǒng)的聲音非常相似。
- 記錄數(shù)據(jù)的后處理涉及與記錄個人隱私有關(guān)的方面。對于在私人場所錄制的音像材料，所有相關(guān)人員均獲得書面同意。記錄在公共場所的材料不需要同意，但內(nèi)容被篩選，隱私侵權(quán)細(xì)分被淘汰。麥克風(fēng)故障和音頻失真被注釋，并且注釋被提供有數(shù)據(jù)。基于DCASE 2016的實驗，消除訓(xùn)練中的誤差區(qū)域不會影響最終的分類精度。評估集不包含任何此類音頻錯誤。
下載
- 如果您使用提供的基線系統(tǒng))，則不需要下載數(shù)據(jù)集，因為系統(tǒng)將自動為您下載所需的數(shù)據(jù)集。
- 開發(fā)數(shù)據(jù)集:https://zenodo.org/record/400515。或者使用單獨文件方式分別下載
任務(wù)設(shè)置
- TUT聲場2017數(shù)據(jù)集由兩個子集組成：開發(fā)數(shù)據(jù)集和評估數(shù)據(jù)集。開發(fā)數(shù)據(jù)集由完整的TUT Acoustic Scenes 2016數(shù)據(jù)集（2016年挑戰(zhàn)的開發(fā)和評估數(shù)據(jù)）組成。將數(shù)據(jù)劃分為子集是基于原始記錄的位置完成的，因此評估數(shù)據(jù)集包含類似音頻場景的記錄，但是來自不同的地理位置。從相同原始記錄獲得的所有段都包含在單個子集中 - 開發(fā)數(shù)據(jù)集或評估數(shù)據(jù)集。對于每個聲場，開發(fā)數(shù)據(jù)集中有312段（52分鐘的音頻）。有關(guān)數(shù)據(jù)記錄和注釋程序的詳細(xì)說明。
- 開發(fā)數(shù)據(jù)集：為開發(fā)數(shù)據(jù)集提供了交叉驗證設(shè)置，以使結(jié)果報告與此數(shù)據(jù)集統(tǒng)一。該設(shè)置由四個折疊組成，根據(jù)位置分配可用段。折疊在目錄評估設(shè)置中提供數(shù)據(jù)集。所提供的設(shè)置的折疊1通過使用2016開發(fā)集作為訓(xùn)練子集和2016評估集作為測試子集來再現(xiàn)DCASE 2016挑戰(zhàn)設(shè)置。
  
  重要提示：如果您沒有使用提供的交叉驗證設(shè)置，請注意從相同原始錄制中提取的段。確保對于每個給定的折疊，來自相同位置的所有段必須在測試子集中的訓(xùn)練子集OR中。
- 評估數(shù)據(jù)集:沒有實質(zhì)的評估數(shù)據(jù)集將在提交截止日期前一個月公布。完整的實地元數(shù)據(jù)將在DCASE 2017挑戰(zhàn)和研討會結(jié)束后公布。
評估
- 聲場分類的得分將基于分類精度：正確分類的段數(shù)占總段數(shù)的比例。每個段被認(rèn)為是獨立的測試樣本。評估在基線系統(tǒng)中自動完成。使用sed_eval toolbox進(jìn)行評估。

基線系統(tǒng)

　　基線系統(tǒng)旨在實現(xiàn)聲場分類的基本方法，并在開發(fā)系統(tǒng)時為參與者提供一些比較點。所有任務(wù)的基準(zhǔn)系統(tǒng)共享代碼庫，為所有任務(wù)實現(xiàn)非常相似的方法。當(dāng)使用默認(rèn)參數(shù)運行時，基準(zhǔn)系統(tǒng)將下載所需的數(shù)據(jù)集并生成下面的結(jié)果。

　　基線系統(tǒng)基于使用對數(shù)梅爾帶能量作為特征的多層感知器架構(gòu)。使用5幀上下文，導(dǎo)致特征向量長度為??200。使用這些特征，一個神經(jīng)網(wǎng)絡(luò)包含兩層致密的50層隱藏單元和20%個輟學(xué)(dropout)單元，訓(xùn)練了200次。分類決策是基于softmax類型的網(wǎng)絡(luò)輸出層。基準(zhǔn)系統(tǒng)文檔中提供了詳細(xì)的描述。基準(zhǔn)系統(tǒng)包括使用精度作為度量的結(jié)果評估。

　　基線系統(tǒng)使用Python（2.7和3.6版）實現(xiàn)。允許參與者在給定的基準(zhǔn)系統(tǒng)之上構(gòu)建系統(tǒng)。該系統(tǒng)具有數(shù)據(jù)集處理，存儲/訪問特征和模型所需的所有功能，并且對結(jié)果進(jìn)行評估，使自己的需求更加容易。基線系統(tǒng)也是入門級研究人員的良好起點。

運行基線系統(tǒng)的運行結(jié)果

基線系統(tǒng)指導(dǎo)手冊和教程

基線系統(tǒng)介紹

基準(zhǔn)系統(tǒng)旨在降低參與DCASE挑戰(zhàn)的障礙。它提供了一個簡單的入門級方法，但是與現(xiàn)有技術(shù)系統(tǒng)相對較接近，為所有任務(wù)提供合理的性能。高端的表現(xiàn)讓參與者找到挑戰(zhàn)。
在基線中，使用特定于應(yīng)用程序的擴(kuò)展，可以在任務(wù)間共享一個單一的低級方法。其主要思想是展示任務(wù)設(shè)置中的并行性，以及在系統(tǒng)開發(fā)過程中如何輕松地在任務(wù)之間跳轉(zhuǎn)。
主要基準(zhǔn)系統(tǒng)實施以下方法：
- 聲學(xué)特征：在40ms窗口中提取具有20ms跳躍尺寸的熔融能量。
- 機(jī)器學(xué)習(xí)：使用多層感知器（MLP）類型網(wǎng)絡(luò)的神經(jīng)網(wǎng)絡(luò)方法（每層有50個神經(jīng)元的2層，層間差異20％）。
- 除此之外，還包括基于高斯混合模型的系統(tǒng)進(jìn)行比較。
該系統(tǒng)是為Python 2.7和Python 3.6開發(fā)的，它可以在Linux，Windows和Mac平臺上使用。

系統(tǒng)框圖：

基于多感知機(jī)的系統(tǒng)，DCASE 2017基線系統(tǒng)

說明：選擇基于多感知器的系統(tǒng)作為DCASE2017的基準(zhǔn)系統(tǒng)。該系統(tǒng)的主要結(jié)構(gòu)與現(xiàn)有的基于循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）和卷積神經(jīng)網(wǎng)絡(luò)（CNN）的現(xiàn)有技術(shù)系統(tǒng)相近，為進(jìn)一步開發(fā)提供了良好的起點。該系統(tǒng)是圍繞Keras實現(xiàn)的，這是一個用Python編寫的高級神經(jīng)網(wǎng)絡(luò)API。Keras在多個計算后端之間工作，其中選擇了Theano作為該系統(tǒng)。
系統(tǒng)細(xì)節(jié)：
- 聲學(xué)特征：在具有20ms跳躍尺寸的40ms窗口中提取對數(shù)梅爾帶能量。
- 機(jī)器學(xué)習(xí)：使用多層感知器（MLP）類型網(wǎng)絡(luò)的神經(jīng)網(wǎng)絡(luò)方法（2層，每層有50個神經(jīng)元，層間差異20％）。
- 系統(tǒng)參數(shù)

基于GMM的方法

基于高斯混合模型的輔助（secondary）系統(tǒng)也包括在基線系統(tǒng)中，以便與文獻(xiàn)中提出的傳統(tǒng)系統(tǒng)進(jìn)行比較。基于GMM的系統(tǒng)的實現(xiàn)非常類似于DCASE2016挑戰(zhàn)任務(wù)1和任務(wù)3中使用的基準(zhǔn)系統(tǒng)。有關(guān)DCASE2016所用系統(tǒng)的更多詳細(xì)信息：

Annamaria Mesaros, Toni Heittola, and Tuomas Virtanen, “TUT database for acoustic scene classification and sound event detection”. In 24th European Signal Processing Conference 2016 (EUSIPCO 2016). Budapest, Hungary, 2016.。
系統(tǒng)細(xì)節(jié)：

　　聲學(xué)特征：20個MFCC靜態(tài)系數(shù)（包括第0個）+ 20個增量MFCC系數(shù)（一階導(dǎo)數(shù)）+ 20個加速度MFCC系數(shù)（二階導(dǎo)數(shù)）= 60個值，在具有50％跳躍尺寸的40ms分析窗口中計算。
　　機(jī)器學(xué)習(xí)：高斯混合模型，每類模型16個高斯（16 Gaussians per class model）。

系統(tǒng)參數(shù)
流程圖

詳見網(wǎng)頁中關(guān)于框圖的詳細(xì)介紹
應(yīng)用
- 文件分類的平均準(zhǔn)確度。

OverallFolds

system	Accuracy	1	2	3	4
基于多感知機(jī)系統(tǒng)，2017年基線	74.8%	75.2%	75.3%	77.3%	71.3%
基于GMM 系統(tǒng)	74.1%	74.0%	76.0%	73.1%	73.2%

　　場景分類結(jié)果

安裝(下載地址)

　　該系統(tǒng)是為Python 2.7，Python 3.5和Python 3.6開發(fā)的。該系統(tǒng)經(jīng)過測試，可在Linux，Windows和MacOS平臺上工作。可以安裝官方CPython或使用一些基于它的Python發(fā)行版。推薦使用新用戶使用Anaconda Python發(fā)行版。

　　在Windows上使用系統(tǒng)：基線系統(tǒng)使用相當(dāng)長的目錄路徑，因為它將系統(tǒng)參數(shù)的32個字符的MD5哈希存儲到目錄名中。某些Windows系統(tǒng)具有路徑長度限制（最低260個字符），這是導(dǎo)致問題的。為了避免與此相關(guān)的問題，請將系統(tǒng)盡可能靠近驅(qū)動器根目錄安裝。

創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎勵來咯，堅持創(chuàng)作打卡瓜分現(xiàn)金大獎

總結(jié)

以上是生活随笔為你收集整理的DCASE 2017声场分类任务描述——数据集及基线系统的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。