DCASE 2017声场分类任务描述——数据集及基线系统
前言
DCASE 2017繼續(xù)通過比較使用公共可用數(shù)據(jù)集的不同方法來支持計算場景和事件分析方法的開發(fā)。
聲音帶有大量有關(guān)我們?nèi)粘-h(huán)境和身體事件的信息。我們可以感受到我們所在的聲音場景(繁忙的街道,辦公室等),并且識別出各種聲源(汽車通過,腳步聲等)。開發(fā)用于自動提取信息的信號處理方法在多個應(yīng)用中具有巨大的潛力,例如基于其音頻內(nèi)容搜索多媒體,使上下文感知移動設(shè)備,機(jī)器人,汽車等以及智能監(jiān)控系統(tǒng)識別其環(huán)境中的活動使用聲學(xué)信息。然而,仍然需要大量的研究來可靠地識別現(xiàn)實聲音中的聲音場景和個體聲源,其中多個聲音通常同時存在并被環(huán)境扭曲。
音頻場景識別概述
音頻場景識別的目標(biāo):將測試記錄(輸入)分類為所提供的預(yù)定義類別之一,其描述了記錄環(huán)境的一個環(huán)境,例如“park”,“home”,“office”。
音頻數(shù)據(jù)集
TUT聲學(xué)場景2017數(shù)據(jù)集將用作任務(wù)的開發(fā)數(shù)據(jù)。數(shù)據(jù)集由來自各種聲場的記錄組成,具有不同的記錄位置。 對于每個記錄位置,捕獲了3-5分鐘的長音頻記錄。 然后將原始記錄分割成長度為10秒的段。 這些音頻段在單獨的文件中提供。
聲場任務(wù)(15):
- 公共汽車 - 乘汽車在城市(車輛)
- 咖啡廳/餐廳 - 小咖啡廳/餐廳(室內(nèi))
- 汽車駕駛或作為乘客旅行,在城市(車輛)
- 市中心(室外)
- 森林小徑(戶外)
- 雜貨店 - 中型雜貨店(室內(nèi))
- 家(室內(nèi))
- 湖畔沙灘(室外)
- 圖書館(室內(nèi))
- 地鐵站(室內(nèi))
- 辦公室 - 多人,典型工作日(室內(nèi))
- 住宅區(qū)(室外)
- 火車(行車,車輛)
- 電車(行車,車輛)
- 城市公園(室外)
詳細(xì)的數(shù)據(jù)集描述見DCASE 2016 任務(wù)1頁面
數(shù)據(jù)集說明
- 該數(shù)據(jù)集于2015年6月至2017年1月期間由坦佩雷理工大學(xué)在芬蘭收集。數(shù)據(jù)收集已獲得歐洲研究理事會的資助。
記錄和注釋程序
對于所有的聲場,記錄被捕獲在不同的位置:不同的街道,不同的公園,不同的家園。錄音使用Soundman OKM II Klassik /演播室A3,駐極體雙耳麥克風(fēng)和使用44.1 kHz采樣率和24位分辨率的Roland Edirol R-09波形錄音機(jī)進(jìn)行。麥克風(fēng)專門用于看起來像戴耳機(jī)的耳機(jī)。因此,記錄的音頻與到達(dá)佩戴設(shè)備的人的人體聽覺系統(tǒng)的聲音非常相似。記錄數(shù)據(jù)的后處理涉及與記錄個人隱私有關(guān)的方面。對于在私人場所錄制的音像材料,所有相關(guān)人員均獲得書面同意。記錄在公共場所的材料不需要同意,但內(nèi)容被篩選,隱私侵權(quán)細(xì)分被淘汰。麥克風(fēng)故障和音頻失真被注釋,并且注釋被提供有數(shù)據(jù)。基于DCASE 2016的實驗,消除訓(xùn)練中的誤差區(qū)域不會影響最終的分類精度。評估集不包含任何此類音頻錯誤。
下載
如果您使用提供的基線系統(tǒng)),則不需要下載數(shù)據(jù)集,因為系統(tǒng)將自動為您下載所需的數(shù)據(jù)集。
開發(fā)數(shù)據(jù)集:https://zenodo.org/record/400515。或者使用單獨文件方式分別下載
任務(wù)設(shè)置
TUT聲場2017數(shù)據(jù)集由兩個子集組成:開發(fā)數(shù)據(jù)集和評估數(shù)據(jù)集。開發(fā)數(shù)據(jù)集由完整的TUT Acoustic Scenes 2016數(shù)據(jù)集(2016年挑戰(zhàn)的開發(fā)和評估數(shù)據(jù))組成。將數(shù)據(jù)劃分為子集是基于原始記錄的位置完成的,因此評估數(shù)據(jù)集包含類似音頻場景的記錄,但是來自不同的地理位置。從相同原始記錄獲得的所有段都包含在單個子集中 - 開發(fā)數(shù)據(jù)集或評估數(shù)據(jù)集。對于每個聲場,開發(fā)數(shù)據(jù)集中有312段(52分鐘的音頻)。有關(guān)數(shù)據(jù)記錄和注釋程序的詳細(xì)說明。
開發(fā)數(shù)據(jù)集:為開發(fā)數(shù)據(jù)集提供了交叉驗證設(shè)置,以使結(jié)果報告與此數(shù)據(jù)集統(tǒng)一。該設(shè)置由四個折疊組成,根據(jù)位置分配可用段。折疊在目錄評估設(shè)置中提供數(shù)據(jù)集。所提供的設(shè)置的折疊1通過使用2016開發(fā)集作為訓(xùn)練子集和2016評估集作為測試子集來再現(xiàn)DCASE 2016挑戰(zhàn)設(shè)置。
重要提示:如果您沒有使用提供的交叉驗證設(shè)置,請注意從相同原始錄制中提取的段。確保對于每個給定的折疊,來自相同位置的所有段必須在測試子集中的訓(xùn)練子集OR中。
評估數(shù)據(jù)集:沒有實質(zhì)的評估數(shù)據(jù)集將在提交截止日期前一個月公布。完整的實地元數(shù)據(jù)將在DCASE 2017挑戰(zhàn)和研討會結(jié)束后公布。
評估
- 聲場分類的得分將基于分類精度:正確分類的段數(shù)占總段數(shù)的比例。每個段被認(rèn)為是獨立的測試樣本。評估在基線系統(tǒng)中自動完成。使用sed_eval toolbox進(jìn)行評估。
基線系統(tǒng)
基線系統(tǒng)旨在實現(xiàn)聲場分類的基本方法,并在開發(fā)系統(tǒng)時為參與者提供一些比較點。所有任務(wù)的基準(zhǔn)系統(tǒng)共享代碼庫,為所有任務(wù)實現(xiàn)非常相似的方法。當(dāng)使用默認(rèn)參數(shù)運行時,基準(zhǔn)系統(tǒng)將下載所需的數(shù)據(jù)集并生成下面的結(jié)果。
基線系統(tǒng)基于使用對數(shù)梅爾帶能量作為特征的多層感知器架構(gòu)。使用5幀上下文,導(dǎo)致特征向量長度為??200。使用這些特征,一個神經(jīng)網(wǎng)絡(luò)包含兩層致密的50層隱藏單元和20%個輟學(xué)(dropout)單元,訓(xùn)練了200次。分類決策是基于softmax類型的網(wǎng)絡(luò)輸出層。基準(zhǔn)系統(tǒng)文檔中提供了詳細(xì)的描述。基準(zhǔn)系統(tǒng)包括使用精度作為度量的結(jié)果評估。
基線系統(tǒng)使用Python(2.7和3.6版)實現(xiàn)。允許參與者在給定的基準(zhǔn)系統(tǒng)之上構(gòu)建系統(tǒng)。該系統(tǒng)具有數(shù)據(jù)集處理,存儲/訪問特征和模型所需的所有功能,并且對結(jié)果進(jìn)行評估,使自己的需求更加容易。基線系統(tǒng)也是入門級研究人員的良好起點。
運行基線系統(tǒng)的運行結(jié)果
- 基線系統(tǒng)指導(dǎo)手冊和教程
基線系統(tǒng)介紹
基準(zhǔn)系統(tǒng)旨在降低參與DCASE挑戰(zhàn)的障礙。它提供了一個簡單的入門級方法,但是與現(xiàn)有技術(shù)系統(tǒng)相對較接近,為所有任務(wù)提供合理的性能。高端的表現(xiàn)讓參與者找到挑戰(zhàn)。
在基線中,使用特定于應(yīng)用程序的擴(kuò)展,可以在任務(wù)間共享一個單一的低級方法。其主要思想是展示任務(wù)設(shè)置中的并行性,以及在系統(tǒng)開發(fā)過程中如何輕松地在任務(wù)之間跳轉(zhuǎn)。
主要基準(zhǔn)系統(tǒng)實施以下方法:
聲學(xué)特征:在40ms窗口中提取具有20ms跳躍尺寸的熔融能量。
機(jī)器學(xué)習(xí):使用多層感知器(MLP)類型網(wǎng)絡(luò)的神經(jīng)網(wǎng)絡(luò)方法(每層有50個神經(jīng)元的2層,層間差異20%)。
除此之外,還包括基于高斯混合模型的系統(tǒng)進(jìn)行比較。
該系統(tǒng)是為Python 2.7和Python 3.6開發(fā)的,它可以在Linux,Windows和Mac平臺上使用。
系統(tǒng)框圖:
基于多感知機(jī)的系統(tǒng),DCASE 2017基線系統(tǒng)
說明:選擇基于多感知器的系統(tǒng)作為DCASE2017的基準(zhǔn)系統(tǒng)。該系統(tǒng)的主要結(jié)構(gòu)與現(xiàn)有的基于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和卷積神經(jīng)網(wǎng)絡(luò)(CNN)的現(xiàn)有技術(shù)系統(tǒng)相近,為進(jìn)一步開發(fā)提供了良好的起點。該系統(tǒng)是圍繞Keras實現(xiàn)的,這是一個用Python編寫的高級神經(jīng)網(wǎng)絡(luò)API。Keras在多個計算后端之間工作,其中選擇了Theano作為該系統(tǒng)。
系統(tǒng)細(xì)節(jié):
- 聲學(xué)特征:在具有20ms跳躍尺寸的40ms窗口中提取對數(shù)梅爾帶能量。
- 機(jī)器學(xué)習(xí):使用多層感知器(MLP)類型網(wǎng)絡(luò)的神經(jīng)網(wǎng)絡(luò)方法(2層,每層有50個神經(jīng)元,層間差異20%)。
系統(tǒng)參數(shù)
基于GMM的方法
基于高斯混合模型的輔助(secondary)系統(tǒng)也包括在基線系統(tǒng)中,以便與文獻(xiàn)中提出的傳統(tǒng)系統(tǒng)進(jìn)行比較。基于GMM的系統(tǒng)的實現(xiàn)非常類似于DCASE2016挑戰(zhàn)任務(wù)1和任務(wù)3中使用的基準(zhǔn)系統(tǒng)。有關(guān)DCASE2016所用系統(tǒng)的更多詳細(xì)信息:
Annamaria Mesaros, Toni Heittola, and Tuomas Virtanen, “TUT database for acoustic scene classification and sound event detection”. In 24th European Signal Processing Conference 2016 (EUSIPCO 2016). Budapest, Hungary, 2016.。
系統(tǒng)細(xì)節(jié):
聲學(xué)特征:20個MFCC靜態(tài)系數(shù)(包括第0個)+ 20個增量MFCC系數(shù)(一階導(dǎo)數(shù))+ 20個加速度MFCC系數(shù)(二階導(dǎo)數(shù))= 60個值,在具有50%跳躍尺寸的40ms分析窗口中計算。
機(jī)器學(xué)習(xí):高斯混合模型,每類模型16個高斯(16 Gaussians per class model)。
系統(tǒng)參數(shù)
流程圖
詳見網(wǎng)頁中關(guān)于框圖的詳細(xì)介紹
應(yīng)用
- 文件分類的平均準(zhǔn)確度。
| system | Accuracy | 1 | 2 | 3 | 4 |
| 基于多感知機(jī)系統(tǒng),2017年基線 | 74.8% | 75.2% | 75.3% | 77.3% | 71.3% |
| 基于GMM 系統(tǒng) | 74.1% | 74.0% | 76.0% | 73.1% | 73.2% |
場景分類結(jié)果
- 安裝(下載地址)
該系統(tǒng)是為Python 2.7,Python 3.5和Python 3.6開發(fā)的。 該系統(tǒng)經(jīng)過測試,可在Linux,Windows和MacOS平臺上工作。可以安裝官方CPython或使用一些基于它的Python發(fā)行版。 推薦使用新用戶使用Anaconda Python發(fā)行版。
在Windows上使用系統(tǒng):基線系統(tǒng)使用相當(dāng)長的目錄路徑,因為它將系統(tǒng)參數(shù)的32個字符的MD5哈希存儲到目錄名中。 某些Windows系統(tǒng)具有路徑長度限制(最低260個字符),這是導(dǎo)致問題的。 為了避免與此相關(guān)的問題,請將系統(tǒng)盡可能靠近驅(qū)動器根目錄安裝。
創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎勵來咯,堅持創(chuàng)作打卡瓜分現(xiàn)金大獎總結(jié)
以上是生活随笔為你收集整理的DCASE 2017声场分类任务描述——数据集及基线系统的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: st在会所是什么意思?
- 下一篇: 操作系统知识——互斥和死锁