當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

DCASE 2013任务1(声学场景分类)参赛作品相关信息

發布時間：2023/12/15 编程问答 35 豆豆

生活随笔收集整理的這篇文章主要介紹了 DCASE 2013任务1(声学场景分类)参赛作品相关信息小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

　　本文資料來源于DCASE 2013以及上面下載的各個參賽組的技術報告（應該就是擴展摘要）

參賽者及其作品：

注意：圖中的參考文獻[46-56]就是對應的參賽者提交作品的技術報告（也就是擴展摘要）。

（1）Chum et al[1]

簡介：這里開發了兩種算法：第一種是基于隱馬爾可夫模型（HMM）和高斯混合模型（GMM）。所使用的特征包括短時傅立葉變換，響度和光譜稀疏度。第二種算法在基于幀的層面上應用支持向量機（SVM）。
code：CHR
方法：在兩個框架的不同的特征，分類：(a)：前框架SVM+多數表決；(b)：HMM
開發語言：matlab
相關的文章：M. Chum, A. Habshush, A. Rahman, and C. Sang, “IEEE AASP scene classification challenge using hidden Markov models and frame based classification,” 2013.
成員：
- Dan Stowell（dan.stowell@eecs.qmul.ac.uk），Manager
- Emmanouil Benetos （emmanouil.benetos@qmul.ac.uk），Manager
- Mark Plumbley （m.plumbley@surrey.ac.uk），Manager

(2)Geiger et al[3]

簡介：這是對聲學場景分類的IEEE AASP挑戰的貢獻。從30秒長的高可變錄音中，提取頻譜，倒譜，能量和聲音相關的音頻特征。使用滑動窗口方法來獲得短段上低級特征的統計學特征。 SVM用于對這些短段進行分類，并采用多數投票方案來獲得整個記錄的決策。關于挑戰的官方發展，實現了73％的準確性。使用t統計量的特征分析表明，主要的Mel譜是最相關的特征。
code:GSR
方法：不同的特征，在4秒的窗口中使用SVM進行分類，然后投票表決
開發語言：Weka/HTK
相關文章：
- (1)J. T. Geiger, B. Schuller, and G. Rigoll, “Recognising acoustic scenes with large-scale audio feature extraction and SVM,” 2013.
- (2)J. T. Geiger, B. Schuller, and G. Rigoll, “Large-Scale Audio Feature Extraction and SVM for Acoustic Scene Classification,” in WASPAA, 2013, p. 4.(有代碼)
成員：
- Dan Stowell （dan.stowell@eecs.qmul.ac.uk），Manager
- Emmanouil Benetos （emmanouil.benetos@qmul.ac.uk），Manager
- Jürgen Geiger （geiger@tum.de），Manager
- Mark Plumbley （m.plumbley@surrey.ac.uk），Manager

Olivetti[8]

簡介：我們提出一種方法，將一般對象（如音頻樣本）有效地嵌入到矢量特征空間中，適用于分類問題。從實踐的角度來看，采用提出的方法的研究者只需要提供兩個成分：這些對象的高效壓縮器，以及將兩個對象組合成新對象的方式。所提出的方法基于兩個主要元素：不相似性表示和歸一化壓縮距離（NCD）。不相似性表示是歐幾里德嵌入算法，即將通用對象映射到向量空間中的過程，其需要在對象之間定義距離函數。所產生的嵌入的質量嚴格依賴于該距離的選擇。 NCD是基于Kolmogorov復雜性概念的對象之間的距離。在實踐中，NCD基于兩個構建塊：壓縮函數和將兩個對象組合成新對象的方法。我們聲稱，一旦良好的壓縮機和有意義的組合兩個對象的方法可用，則可以構建分類算法可以準確的有效特征空間。作為我們向IEEE AASP挑戰提交的文件，我們在聲場分類的上下文中展示了所提出的方法的實際應用，其中壓縮器是自由和開源的Vorbis有損音頻壓縮器，并且兩個音頻樣本的組合是它們的簡單連接。
code:OE
方法：歸一化壓縮距離（vorbis），歐幾里德嵌入，由隨機森林分類
開發語言：Phyon
相關文章：
- E. Olivetti, “The wonders of the normalized compression dissimilarity representation,” 2013.
成員：
- Dan Stowell （dan.stowell@eecs.qmul.ac.uk），Manager
- Emmanouil Benetos （emmanouil.benetos@qmul.ac.uk），Manager
- Mark Plumbley （m.plumbley@surrey.ac.uk），Manager

Roma et al[11]

簡介：該代碼使用重復量化分析（RQA）功能進行場景分類任務。這些特征是通過從MFCC特征的窗口計算出的閾值相似度矩陣來計算的。增加了傳統的MFCC統計，它們在使用標準SVM分類器時提高了準確性。
code:RNH
方法：復發定量分析應用于MFCC時間序列，由SVM分類
開發語言：matlab
相關文章：
- (1)G. Roma, W. Nogueira, and P. Herrera, “Recurrence Quantification Analysis for auditory scene classification,” 2013.
成員：
- Dan Stowell （dan.stowell@eecs.qmul.ac.uk），Manager
- Emmanouil Benetos （emmanouil.benetos@qmul.ac.uk），Manager
- Mark Plumbley （m.plumbley@surrey.ac.uk），Manager

總結

以上是生活随笔為你收集整理的DCASE 2013任务1(声学场景分类)参赛作品相关信息的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：科技公司掀起裁员潮，Spotify 宣布
下一篇：空间谱专题06：宽带信号处理思路