當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【论文阅读】智能设备中基于深度特征的语音情感识别

發布時間：2024/3/13 编程问答 46 豆豆

生活随笔收集整理的這篇文章主要介紹了【论文阅读】智能设备中基于深度特征的语音情感识别小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Badshah A M , Rahim N , Ullah N , et al. Deep features-based speech emotion recognition for smart affective services[J]. Multimedia Tools and Applications, 2017.

文章目錄

- - 摘要
  - 主要創新點
  - 本文的主要工作
  - 數據集
  - 具體方法
  - - 原始數據
    - 網絡結構
    - 實驗方法
    - - 實驗一：探究CNN性能——AlexNet
      - 實驗二：帶噪語料庫
  - 總結

摘要

語音情感識別具有包括智能醫療、自主語音響應系統、急救中心評估呼叫者情景嚴重性等多種應用。本文提出了一種基于深度卷積神經網絡的方法。通常CNN使用方形的卷積核，并且在不同層使用池化操作，這些操作均適合于2D的圖像數據。然而在語音頻譜圖中，信息使用不同的編碼方式，x軸表示時間，y軸表示信號頻率，振幅由頻譜圖中特定位置的強度表示。為了從頻譜圖中分析語音信號，本文提出使用不同形狀的矩形卷積核，以及在矩形范圍中使用最大池化的方式以提取特征。本方案在EmoDB庫和韓語語音數據庫上有效學習了語譜圖的判別特征，實現了比許多現有技術更好的性能。

主要創新點

在kernel_size、pool_size、strides等設置上改為矩形，并且模仿了AlexNet的結構進行實驗

本文的主要工作

提出了一種使用矩形核和修正池化策略的CNN結構

評估了提出網絡在有噪環境下的性能，并與對照網絡進行對比

數據集

EmoDB數據庫 7種基本情緒
Korean real calls from emergencies using phones

具體方法

原始數據

一維時間序列轉換為語譜圖處理

直接將語音轉換為語譜圖

以overlap：50%將完整的語譜圖分割，由16×256變為256×256

網絡結構

（圖片上有明顯標注錯誤，暈死）

LayerShapen_kernelkernel_sizestride_sizeActivationMethod

conv1	16×256, resized to 256×256	96	(15, 3)	(3, 1)	ReLU
pool1			(3, 1)	(2, 1)		max
conv2		256	(9, 3)	(1, 1)	ReLU
pool2			(3, 1)	(1, 1)		max
conv3		384	(7, 3)	(1, 1)	ReLU
pool3			(3, 1)	(1, 1)		max
conv4		384	(7, 1)	(1, 1)	ReLU
pool4			(3, 1)	(1, 1)		max
conv5		256	(7, 1)	(1, 1)	ReLU
pool5			(3, 1)	(2, 1)		max
fc1		4096				dropout=0.75
fc2		4096				dropout=0.75
fc3		7			Softmax

實驗方法

75%訓練數據，25%測試數據，五倍交叉驗證
batch_size = 128, epochs = 10
initial learning rate = 0.01, with a decay of 1 after every 10 epochs（每10個周期衰減一次）

實驗一：探究CNN性能——AlexNet

square shaped kernelsrectangular shaped kernels

總體來說，性能變化不大。但在happy、boredom等易混淆情緒上的識別率明顯提高。

實驗二：帶噪語料庫

語料庫標簽分為“正常”和“有情感”兩種
訓練模型并進行識別，與SVM、Decision Tree、Random Forest、AlexNet進行對比。

總結

文章認為矩形核能夠更好的擬合語譜圖的形式。
個人認為本文章很普通，模型上不具有太大的學習性。。。但其中一個想法很好，就是使用帶噪語料庫進行實驗，這在其他論文中是不常見的，不過這也可能是作者湊篇幅的產物hhhh，個人意見，請勿上綱上線，不喜勿踩。

總結

以上是生活随笔為你收集整理的【论文阅读】智能设备中基于深度特征的语音情感识别的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：物理学/数学中常用的“等号”
下一篇：进行CAD图纸文件查看时如何对其进行平移