【论文阅读】智能设备中基于深度特征的语音情感识别
生活随笔
收集整理的這篇文章主要介紹了
【论文阅读】智能设备中基于深度特征的语音情感识别
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
- Badshah A M , Rahim N , Ullah N , et al. Deep features-based speech emotion recognition for smart affective services[J]. Multimedia Tools and Applications, 2017.
文章目錄
- 摘要
- 主要創新點
- 本文的主要工作
- 數據集
- 具體方法
- 原始數據
- 網絡結構
- 實驗方法
- 實驗一:探究CNN性能——AlexNet
- 實驗二:帶噪語料庫
- 總結
摘要
語音情感識別具有包括智能醫療、自主語音響應系統、急救中心評估呼叫者情景嚴重性等多種應用。本文提出了一種基于深度卷積神經網絡的方法。通常CNN使用方形的卷積核,并且在不同層使用池化操作,這些操作均適合于2D的圖像數據。然而在語音頻譜圖中,信息使用不同的編碼方式,x軸表示時間,y軸表示信號頻率,振幅由頻譜圖中特定位置的強度表示。為了從頻譜圖中分析語音信號,本文提出使用不同形狀的矩形卷積核,以及在矩形范圍中使用最大池化的方式以提取特征。本方案在EmoDB庫和韓語語音數據庫上有效學習了語譜圖的判別特征,實現了比許多現有技術更好的性能。
主要創新點
- 在kernel_size、pool_size、strides等設置上改為矩形,并且模仿了AlexNet的結構進行實驗
本文的主要工作
數據集
EmoDB數據庫 7種基本情緒
Korean real calls from emergencies using phones
具體方法
原始數據
一維時間序列轉換為語譜圖處理
網絡結構
(圖片上有明顯標注錯誤,暈死)
| conv1 | 16×256, resized to 256×256 | 96 | (15, 3) | (3, 1) | ReLU | |
| pool1 | (3, 1) | (2, 1) | max | |||
| conv2 | 256 | (9, 3) | (1, 1) | ReLU | ||
| pool2 | (3, 1) | (1, 1) | max | |||
| conv3 | 384 | (7, 3) | (1, 1) | ReLU | ||
| pool3 | (3, 1) | (1, 1) | max | |||
| conv4 | 384 | (7, 1) | (1, 1) | ReLU | ||
| pool4 | (3, 1) | (1, 1) | max | |||
| conv5 | 256 | (7, 1) | (1, 1) | ReLU | ||
| pool5 | (3, 1) | (2, 1) | max | |||
| fc1 | 4096 | dropout=0.75 | ||||
| fc2 | 4096 | dropout=0.75 | ||||
| fc3 | 7 | Softmax |
實驗方法
- 75%訓練數據,25%測試數據,五倍交叉驗證
- batch_size = 128, epochs = 10
- initial learning rate = 0.01, with a decay of 1 after every 10 epochs(每10個周期衰減一次)
實驗一:探究CNN性能——AlexNet
總體來說,性能變化不大。但在happy、boredom等易混淆情緒上的識別率明顯提高。
實驗二:帶噪語料庫
- 語料庫標簽分為“正常”和“有情感”兩種
- 訓練模型并進行識別,與SVM、Decision Tree、Random Forest、AlexNet進行對比。
總結
文章認為矩形核能夠更好的擬合語譜圖的形式。
個人認為本文章很普通,模型上不具有太大的學習性。。。但其中一個想法很好,就是使用帶噪語料庫進行實驗,這在其他論文中是不常見的,不過這也可能是作者湊篇幅的產物hhhh,個人意見,請勿上綱上線,不喜勿踩。
總結
以上是生活随笔為你收集整理的【论文阅读】智能设备中基于深度特征的语音情感识别的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 物理学/数学中常用的“等号”
- 下一篇: 进行CAD图纸文件查看时如何对其进行平移