日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【论文阅读】智能设备中基于深度特征的语音情感识别

發布時間:2024/3/13 编程问答 46 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【论文阅读】智能设备中基于深度特征的语音情感识别 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
  • Badshah A M , Rahim N , Ullah N , et al. Deep features-based speech emotion recognition for smart affective services[J]. Multimedia Tools and Applications, 2017.

文章目錄

      • 摘要
      • 主要創新點
      • 本文的主要工作
      • 數據集
      • 具體方法
        • 原始數據
        • 網絡結構
        • 實驗方法
          • 實驗一:探究CNN性能——AlexNet
          • 實驗二:帶噪語料庫
      • 總結

摘要

語音情感識別具有包括智能醫療、自主語音響應系統、急救中心評估呼叫者情景嚴重性等多種應用。本文提出了一種基于深度卷積神經網絡的方法。通常CNN使用方形的卷積核,并且在不同層使用池化操作,這些操作均適合于2D的圖像數據。然而在語音頻譜圖中,信息使用不同的編碼方式,x軸表示時間,y軸表示信號頻率,振幅由頻譜圖中特定位置的強度表示。為了從頻譜圖中分析語音信號,本文提出使用不同形狀的矩形卷積核,以及在矩形范圍中使用最大池化的方式以提取特征。本方案在EmoDB庫和韓語語音數據庫上有效學習了語譜圖的判別特征,實現了比許多現有技術更好的性能。

主要創新點

  • 在kernel_size、pool_size、strides等設置上改為矩形,并且模仿了AlexNet的結構進行實驗

本文的主要工作

  • 提出了一種使用矩形核和修正池化策略的CNN結構
  • 評估了提出網絡在有噪環境下的性能,并與對照網絡進行對比
  • 數據集

    EmoDB數據庫 7種基本情緒
    Korean real calls from emergencies using phones

    具體方法

    原始數據

    一維時間序列轉換為語譜圖處理

  • 直接將語音轉換為語譜圖
  • 以overlap:50%將完整的語譜圖分割,由16×256變為256×256
  • 網絡結構

    (圖片上有明顯標注錯誤,暈死)

    LayerShapen_kernelkernel_sizestride_sizeActivationMethod
    conv116×256, resized to 256×25696(15, 3)(3, 1)ReLU
    pool1(3, 1)(2, 1)max
    conv2256(9, 3)(1, 1)ReLU
    pool2(3, 1)(1, 1)max
    conv3384(7, 3)(1, 1)ReLU
    pool3(3, 1)(1, 1)max
    conv4384(7, 1)(1, 1)ReLU
    pool4(3, 1)(1, 1)max
    conv5256(7, 1)(1, 1)ReLU
    pool5(3, 1)(2, 1)max
    fc14096dropout=0.75
    fc24096dropout=0.75
    fc37Softmax

    實驗方法

    • 75%訓練數據,25%測試數據,五倍交叉驗證
    • batch_size = 128, epochs = 10
    • initial learning rate = 0.01, with a decay of 1 after every 10 epochs(每10個周期衰減一次)
    實驗一:探究CNN性能——AlexNet
    square shaped kernelsrectangular shaped kernels

    總體來說,性能變化不大。但在happy、boredom等易混淆情緒上的識別率明顯提高。

    實驗二:帶噪語料庫
    • 語料庫標簽分為“正常”和“有情感”兩種
    • 訓練模型并進行識別,與SVM、Decision Tree、Random Forest、AlexNet進行對比。

    總結

    文章認為矩形核能夠更好的擬合語譜圖的形式。
    個人認為本文章很普通,模型上不具有太大的學習性。。。但其中一個想法很好,就是使用帶噪語料庫進行實驗,這在其他論文中是不常見的,不過這也可能是作者湊篇幅的產物hhhh,個人意見,請勿上綱上線,不喜勿踩。

    總結

    以上是生活随笔為你收集整理的【论文阅读】智能设备中基于深度特征的语音情感识别的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。