日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【论文笔记】基于聚类特征深度LSTM的语音情感识别

發布時間:2023/12/20 编程问答 42 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【论文笔记】基于聚类特征深度LSTM的语音情感识别 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Clustering-Based Speech Emotion Recognition by Incorporating Learned Features and Deep BiLSTM

IEEE Access - South Korea, Pakistan

關鍵詞:語音情感識別、深度雙向LSTM、關鍵片段、序列選擇、CNN特征歸一化、RBFN


摘要

傳統SER主要注重手工特征和使用傳統CNN模型來提取高階特征,增加識別準確率和整個模型的復雜度。本文提出了新的框架:

  • 采用基于RBFN的聚類方法選擇一個關鍵序列,目的是:減少計算復雜度
  • STFT得到頻譜圖,經過CNN模型提取顯著特征,后對其進行歸一化保證識別準確率,目的是:特征提取后進行處理保證更加容易提取時空信息
  • 歸一化后傳入Deep BiLSTM學習時序信息并預測最終情感標簽

  • SER簡介

    • SER背景
    • 傳統方法用的是手工提取的特征
    • 2-D CNN本來是用在圖像處理領域,現在也應用于SER
    • CNN-LSTM提取空間-時間特征
    • 但是CNN的使用會增加計算復雜度和網絡參數
    • 所以使用K-means聚類,采用RBF(為什么非要用RBF不用其他的?)作為相似度度量,從每個簇抽取一個片段
    • 后將抽取的片段經過STFT算法得到頻譜圖,隨后放入CNN(Resnet模型的FC-1000層
    • CNN的輸出通過均值方差正則化,并輸入深度BiLSTM網絡提取時序信息并通過softmax層輸出預測結果
    • 本文的創新點:
  • 采用CNN-BiLSTM框架捕捉時序信息,所用的CNN模型是第一次被應用在這個領域,采用ResNet101特征結合序列學習機制
  • 提出一個用RBFN作為相似度量的抽取和選擇序列的方法,選擇距離簇心最近的作為代表,能夠減少處理時間
  • 均值方差歸一化能夠提升性能,這也是框架的主要貢獻之一
  • 實驗表明結果比較不錯,適合識別實時情感。

  • SER調研

    SER系統分為兩個部分:特征選擇和分類,特征提取有CNN或者高斯混合模型等等。CNN最近在特征提取興起,有采用預訓練模型做遷移學習提取特征的,LSTM-RNN用來學習時序信息,還有不需要手工特征輸入的端到端的方法。
    CNN-LSTM結合的方法用來捕捉高階特征和時序信息,有文章采用預訓練CNN和SVM結合做情感分類。


    提出的SER方法

    框架分為三個模塊,第一個模塊有兩個部分:
    第一個,將音頻文件分成多個片段并找出連續片段只差,獲得的差值通過一個閾值確保相似度并通過shot邊界檢測(這里好像是圖像處理的相關內容,這里是怎么用的呢?)找到聚類所使用的K值。若兩幀之差大于閾值,K值加一。每一簇都找到一個距離中心最近的關鍵片段,我們采用RBF作為聚類算法的相似度估計。
    第二部分,用STFT畫出所選擇關鍵序列的頻譜圖,后采用預訓練的Resnet101中的FC-1000層提取特征。具體的網絡結構在表1中給出:

    學習到的特征通過均值和標準差進行歸一化,最后通過深度雙向LSTM學習時序信息,獲得序列信息,并預測最終情感分類。網絡結構如下:

    A. 預處理和序列選擇

    首先將語音分幀,窗長為500ms,每個片段的標簽是整個語段的標簽,后通過K均值聚類。采用RBF代替K-Means中的歐幾里得距離矩陣,K值的選擇并不是隨機的,而是通過shot邊界檢測動態的估計相似性。(這里需要注意,每個文件的K值是不同的)

    B. 基于RBF的相似度度量

    RBF是計算片段之間相似性的非線性方法,人類大腦通過非線性過程識別和分辨模式。本文模型是基于RBFN的非線性模型,我們使用映射函數來找到兩語音片段間的相似性,其中也用到歸一化的概念。一維高斯模型是一個很好的選擇,因為其可以平滑映射函數。

    函數中心為z,寬度參數是σ\sigmaσ,這個函數用來度量x和中心z之間的相似程度,RBFN中有不同的RBF,用來進行非線性估計:

    拓展的映射函數如下:

    其有N個RBF,說明有多個中心z,為了減少網絡計算量,這里每一個片段僅僅采用了一維的高斯RBF:

    x表示語音信號片段,z表示每個片段的RBF中心,σ\sigmaσ表示每個片段的RBF寬度。其中寬度是可變的,共有P個RBF,參數調整、非線性加權和樣本方差估計如下:

    如果特定語音信號片段更相關,標準差會很小,如果標準差很大意味著片段不想管,較小的σ\sigmaσ值對距離的變化更加敏感。

    C. CNN特征提取和RNN

    本文采用CNN提取語音片段特征,RNN提取時序特征,后采用預訓練的CNN提取特征,提取的每個片段特征作為RNN的一個時間步,RNN最后一個時間步的輸出作為情感分類的最終結果。訓練大量復雜序列信息只用LSTM是不能正確識別的,本文采用多層深度Bi-LSTM進行序列識別,內部結構和記憶模塊信息如圖:

    D. 雙向LSTM

    本文采用多層LSTM的概念,采用前向和后向結合的Bi-LSTM網絡進行訓練,其中20%數據作為驗證集,從訓練數據中分離,并且通過交叉驗證計算錯誤率,優化器采用Adam,學習率為0.001。


    實驗設置和結果

    實驗數據集: IEMOCAP、Emo-DB、RAVDESS三個。IEMOCAP數據集包含10個人,有五個session,每個session是兩兩對話,每個語音片段長度約3~15s,共使用了4種情緒,采樣率16KHz;Emo-DB有10人,5男5女,每個語音片段約2~3s,包含7種情緒,采樣率16KHz;RAVDESS包含24人,12男12女,共有8種情緒,訓練數據分布除了neutral數量相同,采樣率48000Hz。這三個數據庫在speaker independent的實驗中均采用五折交叉驗證,80%用于訓練其余用來測試。
    實驗評估: 本文通過speaker independent和speaker dependent兩種方式評估,將每一個語段按照時間t分成片段,有25%重疊部分(具體這個時間t應該取多少?)。基于RBF的相似度度量采用K均值聚類在每一簇選擇關鍵片段(距離聚類中心最近的一個片段)。選擇好關鍵片段后,通過Resnet101模型的FC-1000進行高階特征提取,選擇全局平均值和標準差來歸一化提高整個模型的準確率。歸一化的特征輸入到BiLATM中,經過softmax層后,輸出預測概率。系統使用MATLAB 2019b中的神經網絡工具箱進行特征提取、模型訓練和評估。數據被分為80%用于訓練和20%用于測試。
    模型優化: 選擇Adam作為優化器,實驗中比較了特征歸一化和沒有歸一化結果的差異,選擇了512作為batch-size,0.001作為學習率,實驗表明,歸一化使得預測準確率有所提升。(文中是三個數據庫的結果,這里只給出了一個IEMOCAP的),SD和SI分別代表speaker dependent和speaker independent。

    實驗還對數據的訓練和測試時間進行了比較,該模型因為從數據中選取關鍵片段作為訓練數據,大大減少了數據處理時間。
    SI實驗: 五折交叉驗證,80%的speaker作為訓練數據,20%的speaker作為測試數據,結果如下:


    貌似這里沒有和baseline進行相應的比較,其中happy、neutral和sad情緒容易和其他情緒進行混淆。
    SD實驗: 將所有文件混合為一個集合, 隨機選取80%的數據進行訓練,20%用于測試和驗證。結果如下:


    同樣,似乎happy情緒是最容易進行混淆的情緒,可能是因為訓練數據數量受限,語音數據較圖像、視頻等數據少得多,容易識別錯誤。


    討論

    和其他很多baseline進行比較后,我們會發現,該模型能夠大幅度提高識別準確率:

    同時還將該模型和其他預訓練的CNN模型進行比較,結果如下:


    上面結果可以看出本文模型的效果遠大于其它CNN模型的效果。


    我想對本文進行復現,復現的內容在以后的博客中給出,也希望大家閱讀后指出我閱讀過程中的錯誤,多多交流,謝謝大家閱讀。

    總結

    以上是生活随笔為你收集整理的【论文笔记】基于聚类特征深度LSTM的语音情感识别的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。