日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

利用函数wavread对语音信号进行采样_语音识别第4讲:语音特征参数MFCC

發布時間:2025/3/20 编程问答 23 豆豆
生活随笔 收集整理的這篇文章主要介紹了 利用函数wavread对语音信号进行采样_语音识别第4讲:语音特征参数MFCC 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

一、MFCC概述[1]

在語音識別(SpeechRecognition)和話者識別(SpeakerRecognition)方面,最常用到的語音特征就是梅爾倒譜系數(Mel-scaleFrequency Cepstral Coefficients,簡稱MFCC)。根據人耳聽覺機理的研究發現,人耳對不同頻率的聲波有不同的聽覺敏感度。從200Hz到5000Hz的語音信號對語音的清晰度影響對大。兩個響度不等的聲音作用于人耳時,則響度較高的頻率成分的存在會影響到對響度較低的頻率成分的感受,使其變得不易察覺,這種現象稱為掩蔽效應。由于頻率較低的聲音在內耳蝸基底膜上行波傳遞的距離(速度)大于頻率較高的聲音,故一般來說,低音容易掩蔽高音,而高音掩蔽低音較困難。在低頻處的聲音掩蔽的臨界帶寬較高頻要小。所以,人們從低頻到高頻這一段頻帶內按臨界帶寬的大小由密到疏安排一組帶通濾波器,對輸入信號進行濾波。將每個帶通濾波器輸出的信號能量作為信號的基本特征,對此特征經過進一步處理后就可以作為語音的輸入特征。由于這種特征不依賴于信號的性質,對輸入信號不做任何的假設和限制,又利用了聽覺模型的研究成果。因此,這種參數比基于聲道模型的LPCC相比具有更好的魯邦性,更符合人耳的聽覺特性,而且當信噪比降低時仍然具有較好的識別性能。

MFCC是在Mel標度頻率域提取出來的倒譜參數,Mel標度描述了人耳頻率的非線性特性,它與頻率的關系可用下式近似表示:

其中

為頻率,單位Hz。下圖展示了Mel頻率與線性頻率之間的關系:

附:

import

二、MFCC提取過程[2]

基本流程:

連續語音 預加重 分幀 加窗 FFT Mel濾波器組 對數運算 DCT

0. 連續語音

我們這里截取了3.5s的原始聲音數據

import numpy as np import scipy.io.wavfile from matplotlib import pyplot as plt from scipy.fftpack import dct# 原始數據,讀取前3.5s 的數據 sample_rate, signal = scipy.io.wavfile.read('OSR_us_000_0010_8k.wav') original_signal = signal[0:int(3.5*sample_rate)]signal_num = np.arange(len(signal)) sample_num = np.arange(len(original_signal))# 繪圖 01 plt.figure(figsize=(11,7), dpi=500)plt.subplot(211) plt.plot(signal_num/sample_rate, signal, color='black') plt.plot(sample_num/sample_rate, original_signal, color='blue') plt.ylabel("Amplitude") plt.title("signal of Voice")plt.subplot(212) plt.plot(sample_num/sample_rate, original_signal, color='blue') plt.xlabel("Time (sec)") plt.ylabel("Amplitude") plt.title("3.5s signal of Voice ")plt.savefig('mfcc_01.png')

  • 預加重
  • 預加重處理其實是將語音信號通過一個高通濾波器:
    其中 ,我們通常取為0.97。預加重的目的是提升高頻部分,使信號的頻譜變得平坦,保持在低頻到高頻的整個頻帶中,能用同樣的信噪比求頻譜。同時,也是為了消除發生過程中聲帶和嘴唇的效應,來補償語音信號受到發音系統所抑制的高頻部分,也為了突出高頻的共振峰。

    # 預加重

    2. 分幀

    先將N個采樣點集合成一個觀測單位,稱為幀。通常情況下N的值為256或512,涵蓋的時間約為20~30ms左右。為了避免相鄰兩幀的變化過大,因此會讓兩相鄰幀之間有一段重疊區域,此重疊區域包含了M個取樣點,通常M的值約為N的1/2或1/3。通常語音識別所采用語音信號的采樣頻率為8KHz或16KHz,以8KHz來說,若幀長度為256個采樣點,則對應的時間長度是256/8000 1000=32ms。

    預加重后,我們需要將信號分成短時幀。這一步背后的基本原理是信號中的頻率隨時間而變化,所以在大多數情況下,對整個信號進行傅立葉變換是沒有意義的,因為我們會隨著時間的推移丟失信號的頻率輪廓。為了避免這種情況,我們可以安全地假設信號中的頻率在很短的時間內是平穩的。因此,通過在這個短時間幀內進行傅里葉變換,我們可以通過連接相鄰幀來獲得信號的頻率輪廓的良好近似。

    語音處理范圍內的典型幀大小范圍為20毫秒到40毫秒,連續幀之間重疊50%(+/- 10%)。流行設置25毫秒的幀大小,frame_size = 0.025和-10毫秒的步幅(15毫秒重疊), frame_stride = 0.01。

    # 分幀

    3. 加窗

    將每一幀乘以漢明窗,以增加幀左端和右端的連續性。假設分幀后的信號為S(n), n=0,1,…,N-1, N為幀的大小,那么乘上漢明窗后 形式如下:
    不同的 值會產生不同的漢明窗,一般情況下取為0.46。# 漢明窗

    在將信號切分為幀后,我們將一個窗口函數(如Hamming窗口)應用于每個幀。有幾個原因需要對窗框應用窗函數,特別是為了抵消FFT所假設的數據是無限的,并減少頻譜泄漏。

    # 加漢明窗

    4. 快速傅里葉變換 FFT

    由于信號在時域上的變換通常很難看出信號的特性,所以通常將它轉換為頻域上的能量分布來觀察,不同的能量分布,就能代表不同語音的特性。所以在乘上漢明窗后,每幀還必須再經過快速傅里葉變換以得到在頻譜上的能量分布。對分幀加窗后的各幀信號進行快速傅里葉變換得到各幀的頻譜。并對語音信號的頻譜取模平方得到語音信號的功率譜。設語音信號的DFT為: ,
    式中 為輸入的語音信號, 表示傅里葉變換的點數。# 傅里葉變換和功率譜 NFFT = 512 mag_frames = np.absolute(np.fft.rfft(frames, NFFT)) # Magnitude of the FFT pow_frames = (1.0 / NFFT) * (mag_frames ** 2)

    5. 三角帶通濾波器 (Mel濾波)

    將能量譜通過一組Mel尺度的三角形濾波器組,定義一個有M個濾波器的濾波器組(濾波器的個數和臨界帶的個數相近),采用的濾波器為三角濾波器,中心頻率為 。M通常取22-26。各f(m)之間的間隔隨著m值的減小而縮小,隨著m值的增大而增寬,如圖所示

    三角濾波器的頻率響應定義為:
    式中,
    三角帶通濾波器有兩個主要目的:對頻譜進行平滑化,并消除諧波的作用,突顯原先語音的共振峰。(因此一段語音的音調或音高,是不會呈現在MFCC 參數內,換句話說,以MFCC 為特征的語音辨識系統,并不會受到輸入語音的音調不同而有所影響)此外,還可以降低運算量。

    6. 計算每個濾波器組輸出的對數能量為

    , # 將頻率轉換為Mel頻率 low_freq_mel = 0nfilt = 40 high_freq_mel = (2595 * np.log10(1 + (sample_rate / 2) / 700)) mel_points = np.linspace(low_freq_mel, high_freq_mel, nfilt + 2) # Equally spaced in Mel scale hz_points = (700 * (10**(mel_points / 2595) - 1)) # Convert Mel to Hzbin = np.floor((NFFT + 1) * hz_points / sample_rate)fbank = np.zeros((nfilt, int(np.floor(NFFT / 2 + 1))))for m in range(1, nfilt + 1):f_m_minus = int(bin[m - 1]) # leftf_m = int(bin[m]) # centerf_m_plus = int(bin[m + 1]) # rightfor k in range(f_m_minus, f_m):fbank[m - 1, k] = (k - bin[m - 1]) / (bin[m] - bin[m - 1])for k in range(f_m, f_m_plus):fbank[m - 1, k] = (bin[m + 1] - k) / (bin[m + 1] - bin[m]) filter_banks = np.dot(pow_frames, fbank.T) filter_banks = np.where(filter_banks == 0, np.finfo(float).eps, filter_banks) # Numerical Stability filter_banks = 20 * np.log10(filter_banks) # dB

    7. 經離散余弦變換(DCT)得到MFCC系數


    將上述的對數能量帶入離散余弦變換,求出L階的Mel-scale Cepstrum參數。L階指MFCC系數階數,通常取12-16。這里M是三角濾波器個數。

    事實證明,前一步計算出的濾波器組系數高度相關,這在某些機器學習算法中可能存在問題。因此,我們可以應用離散余弦變換(DCT)去相關濾波器組系數并產生濾波器組的壓縮表示。通常,對于自動語音識別(ASR),所得到的倒譜系數2-13被保留,其余的被丟棄; num_ceps = 12。丟棄其他系數的原因是它們表示濾波器組系數的快速變化,并且這些細節不會有助于自動語音識別(ASR)。

    num_ceps

    可以將正弦升降1應用于MFCC以降低已被聲稱在噪聲信號中改善語音識別的較高MFCC.

    n = np.arange(ncoeff) cep_lifter =22 lift = 1 + (cep_lifter / 2) * np.sin(np.pi * n / cep_lifter) mfcc *= lift

    如前所述,為了平衡頻譜并改善信噪比(SNR),我們可以簡單地從所有幀中減去每個系數的平均值。平均歸一化濾波器組:

    filter_banks

    對于MFCC也是如此,平均歸一化MFCC:

    mfcc

    最后結果為

    # 繪圖 04 plt.figure(figsize=(11,7), dpi=500)plt.subplot(211) plt.imshow(np.flipud(filter_banks.T), cmap=plt.cm.jet, aspect=0.2, extent=[0,filter_banks.shape[1],0,filter_banks.shape[0]]) #畫熱力圖 plt.title("MFCC")plt.subplot(212) plt.imshow(np.flipud(mfcc.T), cmap=plt.cm.jet, aspect=0.2, extent=[0,mfcc.shape[0],0,mfcc.shape[1]])#熱力圖 plt.title("MFCC")plt.savefig('mfcc_04.png')

    8. 對數能量

    此外,一幀的音量(即能量),也是語音的重要特征,而且非常容易計算。因此,通常再加上一幀的對數能量(定義:一幀內信號的平方和,再取以10為底的對數值,再乘以10)使得每一幀基本的語音特征就多了一維,包括一個對數能量和剩下的倒頻譜參數。
    注:若要加入其它語音特征以測試識別率,也可以在此階段加入,這些常用的其它語音特征包含音高、過零率以及共振峰等。

    9.動態查分參數的提取(包括一階差分和二階差分)

    標準的倒譜參數MFCC只反映了語音參數的靜態特性,語音的動態特性可以用這些靜態特征的差分譜來描述。實驗證明:把動、靜態特征結合起來才能有效提高系統的識別性能。差分參數的計算可以采用下面的公式:
    式中,dt表示第t個一階差分;Ct表示第t個倒譜系數;Q表示倒譜系數的階數;K表示一階導數的時間差,可取1或2。將上式中結果再代入就可以得到二階差分的參數。總結:因此,MFCC的全部組成其實是由:N維MFCC參數(N/3MFCC系數+ N/3一階差分參數+ N/3二階差分參數)+幀能量(此項可根據需求替換)。

    參考

  • ^語音特征參數MFCC提取過程詳解?https://blog.csdn.net/jojozhangju/article/details/18678861
  • ^python 實現MFCC?https://blog.csdn.net/TH_NUM/article/details/80597495
  • 總結

    以上是生活随笔為你收集整理的利用函数wavread对语音信号进行采样_语音识别第4讲:语音特征参数MFCC的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。