當(dāng)前位置：首頁(yè) > 编程资源 > 综合教程 >内容正文

综合教程

【librosa】音频特征提取

發(fā)布時(shí)間：2023/12/13 综合教程 37 生活家

生活随笔收集整理的這篇文章主要介紹了【librosa】音频特征提取小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

參考

【librosa】及其在音頻處理中的應(yīng)用
librosa官方文檔
liborosa源碼 Overview: module code

log-spectrogram

計(jì)算log-scaled spectrogram，librosa庫(kù)中并沒(méi)有現(xiàn)成的函數(shù)，需要自行計(jì)算。

計(jì)算步驟：

load -> stft -> abs -> power -> log

y = librosa.load('test.wav', sr = sr)
ft = librosa.stft(y, n_fft=512, hop_length=256)
log_spec = librosa.power_to_db(np.abs(ft)**2)

melspectrogram

計(jì)算mel-scaled spectrogram。

源碼中：melspectrogram = _spectrogram + Mel filters [np.dot]
并且：_spectrogram = stft + abs + power(default 1)
melspectrogram 源碼中，default power = 2

源碼參考，使用方式如下：
librosa.feature.melspectrogram(y=None, sr=22050, S=None, n_fft=2048, hop_length=512, win_length=None, window='hann', center=True, pad_mode='reflect', power=2.0, **kwargs)
輸出：【S】【Mel spectrogram】np.ndarray [shape=(n_mels, t)]

mfcc

計(jì)算Mel-frequency cepstral coefficients (MFCCs)。

基本步驟：

預(yù)處理（預(yù)加重-分幀加窗）
逐幀：fft -> 功率譜 -> mel濾波器組-> 對(duì)數(shù)功率 -> DCT -> mfccs

源碼中：mfcc = melspectrogram + power_to_db + dct
power_to_db：Convert a power spectrogram (amplitude squared) to decibel (dB) units，10 * log10(S / ref)

源碼參考，使用方式如下：
librosa.feature.mfcc(y=None, sr=22050, S=None, n_mfcc=20, dct_type=2, norm='ortho', lifter=0, **kwargs)
輸出：【M】【MFCC sequence】np.ndarray [shape=(n_mfcc, t)]

chroma_stft

Compute a chromagram from a waveform or power spectrogram.

源碼中：chroma_stft = _spectrogram + estimate_tuning + chroma(np.dot) + normalize
bins_per_octave = n_chroma

源碼參考，使用方式如下：
librosa.feature.chroma_stft(y=None, sr=22050, S=None, norm=inf, n_fft=2048, hop_length=512, win_length=None, window='hann', center=True, pad_mode='reflect', tuning=None, n_chroma=12, **kwargs)
輸出：【chromagram】【Normalized energy for each chroma bin at each frame.】np.ndarray [shape=(n_chroma, t)]

chroma_cqt

計(jì)算Constant-Q色譜圖。

源碼中：chroma_cqt = cqt + abs + cqt_to_chroma(dot) + normalize

源碼參考，使用方式如下：
librosa.feature.chroma_cqt(y=None, sr=22050, C=None, hop_length=512, fmin=None, norm=inf, threshold=0.0, tuning=None, n_chroma=12, n_octaves=7, window=None, bins_per_octave=36, cqt_mode='full')
輸出：【chromagram】np.ndarray [shape=(n_chroma, t)]

delta

特征的動(dòng)態(tài)信息。The derivatives of features provides the information of dynamics of features over the time（相當(dāng)于在時(shí)間軸上的斜率）.
Compute delta features: local estimate of the derivative of the input data along the selected axis. Delta features are computed Savitsky-Golay filtering.
其中，SD濾波器是一種基于卷積計(jì)算的低通平滑濾波器（在時(shí)域內(nèi)基于多項(xiàng)式，通過(guò)移動(dòng)窗口利用最小二乘法進(jìn)行最佳擬合，即對(duì)一定長(zhǎng)度窗口內(nèi)的數(shù)據(jù)點(diǎn)進(jìn)行k階多項(xiàng)式擬合），是移動(dòng)平滑算法的改進(jìn)。SD filter可以提高光譜的平滑性，并降低噪音的干擾。
python代碼使用以及源碼參考：scipy.signal.savgol_filter。
更多可參考：【Savitzky-Golay平滑去噪】和【Python 生成曲線進(jìn)行快速平滑處理】。

delta在librosa中的源碼參考: librosa.feature.delta，使用方式如下：
librosa.feature.delta(data, width=9, order=1, axis=-1, mode='interp', **kwargs)
The default axis along which to compute deltas is -1 (columns).
輸出delta matrix of data at specified order：【delta_data】np.ndarray [shape=(d, t)]

總結(jié)

以上是生活随笔為你收集整理的【librosa】音频特征提取的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。