當(dāng)前位置:
首頁 >
ASR声学特征
發(fā)布時間:2024/3/24
69
豆豆
聲學(xué)特征類型
聲學(xué)特征類型包括:Fbank (FilterBank) 特征、梅爾頻率倒譜系數(shù)MFCCs (Mel-Frequency Cepstral Coefficeitns) 特征、PLP特征。目前更為常見的是使用Fbank和MFCCs特征,下表是兩種特征的對比。
| Fbank | 分幀->傅立葉變換FFT->梅爾濾波組 | NN模型(NN-HMM/CTC/RNNT/LAS等) | 40/80 |
| MFCCs | Fbank->離散余弦變換DCT | GMM-HMM模型 | 13 |
MFCCs是在Fbank的基礎(chǔ)上做了離散余弦變化DCT (Discrete Cosine Transform),DCT的作用是去掉特征維間的相關(guān)性,由于NN模型能夠?qū)μ卣骶S間的相關(guān)性建模,所以在使用NN建模時,一般采用Fbank特征,使用傳統(tǒng)GMM-HMM建模時常采用MFCCs特征。
Fbank特征提取
通過命令compute-fbank-feats提取Fbank特征,compute-mfcc-feats提取MFCCs特征,通過–config傳入配置參數(shù)文件
compute-fbank-feats/compute-mfcc-feats --config featrue.conf其中配置文件featrue.conf文件如下,dither默認值為1,作用是在計算濾波器系數(shù)能量時加入隨機擾動,防止能量為0的情況出現(xiàn),會導(dǎo)致同一條音頻的輸出特征前后不一致。如果需要保持一致,要在配置文件中設(shè)置–dither=0。
--use-energy=false --num-mel-bins=40 --num-ceps=40 --low-freq=20 --high-freq=-400 --dither=1總結(jié)
- 上一篇: python协程等待执行完成_异步等待的
- 下一篇: 《基于slam算法的超视距小车》调研分析