日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

功率谱 幅值谱_语音合成中的Mel谱和MFCC谱无区别

發布時間:2025/3/12 编程问答 28 豆豆
生活随笔 收集整理的這篇文章主要介紹了 功率谱 幅值谱_语音合成中的Mel谱和MFCC谱无区别 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

語音合成目前比較流行的方案是Tacotron(2) + WaveNet(WaveRNN, LPCNet)等神經網絡聲碼器。

這些方案的流程大致相同,先由文本生成特征譜,再將特征譜重建為音頻。在選擇特征譜的時候,有的使用了Mel譜,有的使用了倒譜。

本文通過梳理計算倒譜的流程,試圖說明使用Mel譜和倒譜并無區別。

下圖是Matlab計算倒譜的過程

可以分成以下幾步:

  • 音頻時域信號分幀
  • 對每一幀進行傅里葉變換,并取幅值,得到線性譜
  • 對線性譜進行Mel刻度的加權求和,得到Mel譜
  • 取log10,得到Fbank
  • 取離散余弦變換,得到倒譜系數
  • 從以上過程可以知道,Mel譜和倒譜系數的區別,在于一個取對數和取離散余弦變換的過程。

    我們知道,離散余弦變換是一個線性變換。線性變換對于神經網絡來說是小菜一碟。所以Mel譜和倒譜系數的主要區別是取對數的過程。

    在幾乎所有的開源代碼中,使用Mel譜特征的時候,都會對Mel譜特征求db值,也就是求一個N*log10()的值。其中N與mel譜幅值是否平方有關:如果Mel譜單是傅里葉變換后的幅值,那么N一般取10;如果Mel譜是傅里葉變換后幅值的平方,那么N一般取20。按照這樣的方法,Mel譜特征和倒譜特征只差了一個線性變換矩陣,對于神經網絡來說相當于沒差。

    所以,在使用Mel譜特征時,如果計算了db值,那么和使用Mfcc倒譜特征效果應是相同的。

    總結

    以上是生活随笔為你收集整理的功率谱 幅值谱_语音合成中的Mel谱和MFCC谱无区别的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。