0
点赞
收藏
分享

微信扫一扫

声谱图(spectrogram)、FBank(Mel_spectrogram)和 MFCC(Mel倒谱)到底用哪个作为NN输入?


一般来说一段音频先是经过傅里叶变换得到spec,然后经过三角滤波得到mel_spec,最后通过倒谱得到mfcc,这个过程中feature的维度在不断降低,这就意味着可能会存在信息上的损失。

那么在nn中到底该选哪个作为输入呢?

  • DNN做声学模型时,一般用fbank,不用mfcc,因为fbank信息更多 (mfcc是由mel fbank有损变换得到的)。
  • mfcc一般是GMM做声学模型时用的,因为通常GMM假设是diagonal协方差矩阵,而cepstral coefficient更符合这种假设。
  • linear spectrogram里面冗余信息太多了,维度也高,所以一般都不用。

参考资料:
1 ​​​语音信号处理基础学习和源码理解Melspectrogram​​​

2 ​​为什么tacotron生成语音时需要先生成Mel频谱,再重建语音?Mel频谱在其中起到什么用?​​


举报
0 条评论