声谱图（spectrogram)、FBank（Mel_spectrogram）和 MFCC(Mel倒谱)到底用哪个作为NN输入？-CFANZ编程社区

声谱图（spectrogram)、FBank（Mel_spectrogram）和 MFCC(Mel倒谱)到底用哪个作为NN输入？

一般来说一段音频先是经过傅里叶变换得到spec，然后经过三角滤波得到mel_spec,最后通过倒谱得到mfcc，这个过程中feature的维度在不断降低，这就意味着可能会存在信息上的损失。

那么在nn中到底该选哪个作为输入呢？

参考资料：
1 语音信号处理基础学习和源码理解Melspectrogram

2 为什么tacotron生成语音时需要先生成Mel频谱，再重建语音？Mel频谱在其中起到什么用？

0 条评论