- 单位:google
- 作者:Isaac Elias
- 时间:2020 & 2021 interspeech
文章目录
Parallel Tacotron
abstract
- 非自回归框架
- contribution:
- 基于VAE的residual encoder:可以缓解TTS上one-to-many的问题,并且改善自然度;
- lightweight convolutions:有效的建模local context;
- iterative spectrogram loss:受启发于 iterative refinement。
introduction
- Tacotron以及其他的自回归框架,基于previous mel+text生成当前mel,从而解决TTS上one-to-many的问题;
- FastSpeech:1是基于知识蒸馏,2是添加额外的pitch & energy信息。还有使用VAE捕捉prosody representation来表示。
method
- lightweight convolutions (LConv)——depth-wise convolution,在TTS任务上相对于Transformer的self-attention会更关注局部特征。