0
点赞
收藏
分享

微信扫一扫

VOCBENCH声码器评价基准

GhostInMatrix 2022-04-15 阅读 11

VOCBENCH目录


Facebook在2021年发表的论文,为了解决vocoder评价过程中因变量不同而导致的难以评估的问题。
论文地址: https://arxiv.org/pdf/2112.03099.pdf
GitHub地址: https://github.com/facebookresearch/vocoder-benchmark

一、数据集和声码器选择

数据集:一个单说话人数据集和两个多说话人数据集。
在相同的环境下训练了六个不同的vocoder
在这里插入图片描述

二、评价指标

生成质量评估

  • MOS(平均意见得分)
  • SSIM(结构相似性):合成波形和真实波形的相似性
  • FAD(相邻音频距离):在embedding集合上估计的两个多变量高斯之间的距离,背景和评估embedding。
  • LS-MSE(mel光谱图均方误差):真实mel谱图和生成图谱之间的计算误差
  • PSNR(峰值信噪比):信号在最佳情况下输出功率和噪声峰值的功率之比。

计算效率评估

  • Params(模型参数量)
  • GFLOPS(每秒浮点运算个数)
  • RTF(实时性能)

三、实验结果

根据表一可以得到:

  • SSIM波形相似性: melgan > griffin-lim > PWG > diffwave > wavegrad > wavenet > wavernn
  • LS-MSE梅尔均方误差: melgan = griffin-lim > PWG 远大于其他
  • PSNR信噪比: melgan > griffin-lim > PWG 远大于其他
  • FAD音频距离: PWG > wavenet > melgan 远大于其他
  • MOS语音自然度: PWG > diffwave > wavernn > wavenet > wavegrad >melgan > griffin-lim
    在这里插入图片描述

根据表二可以得到:

  • Params模型参数量PWG > diffwave > melgan > wavenet > wavernn > wavegrad
  • GFLOPSwavernn > wavenet 远大于其他
  • RTF 计算速度melgan > PWG 远大于其他
    在这里插入图片描述
举报

相关推荐

0 条评论