ESPNet入门-简述-CFANZ编程社区

ESPNet入门-简述

ESPnet是一个端到端语音处理工具包，涵盖端到端语音识别、文本到语音、语音翻译、语音增强、说话人日记、口语理解等。ESPnet使用pytorch作为深度学习引擎，并遵循Kaldi风格的数据处理、特征提取/格式和配方，为各种语音处理实验提供了完整的设置。本系列只会记录语音识别方向的学习记录。
ESPnet的数据处理步骤和Kaldi完全一样，所以我会详细介绍数据处理的内容，当然在ESPnet2完全移除了Kaldi的内容，但是我觉得Kaldi肯定是有学习的必要的。

1、语音识别步骤

每个egs的顶层目录都是run.sh，其中会包含很多子脚本，而子脚本会寻至kaldi/src/xxxbin目录下.cc文件(c++)。

1.1 准备数据

需要生成text, wav.scp, utt2spk, spk2utt文件在data/{train, test, dev}文件夹中，细节将在Ch.2描述。

1.2 声学特征提取

将原始音频通过信号处理手段转换成机器更容易处理的形式。常用的特征提取方式有MFCC和FBANK。这里还计算了倒谱均值方差归一化（Cepstral Mean and Variance Normalization, CMVN）系数用于声学特征的规整化，该方法旨在提高声学特征对说话人、录音设备、环境、音量等因素的鲁棒性。

1 # ##### Bookmark : feature extraction ######
2
3 # produce MFCC and Fbank features in
data /{ mfcc , fbank }/{ train , test } 
4 rm - rf data / mfcc && mkdir -p data / mfcc && cp -r
data /{ train , test } data / mfcc
5 rm - rf data / fbank && mkdir -p data / fbank && cp -r
data /{ train , test } data / fbank
6 for x in train test ; do
7 # make mfcc and fbank
8 steps / make_mfcc . sh -- nj $n -- cmd " $train_cmd "
data / mfcc / $x
9 steps / make_fbank . sh -- nj $n -- cmd " $train_cmd "
data / fbank / $x
10 # compute cmvn
11 steps / compute_cmvn_stats . sh data / mfcc / $x
12 steps / compute_cmvn_stats . sh data / fbank / $x
13 done

0 条评论