2022年2月语音合成（TTS)和语音识别(ASR)论文月报-CFANZ编程社区

（二月份我分享文章有点少，主要最近手头活没干完，自己没那么多精力阅读）

一语音合成篇

表一给出具体分类说明，表二为每种分类的具体情况。2022年2月的语音合成相关的文章有23篇，比1月份的情况还少，呈下降趋势。但与2021年的1月份和2月份来说是增加了（图1为2021年论文情况，不保证遗漏情况，2021年度具体参见https://mp.weixin.qq.com/s/507imeCyF8cyH6rSlVKr6A）。从表二的具体方向文章数量可知，声学模型、歌唱和音乐合成、声码器和多模态的文章较多，尤其声码器lpcnet作者又发了两篇关于lpcnet的文章。声音转换的文章跟去年一样，但没有预料的增长，更多工作趋向无监督或者端到端的方向研究。总体研究情况没有出现特别亮眼的系统。

表一语音合成分类说明

分类	说明
前端	多音字，韵律，g2p等等。
声学模型	语言特征转声学特征，attention工作，多说话人以及双重学习
声码器	波形生成
个性化	少数据，脏数据应用等自适应
多语言	多语言模型
歌唱合成	歌唱和音乐合成
情感	风格和情感
多模态	主要搜集talking head文章
声音转换	基于GAN方案和特征解耦方案
S2S	speech-to-speech
其它	基于EEG合成，开源数据，MOS评测以及语音合成的应用

表二语音合成文章情况表（单位：篇）

	篇数
1月	27
2月	23

	1月	2月
前端	2	0
声学模型	4	5
声码器	1	5
个性化	1	2
多语言	1	1
歌唱合成	5	3
情感风格	2	2
多模态	4	3
声音转换	4	2
s2s	1	0
其它	2	0

图1 2021年语音合成论文情况柱状图

语音合成的文章列表请访问http://yqli.tech/page/tts_paper.html

2022.02月份的文章

二语音识别篇

语音识别的文章分类参照表三说明。表四为每个方向的具体文章数据量和本月的文章总量，其中2月份ASR相关的文章有44篇，比1月份相对增长，尤其一些参加比赛的文章比较多，比如M2MeT等等。

表三语音识别分类说明

分类	说明
general	包括传统、混合语音识别，以及对asr的优化
ctc	ctc优化
rnn-t	rnn-t的优化
aed	aed优化
dataset	开源数据库
data aug	数据增广
lm	语言模型研究
multilingual	多语音系统以及code-switch
personal	少数据量自适应以及个性化ASR
rescoring	多种模型联合打分
unsupervised	无监督或者自监督学习
accent ,dialect	口音和方言
other	其它方向研究，包括系统评价标准等等
robust	鲁棒性
multichannel	多通道

表四语音识别文章数量统计（单位：篇）

	篇数
1月	35
2月	44

	1月	2月
general	12	10
ctc	1	0
rnn-t	3	1
aed	1	1
dataset	3	0
data augmentation	1	1
lm	2	2
multilingual	2	1
personal	0	7
rescoring	1	1
unsupervised	2	3
accent	1	0
multichannel	0	4
robust	0	0
other	6	13

语音识别的文章列表请访问http://yqli.tech/page/asr_paper.html

2022.02月份语音识别具体文章