0
点赞
收藏
分享

微信扫一扫

语音信号处理、语音特征提取


语音信号处理、语音特征提取_搜索


语音信号是一种短时平稳信号, 即时变的,十分复杂,携带很多有用 的信息,这些信息包括语义、个人特 征等,其特征参数的准确性和唯一性 将直接影响语音识别率的高低,并且 这也是语音识别的基础。

语音信号特征参数是分帧提取的, 每帧特征参数一般构成一个矢量, 所以语音信号特征是一个矢量序列。
语音信号特征提取的基础是分帧, 将语音信号切成一帧一帧,每帧大 小大约是20-30ms。
特征参数应该能够比较 准确地表达语音信号的 特征具有一定的唯一性

端点检测:一段语音信号中准确地找出 语音信号的起始点和结束点
目的:把有效的语音信号好无用的噪声 信号分离
在语音识别,语音增强,语音编码,回 声抵消等系统中应用广泛

语音端点检测方法分类
(1)基于阈值的方法:根据语音信号和噪声 信号的不同特征,提取每一段语音信号的特 征并与设定的阈值进行比较
(2)基于模式识别的方法,需要估计语音信 号和噪声信号的模型参数来进行比较,鉴于 模式识别方法自身复杂度高,运算量大,很 难应用到实时语音信号中

端点检测本质上是根据语音和 噪声的相同参数所表现出的不 同特征来进行区分。 传统的短时能量和过零率相结 合的语音端点检测算法,短时 过零率来检测清音,用短时能 量来检测浊音,两者相配合实 现了信号信噪比较大情况下的 端点检测(以短时能量检测为 主,短时过零率检测为辅)

语音信号处理、语音特征提取_语音信号_02


短时能量法可以较好地区分出浊音和静音

短时过零率对于清音,其能量较小,会因为低于能 量门限而被误判为静音,短时过零率可以区分静音 和清音

双门限法:基于短时能量(高门限)和过零率(低 门限)的双门限端点检测算法(当低门限被超过时, 有可能是噪声引起的,未必是语音的开始,当高门 限被超过并在接下来的时间段内一直超过低门限时, 意味着语音信号的开始)

双门限法步骤:
(1)计算短时能量(高门限) 和过零率(低门限)
(2)选取一个较高的门限 ,语音信号的能量包络 大部分都在此门限之上,进行一次初判,语音起止 点位于该门限与短时能量包络交点所对应的时间间 隔之外

语音信号处理、语音特征提取_搜索_03


(3)根据噪声能量,确定一个较低的门限 T并从初判起 点往左,从初判终点往右搜索,分别找到能零比曲线 第一次与门限 T,相交的两个点,两点之间段就是用 双门限方法所判定的语音段

(4)以短时平均过零率为准,从低门限点往左右搜索, 找到短时平均过零率低于某阈值的两点,为语音的起 止点

语音信号处理、语音特征提取_搜索_04


语音信号处理、语音特征提取_语音信号_05


谱熵法

熵表示信息的有序程度,语音的熵和噪声的熵 存在较大的差异,可以体现语音和噪声在整个 信号段中的分布概率

谱熵语音端点检测方法是通过检测谱的平坦程 度,达到语音端点检测的目的自相关法:

(1)短时自相关(已讲)

(2)由于两种信号的自相关函数存在极大的差异, 可以利用这种差别来提取语音端点。根据噪声的 情况,设置两个阈值 T1和T2 ,当相关函数最大值大 于T2 时,便判定是语音;当相关函数最大值大于或 小于T1 时,则判定为语音信号的端点。

语音信号处理、语音特征提取_语音信号_06


语音信号处理、语音特征提取_语音信号_07


基于谱熵的端点检测: 基于谱熵语音端点检测方法是通过检 测谱的平坦程度,来进行语音端点检测 的,为了更好地进行语音端点检测,采 用语音信号的短时功率谱构 造语音信息谱熵,从而对语音段和噪 声进行区分。 检测思路:基于谱熵的端点检测检测思路:

语音信号处理、语音特征提取_静音_08


语音信号处理、语音特征提取_语音信号_09


比例法 (1)能零比的端点检测 在噪声情况下,信号的短时能量和短时过零率会发生一定 变化,严重时会影响端点检测。 如右图所示, 语音信号的说话区间能量是向上 凸起的,而过零率相反,是下凹 的,这说明说话区间能量值大, 过零率小,噪声区间能量值小, 过零率大,从而可以检测语音 端点

语音信号处理、语音特征提取_静音_10


语音信号处理、语音特征提取_静音_11


语音信号处理、语音特征提取_静音_12


基音:一般的声音都是由发音体发出的一 系列频率、振幅各不相同的振动复合而成的。 这些振动中有一个频率最低的振动,由它发 出的音就是基音,其余为泛音。 基音周期是指声带振动频率的倒数。 基音周期是语音信号最重要的参数之一, 它描述了语音激励源的一个重要特征

基音周期信息在多个领域有着广泛的应用,如:语 音识别、说话人识别、语音分析与综合以及低码率 语音编码、发音系统疾病诊断、听觉残障者的语言 指导等。

由于汉语是一种有调语言,基音的变化模式称为声 调,它携带着非常重要的具有辨意作用的信息,有 区别意义的功能,所以,基音的提取和估计对汉语 更是一个十分重要的问题

基音检测的主要困难在于: ①声门激励信号并不是一个完整周期的序列,在语音的头、 尾部并不具有声带振动那样的周期性,有些清音和浊音 的过度帧是很难准确地判断是周期还是非周期性的; ②在许多情况下,清音语音和低电平浊音语音段之间的过 渡段是非常细微的,确定它是极其困难的;

基音检测的主要困难在于: ①从语音信号中去除声道影响,直接取出仅和声带振动有关 的激励信号的信息并不容易,例如声道的共振峰有时会严 重影响激励信号的谐波结构。这种影响在发音器官快速动 作而共振峰也快速改变时,对对基音检测是最具危害性的。

尽管基音检测有许多困难,但因为它的重要性, 基音的检测提取一直是一个研究的课题。 为此提出了各种各样的基音检测算法,如
自相关函数(ACF)法、
峰值提取算法(PPA)、
平均幅度差函数(AMDF)法、
并行处理技术、
倒谱法、
简化逆滤波法(SIFT)
谱图法、
小波法 …… 这一节将介绍几种常用的基音提取方法。

短时自 相关

语音信号是非平稳的信号,所以对信号的处理都使用短时自 相关函数。 短时自相关函数是在信号的第N个样本点附近用短时窗截取 一段信号,做自相关计算所得的结果

语音信号处理、语音特征提取_语音信号_13


m表示窗函数是从第m点开始加入

自相关法

语音信号处理、语音特征提取_静音_14


语音信号处理、语音特征提取_静音_15


平均幅度差函数法(AMDF)

语音信号的短时平均幅度差函数(AMDF) Fn(k) 定义为:

语音信号处理、语音特征提取_语音信号_16

与短时自相关函数一样,对周期性的浊音语 音,Fn(k)也呈现与浊音语音周期相一致的周 期特性,不过不同的是Fn(k)在周期的各个整 数倍点上具有谷值特性而不是峰值特性

平均幅度差函数法(AMDF)
因而通过Fn(k)的计算同样可以来确定基音周期。而对于 清音语音信号,Fn(k)却没有这种周期特性。利用Fn(k) 的这种特性,可以判定一段语音是浊音还是清音,并估 计出浊音语音的基音周期。 但是,短时平均幅度差函数来估计基音周期时,要求窗 长取得足够长。可以采用LPC逆滤波和中心削波处理等 方法来减少输入语音中声道特性或共振峰的影响,提供 基音周期估计效果Rn (k) and Fn (k)
无论是利用自相关函数还是平均幅度差函数,语音帧应使用矩形 窗
窗长的选择要合适,一般认为窗长至少应该大于两个基音周期, 而为了改善估计结果,窗长应选的更长一些,是帧信号包含足够 多个语音周期
平均幅度差的计算无需乘法运算,其计算复杂度较小,且基音周 期点处的平均幅度差的谷点锐度比自相关函数的峰点锐度更尖锐, 估值精度更高(原因:平均幅度差与语音信号幅度的快速变化比 较敏感,影响估计的精度)

倒谱(CEP)法
倒谱法是传统的基音周期检测算法之一,它利用语音信号 的倒频谱特征,检测出表征声门激励周期的基音信息。
原因:浊音语音的复倒谱中存在峰值,其出现时间等于基 因周期;而清音语音段的复倒谱则不出现这种峰值。利用 这一性质可以进行清/浊音判断并估计浊音的基音周期。

步骤: 计算复倒谱 ü解卷 ü提取出声门激励信息,在预期的基音周期附近寻找峰值 如果峰值超过了预先设定的门限,则语音断定为浊音, 而峰的位置就是基音周期的估值如果不存在超出门限的峰值,则语音断定为清音
如果计算的是依赖于时间的复倒谱,则可估计出激励 源模型及基音周期随时间的变化

倒谱(CEP)法

语音信号处理、语音特征提取_静音_17


语音信号处理、语音特征提取_静音_18


反应信息的倒谱峰,在过渡音和含噪语音中将会变得不 清晰甚至完全消失。其原因当然主要是因为过渡音中周 期激励信号能量降低和类噪激励信号干扰或含噪语音中 的噪声干扰所致。

对于一帧典型的浊音语音的倒谱,其倒谱域中基音信息 与声道信息并不是完全分离的,在周期激励信号能量较 低的情况下,声道响应(特别是其共振峰)对基音倒谱峰 的影响就不可忽略。

如果设法除去语音信号中的声道响应信息,对类噪激励 和噪声加以适当抑制,倒谱基音检测算法的检测结果将 有所改善,特别对过渡语音的检测结果将有明显改善。

语音信号处理、语音特征提取_静音_19


语音信号处理、语音特征提取_搜索_20


声道可以看成是一根具有非均匀截面的声管, 在发音时起共鸣器的作用。当准周期脉冲激 励进入声道时会引起共振特性,产生一组共 振频率,称为共振峰频率或简称共振峰。

共振峰参数包括共振峰频率和频带宽度,它 是区别不同韵母的重要参数。共振峰信息包 含在语音频谱包络中,因此共振峰参数提取 的关键是估计自然语音频谱包络,并认为谱 包络中的最大值就是共振峰提取共振峰特性最简 便的手段是使用语谱仪。 分析共振峰参数也可采 用数字信号处理的方法, 它可获得与语谱图相同的 信息。但精确的共振峰估 值是很困难的(原因:虚 假峰值、共振峰合并、高 音调语音)为此,下面讨 论常用的几种解决方法。

语音信号处理、语音特征提取_静音_21


带通滤波器组法

这种方法类似于语谱仪,但由于使用了计算机,使滤波器特 性的选取更具灵活性,实现框图如图所示。

这是共振峰提取的最早形式,与线性预测法相比,滤波器组 法有些逊色。 但通过滤波器组的设计可以 使估计的共振峰频率同人耳  的灵敏度相匹配,其匹配的 程度比线性预测法要好。

语音信号处理、语音特征提取_静音_22


滤波器的中心频率有两种分布方法: ①等间距地分布在分析频段上,则所有带通滤波器的带宽可设 计成相同,从而保证了各通道的群延时相同。 ②是非均匀地分布,例如为了获得类似于人耳的频率分辨特性, 在低频端间距小,高频端间距大,带宽也随之增加,这时滤 波器的阶数必须设计成与带宽成正比,使得它们输出的群延 时相同,不会产生波形失真。

缺点: 由于滤波器组中的滤波器数目有限,估计的共振峰频率不 可避免地存在误差; 而且对共振峰带宽不易确定; 由于无法去除声门激励的影响,可能会造成虚假峰值。倒谱法

语音信号处理、语音特征提取_语音信号_23


语音信号处理、语音特征提取_语音信号_24


语音信号处理、语音特征提取_静音_25


对于浊音和清音,倒谱法的检测效果不同:

浊音时,若频谱包络的变换和基音峰值的变换在倒谱中的间隔 足够大,则频谱包络的变换很容易识别。而声道冲激响应h(n) 的倒谱的特性取决于声道传递函数H(z)的极零点分布。当H(z) 的极零点的模不是很接近于1时,将随n的增加而迅速减小。 p清音时,声门激励序列具有噪声特性,其倒谱没有明显峰值, 且分布于从低倒谱域到高倒谱域的很宽的范围内,因而在低倒 谱域对声道响应的信息产生了影响。 注意:求得的声道模型对数谱与实际的声道对数谱之间将存在一 定差别

倒谱法存在的缺陷: 并不是所有的谱峰都为共振峰; 带宽的计算。 原因: ① 当两个共振峰很靠近时,发生谱重叠,很难从频谱曲 线计算共振峰的带宽。 ② 而且峰值检测器认为此处只存在一个共振峰

线性预测编码(LPC)法 Ø LPC法的重要性在于提供了一组简洁的语音信号模型参数, 比较精确地表征了语音信号的幅度谱。 语音信号共振峰的LPC法的一个主要特点在于能够由预测 系数构成的多项式中精确地估计共振峰频率和带宽。 LPC法可对语音信号进行参数解卷,它所提供的谱包络恢 复方法快速、准确并且在理论上完全得到了证明; LPC法的不足是其频率灵敏度和人耳不相匹配,但它仍然 是一种最廉价、最优良且行之有效的方法——因为线性 预测方法提供了一个优良的声道模型(条件是语音基本 上不含噪声

线性预测编码(LPC)法

用LPC进行共振峰估计的两种方案: 对全极模型的分母多项式A(z)进行因式分解,即用任何一 种标准的求取复根的程序确定A(z)的根,根据求得的根来 确定共振峰——求根法

进行LPC谱估计。LPC谱的特点是在信号的峰值处和信号谱 匹配的很好,因此能够准确地求得共振峰参数;即求出语 音谱包络后,搜索包络上的局部极大值,用峰值检测器确 定共振峰

LPC法常常可以得到比较尖锐的共振峰估计,比实际的共振峰 可能还要窄

语音信号处理、语音特征提取_语音信号_26


语音信号处理、语音特征提取_静音_27


举报

相关推荐

0 条评论