一、音频信号的基本属性
-
频率(Frequency)
- 定义:音频信号的频率表示声音的高低,通常以赫兹(Hz)为单位。
- 范围:人耳能够听到的频率范围大约在20Hz到20kHz之间。
-
振幅(Amplitude)
- 定义:振幅表示音频信号的强度或音量,它决定了声音的响度。
- 表示方法:振幅大小常用分贝(dB)来表示。振幅越大,声音越响;振幅越小,声音越轻。
-
波形(Waveform)
- 定义:波形是音频信号在时间上的图形表示。
- 类型:常见的波形有正弦波(纯音)、方波、锯齿波和三角波等。波形决定了声音的音色,不同波形产生的声音音色不同。
二、采样和量化
-
采样(Sampling)
- 定义:采样是将连续的音频信号在时间上进行离散化的过程。
- 采样率(Sample Rate):每秒采样的次数,以赫兹(Hz)表示。常见的采样率有44.1kHz(CD质量)、48kHz(专业音频)等。采样率越高,声音的还原度越高。
-
量化(Quantization)
- 定义:量化是将每个采样点的振幅值进行离散化,转换为有限的数值表示。
- 量化位数(Bit Depth):每个采样点使用的位数。常见的有16位(CD质量)、24位(高分辨率音频)等。量化位数越高,声音的保真度越高。
三、音频格式和编码
-
音频格式
- 无损音频格式:保留所有原始音频数据,无任何信息丢失。常见格式有WAV、FLAC、ALAC等。
- 有损音频格式:通过丢弃一些不重要的信息来压缩音频数据,文件大小较小,但有信息丢失。常见格式有MP3、AAC、OGG等。
-
音频编码
- 定义:音频编码是将音频信号转换为数字数据的过程。
- 类型:根据编码方式的不同,音频编码技术分为波形编码、参数编码和混合编码。
- 波形编码:直接将时间域信号变换为数字代码,使重构的语音波形尽可能地与原始语音信号的波形形状保持一致。常见的波形编码方法有PCM(脉冲编码调制)。
- 参数编码:从语音波形信号中提取生成语音的参数,使用这些参数通过语音生成模型重构出语音。常见的参数编码方法有LPC(线性预测编码)。
- 混合编码:同时使用波形编码和参数编码两种方法进行编码,能够取得比较好的效果。
四、音频处理
-
噪声抑制(Noise Suppression)
- 定义:噪声抑制是去除音频信号中的背景噪声的过程。
- 应用:手机等设备采集的原始声音往往包含了背景噪声,噪声抑制可以提高音频质量,降低音频压缩效率。
-
回声消除(Acoustic Echo Canceller)
- 定义:回声消除是去除音频信号中的回声的过程。
- 应用:在视频或音频通话过程中,本地的声音传输到对端播放之后,声音会被对端的麦克风采集并传输回本地,造成回声。回声消除可以提高通话质量。
-
自动增益控制(Automatic Gain Control, AGC)
- 定义:自动增益控制是根据输入声音的强度自动调节输出声音的大小,使输出的声音适宜人耳的主观感受。
- 应用:手机等设备采集的音频数据响度可能不稳定,自动增益控制可以使声音保持稳定。
-
静音检测(Voice Activity Detection, VAD)
- 定义:静音检测是判断音频信号中是否存在声音的过程。
- 应用:静音检测广泛应用于音频编码、自动增益控制、回声消除等领域。
-
舒适噪声产生(Comfortable Noise Generation)
- 定义:舒适噪声产生是在完全静音时,为了创造舒适的通话体验,在音频后处理阶段添加随机白噪声的过程。
- 应用:广泛适用于音频编解码器。