语音信号处理第三章：

1.数字化和预处理

数字化：带通滤波、放大及增益控制（AGC）、反混叠滤波、采样、A/D变换、PCM编码
预处理：预加重、加窗和分帧

预处理

目的：
（1）抑制输入信号各频域分量中频率超出f_s/2的所有分量（fs）为采样频率，以防止混叠干扰
（2）抑制50Hz的电源工频干扰

带通滤波

范围是60~3400Hz，采样频率是8kHz

A/D变换

将语音信号转换为二进制码

A/D变换中要对信号进行量化，量化不可避免地会产生误差。量化后的信号值与原信号值之间的差值称为量化误差，又称为量化噪声。量化间隔越小，量化噪声也就越小。
若信号波形的变化足够大，或量化间隔Δ足够小时，可以证明量化噪声符合具有下列特征的统计模型：
①它是平稳的白噪声过程
②量化噪声与输入信号不相关
③量化噪声在量化间隔内均匀分布，即具有等概率密度分布

每增加一个量化位数，量化信噪比增加6dB

并不是量化信噪比越高越好，还要考虑带宽能否承受

预加重

目的：提升高频部分，使信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱，以便于频谱分析或声道参数分析。

加窗分帧

分帧是用可移动的有限长度窗口进行加权的方法来实现的，也就是用一定的窗函数ω(n)来乘s(n)，从而形成加窗语音信号sω(n)=s(n)ω(n)
在语音信号数字处理中常用的窗函数是矩形窗和汉明窗等

汉明窗的主瓣宽度比矩形窗大一倍，即带宽约增加一倍，同时其带外衰减也比矩形窗大一倍多。矩形窗的谱平滑性能较好，但损失了高频成分，使波形细节丢失；而汉明窗则相反，从这一方面来看，汉明窗比矩形窗更为合适

窗长：
采样周期T_S = 1/f_S，窗口长度N和频率分辨率Δf之间存在下列关系：
Δf = f_S/N = 1/（NT_S）
可见，采样周期一定时，Δf随窗口宽度N的增加而减小，即频率分辨率相应得到提高，但同时（1/Δf），也就是时间分辨率降低；

一般要采用交叠分段的方法，这是为了使帧与帧之间平滑过渡，保持其连续性。
帧重叠：前一帧和后一帧的交叠部分
帧移：前后移动的距离。
帧长：一帧的长度
语音信号处理第三章：
信号长度L、帧数X、帧长N、帧移M的关系：
L=N+（X-1）M。一般来说M=N/2

2.时域分析语音信号

时域分析的优点
①表示语音信号比较直观、物理意义明确。
②实现起来比较简单、运算量少。
③可以得到语音的一些重要的参数。
④只使用示波器等通用设备，使用较为简单等。

时域参数：假设第n帧语音信号x_n(m)，m=[0,N-1]

短时能量：

语音信号处理第三章：
用途：从较小的背景噪声中找出语音信号
缺点：根据短时能量公式，假如某个采样点出现很高的电平，那么短时能量会特别高，从而无法准确反映该帧的能量
改进：短时平均幅度函数

短时平均幅度函数

语音信号处理第三章：
优点：在于计算时小取样值和大取样值不会因取平方而造成较大差异

短时过零率

过零率：样本改变符号的次数。
语音信号处理第三章：
用途：
（1）反映信号波动的次数，与基带频率有关，可用于区分浊音和清音
（2）从较大的背景噪声中找出语音信号，可用于判断寂静无声段和有声段的起点和终点位置

清音的过零率会更高，因为清音是噪声（参考第一章）

缺点：在以某些音为开始或结尾时，如当弱摩擦音（如[f]、[h]等音素)、弱**音(如[p]、[t]、[k]等音素)为语音的开头或结尾；以鼻音(如[ng]、[n]、[m]等音素)为语音的结尾时，只用其中一个参量来判别语音的起点和终点是有困难的，必须同时使用平均过零率和平均能量两个参数。

自相关函数

语音信号处理第三章：

这里K是最大的延迟点数

用途：
（1）对浊音语音可以用自相关函数求出语音波形序列的基音周期
（2）语音信号的线性预测分析
缺点：运算量很大，因为乘法运算所需要的时间较长。利用快速傅里叶变换(FFT)等简化计算方法都无法避免乘法运算
改进：短时平均幅度差函数（ADMF）

短时平均幅度差函数

原理：如果信号是完全的周期信号(设周期为Np)，则相距为周期的整数倍的样点上的幅值是相等的，差值为零
语音信号处理第三章：

语音信号处理第三章：

a)和b)中，局部的最小值之间的距离就是周期，而浊音信号才有明显周期。a)和b)是浊音语音的AMDF；c)是清音语音的AMDF

3.频域分析语音信号

常用的频域分析方法有带通滤波器组法、傅里叶变换法、线性预测法等
应该用短时傅里叶变换对语音信号的频谱进行分析，相应的频谱称为“短时谱”。

对第n帧语音信号xn(m)进行傅里叶变换(离散时域傅里叶变换，DTFT)，可得到短时傅里叶变换，其定义如下：
语音信号处理第三章：

4.倒谱分析语音信号

分析过程：
求取语音倒谱特征参数–>同态处理–>将卷积变换为求和–>将声门激励和声道响应分离–>求得声道共振特征和基音周期

同态信号处理就是将非线性问题转化为线性问题的处理方法

倒谱的处理过程

x(n)（时）
–（傅里叶变换）–>X(e^jω)（频）
–>取对数
–（傅里叶逆变换）–>x^(n)（时）
这个x^(n)就是倒谱

DTFT后的X(ejω)有实部和虚部，如果只对实部取对数，得到的就是倒谱；对实部和虚部都取对数，得到的就是复倒谱
在倒谱情况下，一个序列经过正逆两个特征系统变换后，不能还原成自身，因为在计算倒谱的过程中将序列的相位信息丢失了。
已知一个实数序列x(n)的倒谱c(n)，如果要求出复倒谱x^(n)，要满足最小因果系统

倒谱分析实例：
语音信号处理第三章：
上面图中，右边的小图里面峰与峰之间的距离就是基音周期

MFCC

MFCC 参数提取流程：
（1）语音信号经过预加重、加窗分帧处理后变为短时信号，将时域信号做离散傅里叶变换。
（2）求出频谱平方，即能量谱，并通过Mel频率滤波器组滤波处理，得到一组系数mi，通过对能量的对数处理，得到对数频谱。
（3）将上述对数频谱经过离散余弦变换( DCT，相当于IFT)得到N 个Mel 频率倒谱系数。对应的MFCC系数为：
语音信号处理第三章：
这里的p取12或13，N是帧长

5.线性预测分析语音信号

了解即可

6.基音周期估计

基音是指发浊音时声带振动所引起的周期性，而基音周期是指声带振动频率的倒数
基音周期描述了语音激励源的一个重要特征

常用基音检测算法：
自相关函数(ACF)法、峰值提取算法(PPA)、平均幅度差函数(AMDF)法、并行处理技术、倒谱法、SIFT、谱图法、小波法等等

要准确估计基音周期，除了核心算法思想（例如小波法、自相关法），预处理（例如中心削波）和后处理（例如平滑处理）也很重要。

ACF

原理：浊音信号的自相关函数在基音周期的整数倍位置上出现峰值；而清音的自相关函数没有明显的峰值出现。因此检测是否有峰值就可判断是清音或浊音，检测峰值的位置就可提取基音周期值

步骤：
（1）预处理：加带通滤波器60~900Hz，进行非线性变换
非线性变换的方法：中心削波函数或三电平中心削波函数
中心削波函数是指去除中间部分，只保留高幅度和低幅度部分。

高幅度部分包含大量基音信息，低幅度部分包含大量共振峰信息

语音信号处理第三章：
图片里面，左边是中心削波函数前后声音的时域波形图，右边是对应的自相关函数。由之前的自相关法原理可知，中心削波以后可以排除干扰，找到真正的共振峰，从而得到真正的基音周期

（2）求自相关函数

后处理

原因：无论采用哪一种基音检测算法都可能产生基音检测错误，使求得的基音周期轨迹中有一个或几个基音周期估值偏离了正常轨迹。这种偏离点为基音轨迹的“野点”
由于短时平稳性，声音在短时间内的频率变化不会太大，这有助于判断某点是否为“野点”。

为了去除这些野点，可以后处理，采用各种平滑算法，其中最常用的是中值平滑算法和线性平滑算法。
中值平滑处理：每次取3/5个点，用这3/5个点的中值作为输出，从而去除少量野点
线性平滑处理：每次取3/5个点，用这3/5个点加权输出

7.共振峰估计

声道可以看成是一根具有非均匀截面的声管，在发音时起共鸣器的作用。当准周期脉冲激励进入声道时会引起共振特性，产生一组共振频率，称为共振峰频率或简称共振峰
共振峰描述了声道的一个重要特征

共振峰参数：共振峰频率和频带宽度，它是区别不同韵母的重要参数

共振峰通常取前两个

倒谱法

可以直接DFT，根据DFT谱来提取共振峰参数。但是由于最大值出现在谐振频率上，测量误差较大。因此，可以使用同态滤波得到平滑的谱再检测。

将倒谱DFT，用得到的DFT谱来检测共振峰，比起直接DFT谱更准确
原理：
语音信号处理第三章：
缺点：运算量太大

文章目录

1.数字化和预处理

预处理

带通滤波

A/D变换

预加重

加窗分帧

2.时域分析语音信号

短时能量：

短时平均幅度函数

短时过零率

自相关函数

短时平均幅度差函数

3.频域分析语音信号

4.倒谱分析语音信号

倒谱的处理过程

MFCC

5.线性预测分析语音信号

6.基音周期估计

ACF

后处理

7.共振峰估计

倒谱法