基于卷积神经网络的语音**的前置知识1（新手摸着石头过河）

白噪声（white noise）是指功率谱密度在整个频域内是常数的噪声。所有频率具有相同能量密度的随机噪声称为白噪声。从我们耳朵的频率响应听起来它是非常明亮的“咝”声（每高一个八度，频率就升高一倍。因此高频率区的能量也显著增强）
在物理学中，信号通常是波的形式表示，例如电磁波、随机振动或者声波。当波的功率频谱密度乘以一个适当的系数后将得到每单位频率波携带的功率，这被称为信号的功率谱密度（power spectral density, PSD）单位为W/Hz （频谱就是频率的分布曲线，复杂振荡分解为振幅不同和频率不同的谐振荡，这些谐振荡的幅值按频率排列的图形叫做频谱。设一个能量信号为s（t），则它的频谱密度S（w）可以由傅里叶变换求得）
采样频率是指将模拟声音波形进行数字化时，每秒钟抽取声波幅度样本的次数。常用的音频采样频率有8kHz、11.025kHz、22.05kHz、16kHz、37.8kHz、44.1kHz、48kHz等，
如果采用更高的采样频率，还可以达到DVD的音质。通常是按1024个采样点一帧
对采样率为44.1kHz的AAC音频进行解码时，一帧的解码时间须控制在23.22毫秒内。
通常是按1024个采样点一帧
时域分析与频域分析是对模拟信号的两个观察面。时域分析是以时间轴为坐标表示动态信号的关系；频域分析是把信号变为以频率轴为坐标表示出来。一般来说，时域的表示较为形象与直观，频域分析则更为简练，剖析问题更为深刻和方便。目前，信号分析的趋势是从时域向频域发展。然而，它们是互相联系，缺一不可，相辅相成的。时域是真实世界，是惟一实际存在的域。因为我们的经历都是在时域中发展和验证的，已经习惯于事件按时间的先后顺序地发生。而评估数字产品的性能时，通常在时域中进行分析，因为产品的性能最终就是在时域中测量的。频域，尤其在射频和通信系统中运用较多，在高速数字应用中也会遇到频域。频域最重要的性质是：它不是真实的，而是一个数学构造。时域是惟一客观存在的域，而频域是一个遵循特定规则的数学范畴，频域也被一些学者称为上帝视角。
经典滤波器抑制噪声，非常简单。如果噪声的功率谱PSD和有用信号功率谱PSD没有重叠的话，那可以实现非常好的效果。但是，如果有重叠，去噪的效果就不是特别理想了。因为在复指数信号空间里面，无法分离有用信号和噪声信号。
噪声是覆盖整个频率范围的白噪声，那去除噪声的步骤大致如下。

需要了解有用信号大致是分布在多少 Hz 到多少 Hz之间。
设计滤波器，指标就选尽可能多得抑制带外噪声的那些指标。
让信号通过滤波器，实现噪声抑制。

如图就是一个很经典应用到滤波器的vad算法（~~终于说到重点了！~~ ），此外在vad算法中，还有基于GMM的VAD算法，对语音信号和噪声信号分别建立一个高斯概率模型，通过语音或噪声的特征参数分布来计算出各自概率模型的参数，公式有点复杂，在此掠过~~~
现在要引入卷积神经网络来对语音**，那么就会涉及到怎么处理数据，其次是怎么把表示数据的特征，也就是音频特征参数提取。

语音识别对特征参数有如下要求：

1.能将语音信号转换为计算机能够处理的语音特征向量
2.能够符合或类似人耳的听觉感知特性
3.在一定程度上能够增强语音信号、抑制非语音信号

音频特征提取的算法详细了解可以参考这位前辈的博客音频特征提取
我目前是想研究mfcc算法，值得一提的是，这个博客里面提到了Bottleneck特征，我第一次见到这个词还是因为mobilenet v2，我还以为是这个神经网络的作者首创的，看起来早就有这个概念了。
基于卷积神经网络的语音**的前置知识1（新手摸着石头过河）如图为MFCC的具体过程，我在查阅论文时还看见了一个gfcc( Gammatone滤波器),它被广泛用于模拟人类听觉系统对信号的处理方式，作为语音信号的一类听觉分析滤波器（以下简称为GT滤波器）。GT滤波器只需要很少的参数就能很好地模拟听觉实验中的生理数据，能够体现基底膜尖锐的滤波特性，而且 GT滤波器具有简单的冲激响应函数，能够由此推导出GT函数的传递函数，进行各种滤波器性能分析，同时有利于听觉模型的电路实现)
作为一个非通信专业的人，将滤波器引入是否合适我也并不是很清楚