我们是如何听见声音的

1. 言语链

2. 听觉器官

3. 听觉的机理

了解人类是如何听见语音和感知语音有助于我们研究如何去表征语音信号本身，以及更好的设计语音信号处理系统。

1. 言语链

我们是如何听见声音的

言语链将语言交流过程分为语言学层面、生理学层面和声学层面，即

我们是如何听见声音的

具体而言，言语链包含以下过程：

语音的产生
对说话人的听觉反馈
语音的传输
语音感知和被收听者理解

2. 听觉器官

我们是如何听见声音的

听觉器官是耳，如上图所示，而我们具有两个耳朵可以完成以下功能：

声音定位：根据双耳效应，依靠双耳间的音量差、时间差和音色差判别声音方位的效应。
声音消除：根据双耳掩蔽极差，利用双耳听觉可有意识地注意倾听来自某一方向的声音信号，而排除其他噪声的干扰，也称为鸡尾酒会效应。

听觉器官中需要着重讲一下耳蜗，它是由基底膜分隔的充满液体的腔室，听神经通过内部毛细胞连接至基底膜，耳蜗入口处的机械振动会产生驻波，从而导致基底膜在与输入声波频率（共振峰）相对应的频率处以及在基底膜上与这些频率相关的某个位置振动。我们将耳蜗展开，如下图所示。

我们是如何听见声音的

不同频率的振动引起的基底膜不同形式的行波传播，主要由基底膜的某些物理性质决定的。基底膜愈靠近底部，共振频率愈高，愈靠近顶部，共振频率愈低；这就使得低频振动引起的行波在向顶部传播时阻力较小，而高频振动引起的行波只局限在底部附近。

3. 听觉的机理

耳具体可以分为外耳，中耳和内耳，听觉产生的过程中它们的功能分别为：

外耳：外耳收集声音并送入耳道
中耳：在中耳中，声波撞击鼓膜，并通过一些列操作将声波转化为内耳的机械振动
内耳：耳蜗是由基底膜分隔充满液体的腔室，将声压信号转换为电脉冲，然后通过听觉神经传递到大脑

我们将上述过程抽象一下，得到如下图所示的模型。

我们是如何听见声音的

4. 听觉掩蔽

听觉掩蔽是由于某些声音存在导致其他声音而变得不那么清晰甚至无法听见，包括频域掩蔽和时域掩蔽。

4.1 频域掩蔽

频域掩蔽：频率接近时,分贝特别高的声音会把临近的分贝低的掩蔽

我们是如何听见声音的

4.2 时域掩蔽

时域掩蔽：在持续的一段时间内,声音高的会把声音低的掩蔽. 而且高声音会把前面 50ms 的低声音和后面 100ms 的低声音掩蔽.

我们是如何听见声音的

5. 听学模型

一般声学模型应该包含以下部分：

非线性频率尺度的频谱分析
频谱幅值压缩
响度压缩
根据等响曲线降低频率过高或者过低部分的灵敏度
较长间隔的时域特征
音调临界频带内的音调或噪声的听觉掩蔽

下面介绍两种常见的声学模型，感知线性预测（Perceptual Linear Prediction，PLP）模型和Seneff听觉模型。

5.1 感知线性预测模型

感知线性预测模型流程如下图所示。PLP模型采用变带宽梯形滤波器的Bark频率尺度进行临界带谱分析，非对称滤波器高频截止时斜率为25 dB/Bark ，低频截止时斜率为10dB/Bark；利用等响曲线近似人的听觉对信号对不同频率分量设定不同的灵敏度；利用声强与感知响度之间的非线性关系和三次根压缩法对频率处理；一种基于五阶分析的自回归全极点模型，可以对频带进行比临界频带更广泛的集成

我们是如何听见声音的

5.2 Seneff听觉模型

Seneff听觉模型流程如下图所示。第1阶段对语音进行预处理以消除非常低和非常高的频率分量，然后使用40个Bark滤波器处理。第二阶段通过半波整流，短期适应，同步减少和快速自动增益控制等过程，对内部毛细胞，突触和神经纤维的组合的（概率）行为进行建模。神经纤维输出是一组随时间推移发射的概率。第三阶段利用激发概率信号提取与感知有关的信息。包络检测器估算平均速率谱，同步检测器实现神经纤维的锁相特性，从而增强共振峰处的谱峰并跟踪动态谱变化。

我们是如何听见声音的

参考文献：

[1]. 孔繁之，生理学

[2]. UCBS, Digital Speech Process

[3]. 胡航，语音信号处理

语音信号处理交流群： 652292630

我们是如何听见声音的