Pocketsphinx - 是否需要/推荐音频预处理？答案

【问题标题】：Pocketsphinx - is audio pre-processing necessary / recommended?Pocketsphinx - 是否需要/推荐音频预处理？
【发布时间】：2023-03-26 18:15:01
【问题描述】：

我正在使用带有西班牙声学模型和 JSGF 语法的 pocketsphinx 进行语音识别，到目前为止效果不错。

但是，我得到的音频识别结果是错误的，至少在我的耳朵里，似乎完全可以理解（没有那么多的背景噪音、采样频率和根据声学模型参数的位深度等）。

此外，这些未正确识别的音频与正确识别的音频似乎没有太大区别（实际上它们听起来对我来说几乎相同）。

所以，我猜音频中有一些东西使它更难以识别，也许是一些噪声频率或其他需要过滤的东西？（背景噪音、“流行”语音、人声频带之外的频率等）

简而言之，您是否知道 pocketsphinx 是否已经这样做了，如果没有，您是否知道将任何最佳实践过滤器/转换/等应用于音频文件以改善语音识别结果？

谢谢！

【问题讨论】：

我无法回答这个问题，但我可以说您在这里遇到了 XY 问题：meta.stackexchange.com/questions/66377/what-is-the-xy-problem 如果不共享您的代码，任何人都无法说出您需要的是预先处理，或者如果您的代码某处有错误。请务必分享您的代码并以最佳方式提供 MVCE：stackoverflow.com/help/mcve
@bodangly 我了解，但我使用的是 pocketsphinx，这是一个标准且非常常用的库。所以，我的问题是针对其他了解其内部结构的 Pocketsphinx 用户或开发人员。（这意味着到目前为止，除了对 pocketsphinx 的 API 调用之外，我没有编写任何代码，这很简单）。
您可能需要检测 PocketSphinx 代码的内部结构，以确定导致不同输出决策的确切原因。

【解决方案1】：

不，任何预处理通常都对语音识别的准确性非常有害。

现代语音识别算法的设计方式是，即使是轻微的预处理也可能使结果变得更糟。因为你的语音识别能力比电脑的要好得多，所以你的耳朵不容易区分它。添加轻微回声以提高自然度或简单的 mp3 压缩/解压缩等内容可能会显着降低准确性。

解决方案是使用您想要识别的相同音频训练模型，例如，使用 mp3 解压缩音频而不是干净音频进行训练。默认模型是在干净的音频上训练的，这使得它对声音修改不是很健壮。这种多样式的训练有其自身的缺点，因为它使训练数据非常大，所以它仍然是一个持续研究的主题。

【讨论】：