【问题标题】:Pocketsphinx - is audio pre-processing necessary / recommended?Pocketsphinx - 是否需要/推荐音频预处理?
【发布时间】:2023-03-26 18:15:01
【问题描述】:

我正在使用带有西班牙声学模型和 JSGF 语法的 pocketsphinx 进行语音识别,到目前为止效果不错。

但是,我得到的音频识别结果是错误的,至少在我的耳朵里,似乎完全可以理解(没有那么多的背景噪音、采样频率和根据声学模型参数的位深度等)。

此外,这些未正确识别的音频与正确识别的音频似乎没有太大区别(实际上它们听起来对我来说几乎相同)。

所以,我猜音频中有一些东西使它更难以识别,也许是一些噪声频率或其他需要过滤的东西? (背景噪音、“流行”语音、人声频带之外的频率等)

简而言之,您是否知道 pocketsphinx 是否已经这样做了,如果没有,您是否知道将任何最佳实践过滤器/转换/等应用于音频文件以改善语音识别结果?

谢谢!

【问题讨论】:

  • 我无法回答这个问题,但我可以说您在这里遇到了 XY 问题:meta.stackexchange.com/questions/66377/what-is-the-xy-problem 如果不共享您的代码,任何人都无法说出您需要的是预先处理,或者如果您的代码某处有错误。请务必分享您的代码并以最佳方式提供 MVCE:stackoverflow.com/help/mcve
  • @bodangly 我了解,但我使用的是 pocketsphinx,这是一个标准且非常常用的库。所以,我的问题是针对其他了解其内部结构的 Pocketsphinx 用户或开发人员。 (这意味着到目前为止,除了对 pocketsphinx 的 API 调用之外,我没有编写任何代码,这很简单)。
  • 您可能需要检测 PocketSphinx 代码的内部结构,以确定导致不同输出决策的确切原因。

标签: signal-processing speech-recognition speech-to-text cmusphinx pocketsphinx


【解决方案1】:

不,任何预处理通常都对语音识别的准确性非常有害。

现代语音识别算法的设计方式是,即使是轻微的预处理也可能使结果变得更糟。因为你的语音识别能力比电脑的要好得多,所以你的耳朵不容易区分它。添加轻微回声以提高自然度或简单的 mp3 压缩/解压缩等内容可能会显着降低准确性。

解决方案是使用您想要识别的相同音频训练模型,例如,使用 mp3 解压缩音频而不是干净音频进行训练。默认模型是在干净的音频上训练的,这使得它对声音修改不是很健壮。这种多样式的训练有其自身的缺点,因为它使训练数据非常大,所以它仍然是一个持续研究的主题。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2017-03-30
    • 1970-01-01
    • 2017-12-19
    • 1970-01-01
    • 1970-01-01
    • 2021-02-18
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多