【发布时间】:2023-03-26 18:15:01
【问题描述】:
我正在使用带有西班牙声学模型和 JSGF 语法的 pocketsphinx 进行语音识别,到目前为止效果不错。
但是,我得到的音频识别结果是错误的,至少在我的耳朵里,似乎完全可以理解(没有那么多的背景噪音、采样频率和根据声学模型参数的位深度等)。
此外,这些未正确识别的音频与正确识别的音频似乎没有太大区别(实际上它们听起来对我来说几乎相同)。
所以,我猜音频中有一些东西使它更难以识别,也许是一些噪声频率或其他需要过滤的东西? (背景噪音、“流行”语音、人声频带之外的频率等)
简而言之,您是否知道 pocketsphinx 是否已经这样做了,如果没有,您是否知道将任何最佳实践过滤器/转换/等应用于音频文件以改善语音识别结果?
谢谢!
【问题讨论】:
-
我无法回答这个问题,但我可以说您在这里遇到了 XY 问题:meta.stackexchange.com/questions/66377/what-is-the-xy-problem 如果不共享您的代码,任何人都无法说出您需要的是预先处理,或者如果您的代码某处有错误。请务必分享您的代码并以最佳方式提供 MVCE:stackoverflow.com/help/mcve
-
@bodangly 我了解,但我使用的是 pocketsphinx,这是一个标准且非常常用的库。所以,我的问题是针对其他了解其内部结构的 Pocketsphinx 用户或开发人员。 (这意味着到目前为止,除了对 pocketsphinx 的 API 调用之外,我没有编写任何代码,这很简单)。
-
您可能需要检测 PocketSphinx 代码的内部结构,以确定导致不同输出决策的确切原因。
标签: signal-processing speech-recognition speech-to-text cmusphinx pocketsphinx