如何将输入 wav 文件提供给袖珍狮身人面像答案

【问题标题】：How to give an input wav file to pocket sphinx如何将输入 wav 文件提供给袖珍狮身人面像
【发布时间】：2014-12-21 07:42:35
【问题描述】：

是否有一些袖珍狮身人面像或 cmu sphinx 的命令行实用程序可以将 .wav 文件转换为文本？

pocketsphinx_continuous -hmm -lm -dict 可以。但我不想一遍又一遍地说同一句话。

【问题讨论】：

标签： cmusphinx

【解决方案1】：

pocketsphinx_continuous 从 0.8 版开始有选项 -infile 可用于解码文件。文件必须是特定格式：16khz 16bit 单声道 wav 文件

 pocketsphinx_continuous -infile file.wav

【讨论】：

感谢您的回答。我在 man 文件中没有看到这个 -infile 参数。此外，我收到以下错误。 FATAL_ERROR：“continuous.c”，第 153 行：未能校准语音活动检测。我有 8k 采样率的输入文件。是这个问题吗？
是的，如果你想解码 8khz 音频文件，你需要添加一个选项'-samprate 8000'。还要确保您对尝试解码的音频使用正确的声学模型。
即使使用 -samprate 8000，我也会遇到同样的错误 :( "FATAL_ERROR: "continuous.c"，第 153 行：无法校准语音活动检测"
分享您要识别的文件
我遇到了同样的问题，通过创建一个更大的文件解决了这个问题，开始时有更多的静音。从我在 Sphinx 代码中读到的内容来看，这个校准过程似乎是为了校准什么是静音，什么不是。由于我有一个非常小的音频文件（只有三个词，大约一秒钟），我推断它需要更多数据来“校准”静音。