【发布时间】:2016-07-16 11:14:12
【问题描述】:
我在笔记本电脑 (Linux Mint 17) 中安装了 pocketsphinx,旨在将 WAV 音频文件转录为文本。音频是西班牙语的,所以我从其网站下载了 Voxforge 0.2 西班牙语模型,并复制粘贴了以下代码:
#include <pocketsphinx.h>
int main(int argc, char *argv[])
{
ps_decoder_t *ps;
cmd_ln_t *config;
FILE *fh;
char const *hyp, *uttid;
int16 buf[512];
int rv;
int32 score;
if( argc == 2 )
{
printf("Transcribiendo fichero: %s\n", argv[1]);
}
else if( argc > 2 )
{
printf("Demasiados argumentos.\n");
}
else
{
printf("Se esperaba un sólo argumento.\n");
}
config = cmd_ln_init(NULL, ps_args(), TRUE,
"-hmm", "/home/<myuser>/software/voxforge-es/model_parameters/voxforge_es_sphinx.cd_ptm_3000",
"-lm", "/home/<myuser>/software/voxforge-es/etc/voxforge_es_sphinx.transcription.test.lm",
"-dict", "/home/<myuser>/software/voxforge-es/etc/voxforge_es_sphinx.dic",
NULL);
if (config == NULL)
{
fprintf(stderr, "Failed to create config object, see log for details\n");
return -1;
}
ps = ps_init(config);
if (ps == NULL)
{
fprintf(stderr, "Failed to create recognizer, see log for details\n");
return -1;
}
fh = fopen(argv[1], "rb");
if (fh == NULL)
{
fprintf(stderr, "Unable to open input file.\n");
return -1;
}
rv = ps_start_utt(ps);
while (!feof(fh))
{
size_t nsamp;
nsamp = fread(buf, 2, 512, fh);
rv = ps_process_raw(ps, buf, nsamp, FALSE, FALSE);
}
rv = ps_end_utt(ps);
hyp = ps_get_hyp(ps, &score);
printf("Reconocido: %s\n", hyp);
fclose(fh);
ps_free(ps);
cmd_ln_free_r(config);
return 0;
}
问题在于 WAV 单声道 16Khz 文件会产生奇怪的结果。 我想知道的是我是否需要重建模型或调整特定参数...
例如,考虑以下文本:
“Hola soy ingeniero informationático”
我将它转换为 16KHz/16bits/单声道 WAV 文件。
运行我的代码,它会给出以下输出:
> ./nlptest voice.wav
"cola salir en y era de líneas"
如您所见,它与原版完全不同。只有“hola”和“cola”这两个词的发音相似(但意思完全不同)。
即使使用pocketsphinx_continuous,结果也很糟糕(只有一个字不同):
> pocketsphinx_continuous -hmm /home/<myuser>/software/voxforge-es/model_parameters/voxforge_es_sphinx.cd_ptm_3000 -lm /home/<myuser>/software/voxforge-es/etc/voxforge_es_sphinx.transcription.test.lm -dict /home/<myuser>/software/voxforge-es/etc/voxforge_es_sphinx.dic -infile voice.wav
"cola seguir en y era de líneas"
感谢您的建议。
【问题讨论】:
-
我现在不确定,也许我错了,但我认为 Sphinx 只能逐字翻译非常好。因此,请尝试将您的 wav 拆分为单独的单词。您可以通过在音频中搜索它们之间的微小停顿来以编程方式进行操作。但我肯定是错的。不过,你可以试一试,看看它是否有效。
-
@Dalen,你错了。另请注意,连续语音中的单词之间存在停顿。
-
是的,谢谢,我被困在斯芬克斯年轻时的旧时代。如果您的意思是“没有停顿”,那不是真的。没有可听见的停顿,但存在界限,稍作调整即可找到。并且您可以通过这种方式分隔大部分单词。
标签: c wav speech-to-text cmusphinx pocketsphinx