Cmusphinx 西班牙语模型不连贯转录答案

【问题标题】：Cmusphinx Spanish model incoherent transcriptionCmusphinx 西班牙语模型不连贯转录
【发布时间】：2016-07-16 11:14:12
【问题描述】：

我在笔记本电脑 (Linux Mint 17) 中安装了 pocketsphinx，旨在将 WAV 音频文件转录为文本。音频是西班牙语的，所以我从其网站下载了 Voxforge 0.2 西班牙语模型，并复制粘贴了以下代码：

#include <pocketsphinx.h>

int main(int argc, char *argv[])
{
   ps_decoder_t *ps;
   cmd_ln_t *config;
   FILE *fh;
   char const *hyp, *uttid;
   int16 buf[512];
   int rv;
   int32 score;

   if( argc == 2 ) 
   {
      printf("Transcribiendo fichero: %s\n", argv[1]);
   }
   else if( argc > 2 ) 
   {
      printf("Demasiados argumentos.\n");
   }
   else 
   {
      printf("Se esperaba un sólo argumento.\n");
   }
   config = cmd_ln_init(NULL, ps_args(), TRUE,
             "-hmm", "/home/<myuser>/software/voxforge-es/model_parameters/voxforge_es_sphinx.cd_ptm_3000",
             "-lm", "/home/<myuser>/software/voxforge-es/etc/voxforge_es_sphinx.transcription.test.lm",
             "-dict", "/home/<myuser>/software/voxforge-es/etc/voxforge_es_sphinx.dic",
             NULL);
   if (config == NULL) 
   {
      fprintf(stderr, "Failed to create config object, see log for details\n");
    return -1;
   }

   ps = ps_init(config);
   if (ps == NULL) 
   {
      fprintf(stderr, "Failed to create recognizer, see log for details\n");
      return -1;
   }

   fh = fopen(argv[1], "rb");
   if (fh == NULL) 
   {
      fprintf(stderr, "Unable to open input file.\n");
      return -1;
   }

   rv = ps_start_utt(ps);

   while (!feof(fh)) 
   {
      size_t nsamp;
      nsamp = fread(buf, 2, 512, fh);
      rv = ps_process_raw(ps, buf, nsamp, FALSE, FALSE);
   }

   rv = ps_end_utt(ps);
   hyp = ps_get_hyp(ps, &score);
   printf("Reconocido: %s\n", hyp);

   fclose(fh);
   ps_free(ps);
   cmd_ln_free_r(config);

   return 0;
}

问题在于 WAV 单声道 16Khz 文件会产生奇怪的结果。我想知道的是我是否需要重建模型或调整特定参数...

例如，考虑以下文本：

“Hola soy ingeniero informationático”

我将它转换为 16KHz/16bits/单声道 WAV 文件。

运行我的代码，它会给出以下输出：

> ./nlptest voice.wav
"cola salir en y era de líneas"

如您所见，它与原版完全不同。只有“hola”和“cola”这两个词的发音相似（但意思完全不同）。

即使使用pocketsphinx_continuous，结果也很糟糕（只有一个字不同）：

> pocketsphinx_continuous -hmm /home/<myuser>/software/voxforge-es/model_parameters/voxforge_es_sphinx.cd_ptm_3000 -lm /home/<myuser>/software/voxforge-es/etc/voxforge_es_sphinx.transcription.test.lm -dict /home/<myuser>/software/voxforge-es/etc/voxforge_es_sphinx.dic -infile voice.wav
"cola seguir en y era de líneas"

感谢您的建议。

【问题讨论】：

我现在不确定，也许我错了，但我认为 Sphinx 只能逐字翻译非常好。因此，请尝试将您的 wav 拆分为单独的单词。您可以通过在音频中搜索它们之间的微小停顿来以编程方式进行操作。但我肯定是错的。不过，你可以试一试，看看它是否有效。
@Dalen，你错了。另请注意，连续语音中的单词之间存在停顿。
是的，谢谢，我被困在斯芬克斯年轻时的旧时代。如果您的意思是“没有停顿”，那不是真的。没有可听见的停顿，但存在界限，稍作调整即可找到。并且您可以通过这种方式分隔大部分单词。

标签： c wav speech-to-text cmusphinx pocketsphinx

【解决方案1】：

您使用的语言voxforge_es_sphinx.transcription.test.lm 模型名称中有“test”，仅用于测试目的。您可以在我们的网站here上下载更高级的模型es-20k.lm.gz。

总体而言，我们的西班牙语模型非常基本且不是很准确，如果您需要认真的转录，则需要付出很多努力来扩展它。

【讨论】：

哇，现在好多了。它说：“hola soy ingeniera de niñas”，它漏掉了一个词，听起来很荒谬，但要好得多！谢谢
关键是除了来自voxforge 的转录测试外，我无法找到西班牙语的模型。我对西班牙语模型的现状感到惊讶，它是世界上第三或第二大语言。我希望它继续改进:)
它不解码信息，因为模型词汇表中缺少该词。您可以按照our tutorial 中的说明扩展模型。西班牙语工作不是很活跃，因为我们缺乏资源，我们将不胜感激。
你是对的。我会仔细阅读您的教程并尝试合作。再次感谢
我刚刚上传了一个updated model，准确一点。