【问题标题】:ARPA language model documentationARPA 语言模型文档
【发布时间】:2013-04-30 18:20:39
【问题描述】:

在哪里可以找到有关 ARPA 语言模型格式的文档?

我正在使用袖珍狮身人面像 STT 引擎开发简单的语音识别应用程序。出于性能原因,建议使用 ARPA。 我想了解我可以做多少调整我的语言模型以满足我的自定义需求。

我发现的只是一些非常简短的 ARPA 格式描述:

我是 STT 的初学者,我很难理解这个(n-gram 等)。我正在寻找更详细的文档。类似 JSGF 语法的文档:

http://www.w3.org/TR/jsgf/

【问题讨论】:

标签: nlp speech-recognition cmusphinx sphinx4 language-model


【解决方案1】:

我可能回答这个问题已经很晚了,我发现 ARPA LM 格式在 Steve Young 等的 HTK 书 中的 link 中有很好的记录。人。

ARPA 的每一行都是一个三元组,存储:

n-gram log-probability(base10) ; the n-gram itself ; back-off weight (also in log space). 

【讨论】:

    【解决方案2】:

    您可以通过这份技术报告补充这些文档,该报告全面概述了语言建模的平滑:http://www.ee.columbia.edu/~stanchen/papers/h015a-techreport.pdf 您还将找到退避模型和插值模型的定义。

    【讨论】:

      【解决方案3】:

      关于格式实际上并没有比那些文档中所说的更多。

      此外,您可能需要准备一个带有例句和generate the language file based on it 的文本文件。有一个在线版可以帮你搞定:lmtool

      【讨论】:

      • 仍然,在使用某种 n-gram、退避等...这些是什么,我在哪里可以找到有关这些的更多信息?
      • @Lukasz 什么是 n-gram? A sequence of N words。退避是可选的。据我所知,概率是对数 10。
      • Backoff 是一种估计看不见的(在训练期间)ngram 概率的方法。如果高阶 ngram 不在 LM 中,它基本上会退回到低阶 ngram。例如,如果遇到 3 克不存在,则退回到 2 克。后退权重是为了确保联合概率是真实概率,即总和为 1。
      猜你喜欢
      • 1970-01-01
      • 2019-01-02
      • 1970-01-01
      • 2011-02-15
      • 1970-01-01
      • 2016-11-23
      • 2010-09-20
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多