ARPA 语言模型文档答案

【问题标题】：ARPA language model documentationARPA 语言模型文档
【发布时间】：2013-04-30 18:20:39
【问题描述】：

在哪里可以找到有关 ARPA 语言模型格式的文档？

我正在使用袖珍狮身人面像 STT 引擎开发简单的语音识别应用程序。出于性能原因，建议使用 ARPA。我想了解我可以做多少调整我的语言模型以满足我的自定义需求。

我发现的只是一些非常简短的 ARPA 格式描述：

我是 STT 的初学者，我很难理解这个（n-gram 等）。我正在寻找更详细的文档。类似 JSGF 语法的文档：

【问题讨论】：

我发现这个链接很有用：speech.sri.com/projects/srilm/manpages/ngram-format.5.html 它描述了 n-gram aka ARPA aka Doug Paul 格式。
看看这个 msdn 链接。arpa 和 args 格式解释得很好Compile Grammar Input and Output File Format

【解决方案1】：

我可能回答这个问题已经很晚了，我发现 ARPA LM 格式在 Steve Young 等的 HTK 书 中的 link 中有很好的记录。人。

ARPA 的每一行都是一个三元组，存储：

n-gram log-probability(base10) ; the n-gram itself ; back-off weight (also in log space).

【讨论】：

【解决方案2】：

您可以通过这份技术报告补充这些文档，该报告全面概述了语言建模的平滑：http://www.ee.columbia.edu/~stanchen/papers/h015a-techreport.pdf 您还将找到退避模型和插值模型的定义。

【讨论】：

【解决方案3】：

关于格式实际上并没有比那些文档中所说的更多。

此外，您可能需要准备一个带有例句和generate the language file based on it 的文本文件。有一个在线版可以帮你搞定：lmtool

【讨论】：

仍然，在使用某种 n-gram、退避等...这些是什么，我在哪里可以找到有关这些的更多信息？
@Lukasz 什么是 n-gram？ A sequence of N words。退避是可选的。据我所知，概率是对数 10。
Backoff 是一种估计看不见的（在训练期间）ngram 概率的方法。如果高阶 ngram 不在 LM 中，它基本上会退回到低阶 ngram。例如，如果遇到 3 克不存在，则退回到 2 克。后退权重是为了确保联合概率是真实概率，即总和为 1。