【发布时间】:2015-01-16 12:35:30
【问题描述】:
我想比较我的三个语料库的复杂程度(变化的或可预测的)。他们来自不同的主题,所以有些词汇是不同的,有些是相同的。查看其中一个数据集,很明显语法比其他两个更难,句子更长,等等。我使用 SRILM 工具包(我是语言建模新手)构建了 word N-Gram 语言模型想法,然后我可以比较这些模型。提到的与语言模型相关的一项衡量标准是困惑度。我对以下问题感到困惑:我可以直接使用三个 LM 的困惑度来衡量语料库的变化程度吗?语料库的词汇量和大小不同,所以现在我认为这不是一个很好的比较。我也从 POS-Tags 构建了 LMs,但是 POS-Tagging 结果的质量不好,因为语言来自论坛,有拼写错误,不合语法的句子等等。可以使用哪些度量来比较来自不同领域的语料库的复杂性?我很感激你的建议。 [我是 Stackexchange 的新手。我在 Crossvalidated 上发布了这个,但我认为这里可能是更合适的论坛。]
【问题讨论】:
标签: nlp measurement