【发布时间】:2016-08-01 06:41:12
【问题描述】:
我正在阅读有关 n-gram 的文章,我想知道在实践中是否存在使用 uni-grams 优于 bi-grams 的情况(或更高的N-gram)。据我了解,N 越大,计算概率和建立向量空间的复杂度就越大。但除此之外,还有其他原因(例如与数据类型有关)吗?
【问题讨论】:
-
向量空间?!您是指概率向量,即多项分布吗? - 没有 99% 的把握,我可以说 unigram 永远不应该用作 n-gram 语言模型。
-
正如下面提到的 Lior,我的意思是向量空间,例如TF-IDF。在这种情况下,您将如何使用概率向量?
-
n-gram 语言模型旨在定义词汇表中单词的概率向量,以上下文为条件(即在 unigrm 情况下,上下文为空,因此概率基本上定义为最大似然估计: \frac{# of a specific word in the training data}{#of words in the training data} 计算概率的弱方法。
标签: machine-learning nlp data-mining n-gram