【发布时间】:2014-05-10 13:48:26
【问题描述】:
我在机器学习领域有一个幼稚的问题。
我有 unigrams 作为特征,idf 作为特征值。
问题是如何计算出现在测试集中但没有出现在训练集中的一元的 idf。 idf公式为如下log(N/D),其中N-文档总数,D-是我们特定的unigram出现的文档数,但是当D=0时怎么办。
感谢您的帮助。
【问题讨论】:
标签: machine-learning
我在机器学习领域有一个幼稚的问题。
我有 unigrams 作为特征,idf 作为特征值。
问题是如何计算出现在测试集中但没有出现在训练集中的一元的 idf。 idf公式为如下log(N/D),其中N-文档总数,D-是我们特定的unigram出现的文档数,但是当D=0时怎么办。
感谢您的帮助。
【问题讨论】:
标签: machine-learning
您可以通过始终将 1 或其他常量添加到 D 来执行 additive smoothing。
【讨论】: