【发布时间】:2015-11-28 23:42:57
【问题描述】:
我对一组文本文档(大约 100 个)应用了聚类。我使用TfIdfVectorizer 将它们转换为Tfidf 向量,并将向量作为输入提供给scikitlearn.cluster.KMeans(n_clusters=2, init='k-means++', max_iter=100, n_init=10)。现在当我
model.fit()
print model.score()
在我的向量上,如果所有文本文档都非常相似,我会得到一个非常小的值,如果文档非常不同,我会得到一个非常大的负值。
我的基本目的是查找哪组文档相似,但有人可以帮我理解这个model.score() 值究竟意味着什么?我如何使用这个值来证明我的发现是正确的?
【问题讨论】:
标签: python scikit-learn k-means