【发布时间】:2015-04-27 21:23:23
【问题描述】:
我一直在尝试对一组文本文档进行聚类。我有一个稀疏的 TFIDF 矩阵,包含大约 10k 个文档(大型数据集的子集),我尝试使用不同大小的集群(10,50,100)运行 scikit-learn k-means 算法。其余参数均为默认值。
我得到一个非常奇怪的行为,无论我指定多少个集群,或者即使我更改迭代次数,批次中都会有 1 个集群本身包含大部分文档,并且会有很多集群其中只有 1 个文档。这是高度不一致的行为
有谁知道我遇到了什么样的问题?
【问题讨论】:
-
k-means 对异常值不是很健壮。 1 元素簇通常是异常值。
-
是的,这正是我一直在想的,因为我怀疑有很多异常值。我想知道哪种算法可能更适合这种情况。
标签: scikit-learn cluster-analysis k-means text-mining tf-idf