【发布时间】:2013-07-21 05:43:26
【问题描述】:
我是 python 和 scikit-learn 的新手,所以请多多包涵。
我从k means clustering.获取了这个k均值聚类算法的源代码
然后我修改为使用 load_file 函数在我的本地集上运行。
虽然算法终止,但它不会产生任何输出,比如哪些文档聚集在一起。
我发现 km 对象有 "km.label" 数组,其中列出了每个文档的质心 id。
它也有带有“km.cluster_centers_”的质心向量
但它是什么文件?我必须将它映射到作为“Bunch”对象的“数据集”。
如果我打印 dataset.data[0],我会得到我认为已洗牌的第一个文件的数据。但我只想知道名字。
我对诸如 dataset.data[0] 处的文档是否聚集到 km.label[0] 处的质心之类的问题感到困惑?
我的基本问题是找出哪些文件聚集在一起。 如何找到它?
【问题讨论】:
-
确保验证结果是否合理。 K-means 通常会返回可能是数学最优值的结果,但对手头的实际问题毫无用处!
标签: python cluster-analysis scikit-learn k-means