【问题标题】:How to choose the initial clusters for K-mean from Tf-IDF vectors如何从 Tf-IDF 向量中选择 K-mean 的初始聚类
【发布时间】:2015-01-14 09:43:45
【问题描述】:

我正在处理文本聚类。我想选择特定文档(作为向量)作为 k-means 的 centroID。

我已经使用 Mahout 为我的数据集创建了 TF-IDF,我想从 TFIDF 向量中选择初始集群。

有人知道如何在 Mahout 中指定初始质心吗?

【问题讨论】:

  • Mahout 有内置的质心选择,不是吗?
  • 是的,Mahout 可以随机选择质心或使用 Canopy,但我想手动选择它们。
  • 它还有一个手动指定它们的选项。

标签: cluster-analysis mahout k-means text-mining tf-idf


【解决方案1】:

bin/mahout kmeans
-c 输入集群目录
-k 从输入向量中采样的可选初始簇数

如果提供了 -k 参数,则 -c 目录中的所有簇都将被覆盖,并且 -k 随机点将从输入向量中采样成为初始簇中心。

参考:https://mahout.apache.org/users/clustering/k-means-clustering.html

【讨论】:

    【解决方案2】:

    一种可能是使用Cosine similarity 而不是TF-IDF,方法是查看彼此相距最远的文档。像这样的:

    1. 选择一个文档 1.
    2. 从文档 1 中选择最远的文档 2。
    3. 从文档 1 和 2 中选择最远的文档。

    查看this 可能也会有所帮助。

    【讨论】:

      猜你喜欢
      • 2018-11-28
      • 2016-06-27
      • 2017-05-19
      • 2019-01-10
      • 2017-05-13
      • 2017-06-30
      • 2018-01-25
      • 2017-10-07
      • 2017-09-12
      相关资源
      最近更新 更多