【发布时间】:2011-04-26 03:20:39
【问题描述】:
我正在使用 mahout 对使用 solr 索引的文本文档进行聚类。
我已使用文档中的“文本”字段来形成向量。然后我使用 mahout 中的 k-means 驱动程序进行聚类,然后使用 clusterdumper 实用程序转储结果。
我很难理解转储程序的输出结果。我可以看到这些集群中的术语向量形成的集群。 但是如何从这些集群中提取文档。我希望结果是出现在不同集群中的输入文档。
【问题讨论】:
-
我也在寻找这个问题的答案。这个讨论:lucidimagination.com/search/document/dab8c1f3c3addcfe/… 似乎暗示这是一个未解决的问题,在 Mahout 0.5 中实施了一个补丁,issues.apache.org/jira/browse/MAHOUT-236。