在 Solr 中聚类文档答案

【问题标题】：Clustering documents in Solr在 Solr 中聚类文档
【发布时间】：2012-09-05 11:42:15
【问题描述】：

首先我必须提到，我的意思是文档集群是一种数据挖掘技术，而不是工作负载集群或类似的东西。

从一开始我就说我有什么：

很久以前我一直在使用某个库（不记得它的名称），它接收文档作为输入，并生成集群 ID，如果它认为这是一个新集群，那么它会创建一个，依此类推。但它工作得很慢（我什至不记得它的名字了）。

我找到了一本关于 Mahout 的书，但仍然不知道我应该读什么以及我想要什么。而且，也许，如果不为 Solr 编写自己的插件，使用 Solr/Mahout 是不可能做到这一点的。

我将不胜感激有关如何构建此类系统的任何想法和建议。

谢谢，提前

【问题讨论】：

【解决方案1】：

相当老的帖子，不过让我回应一下，您可以使用carrot2 http://project.carrot2.org/index.html 进行solr 结果聚类。这总是在进行中。

【讨论】：

【解决方案2】：

我认为您不需要任何类型的自定义 Solr 插件。这是因为新文档的分类可以在您的“新闻”的正常索引过程中确定，因此您可以将其作为正常字段添加到每个 Solr 文档中。

谈到使用 Mahout 进行聚类和分类时，我会说 Mahout in Action 这本书是一个很好的入门资源。

干杯。

【讨论】：