Solr 中的文档聚类和分类？答案

【问题标题】：Document Clustering and Classification in Solr?Solr 中的文档聚类和分类？
【发布时间】：2014-10-13 11:46:32
【问题描述】：

我正在 Solr 中构建文档索引。文件不科学。

我的每个文件都有一个类链接，它们可以用于教学。我想在添加时为新文档分配类别。一直添加文档，而不重建所有索引。

文档也可以是同一事物，但来源不同，所以我想进行文档聚类。因此，当添加文档时 - 我可以搜索过去 N 天内是否已经有这样的主题，如果是 - 然后保存集群 ID。

索引大小约为 500k 个文档，并且还在不断增加，因此速度很重要。

所以我想为每个新文档计算：类别 ID（基于预定义文档的训练）、集群 ID（仅匹配 N 天，而不是整个索引）。

用 SOLR 可以做到吗？或者最好制定单独的解决方案（如果是，那是哪一个？）

【问题讨论】：

【解决方案1】：

solr 6.1 和 lucene 6.1 现在具有此功能。它提供了现成的 knn 和 naive bayes。这是一篇关于如何在 solr 中使用它的好帖子：solr based text classification

【讨论】：

【解决方案2】：

你可以看看Carrot，Result Clustering。但它可能不是你所追求的。

所以我认为你现在有两个选择：

【讨论】：