【问题标题】:Document Clustering and Classification in Solr?Solr 中的文档聚类和分类?
【发布时间】:2014-10-13 11:46:32
【问题描述】:

我正在 Solr 中构建文档索引。 文件不科学。

我的每个文件都有一个类链接,它们可以用于教学。我想在添加时为新文档分配类别。一直添加文档,而不重建所有索引。

文档也可以是同一事物,但来源不同,所以我想进行文档聚类。因此,当添加文档时 - 我可以搜索过去 N 天内是否已经有这样的主题,如果是 - 然后保存集群 ID。

索引大小约为 500k 个文档,并且还在不断增加,因此速度很重要。

所以我想为每个新文档计算:类别 ID(基于预定义文档的训练)、集群 ID(仅匹配 N 天,而不是整个索引)。

用 SOLR 可以做到吗?或者最好制定单独的解决方案(如果是,那是哪一个?)

【问题讨论】:

    标签: solr document-classification text-classification


    【解决方案1】:

    solr 6.1 和 lucene 6.1 现在具有此功能。它提供了现成的 knn 和 naive bayes。这是一篇关于如何在 solr 中使用它的好帖子:solr based text classification

    【讨论】:

      【解决方案2】:

      你可以看看CarrotResult Clustering。但它可能不是你所追求的。

      所以我认为你现在有两个选择:

      • 创建 Solr 插件(基于 Carrot 或其他插件)
      • 在添加文档之前进行手动查询

      【讨论】:

        猜你喜欢
        • 2012-09-05
        • 2013-08-13
        • 2017-03-05
        • 2012-03-01
        • 2014-01-25
        • 2015-01-24
        • 2015-04-27
        • 1970-01-01
        • 2015-01-11
        相关资源
        最近更新 更多