【问题标题】:Clustering with Apache Solr and Carrot2使用 Apache Solr 和 Carrot2 进行集群
【发布时间】:2017-06-03 08:35:19
【问题描述】:

我对 Apache Solr 和 Carrot2 都很陌生。我正在尝试使用 Solr 索引大量输入文件。最终目标是对文档进行聚类。

我不清楚集群是用Solr还是carrot2 workbench做的?

有人可以指导我吗?

【问题讨论】:

    标签: solr carrot2


    【解决方案1】:

    这两种方式都可以。

    在一个设置中,Carrot2 Workbench 可以从 Solr 获取搜索结果(就像从任何其他搜索引擎一样)并将它们聚集在一起。这条路线可能是最容易开始的,您只需要提供 Solr 服务的 URL 和字段名称即可为集群提供内容。

    或者,您可以在 Solr 中配置 search results clustering plugin,它将在您的 Solr 服务器内执行集群,并将搜索结果集群作为 Solr 搜索响应的一部分。

    在这两种情况下,集群都应用于文档的存储内容(原始文本),因此将文档集群在 Solr 中并没有太大的性能优势,也许除了减少序列化/反序列化开销之外。

    最后,有一个有点过时的文档澄清了这两个Carrot2-Solr integration strategies

    【讨论】:

    • 我在 solr 中使用 carrot2extension 来获取集群。默认情况下,它计算前 100 个文档的集群。如果我尝试在请求失败的更多文件上执行此操作。你对解决这个问题有什么想法吗?
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多