【问题标题】:Clustering documents in Solr在 Solr 中聚类文档
【发布时间】:2012-09-05 11:42:15
【问题描述】:

首先我必须提到,我的意思是文档集群是一种数据挖掘技术,而不是工作负载集群或类似的东西。

从一开始我就说我有什么:

  • 我总是收到文件。让我们假设这些是新闻(这是相当相似的事情)。
  • 每次我得到新一批“新闻”时,我都应该将它们添加到 Solr 索引并获取该文档的集群信息。将此信息存储在数据库中(所以我应该知道每个文档的集群)。
  • 我迫不及待地等待集群定义服务/程序不时启动,但它应该即时定义集群。
  • 我希望能够仅在一段时间内获取集群(例如,我只想搜索集群以查找一个月前加载的文档)。
  • 我每天将有数以万计的新文档和数百万的总基数。

很久以前我一直在使用某个库(不记得它的名称),它接收文档作为输入,并生成集群 ID,如果它认为这是一个新集群,那么它会创建一个,依此类推。但它工作得很慢(我什至不记得它的名字了)。

我找到了一本关于 Mahout 的书,但仍然不知道我应该读什么以及我想要什么。而且,也许,如果不为 Solr 编写自己的插件,使用 Solr/Mahout 是不可能做到这一点的。

我将不胜感激有关如何构建此类系统的任何想法和建议。

谢谢,提前

【问题讨论】:

    标签: solr data-mining cluster-analysis mahout


    【解决方案1】:

    相当老的帖子,不过让我回应一下,您可以使用carrot2 http://project.carrot2.org/index.html 进行solr 结果聚类。这总是在进行中。

    【讨论】:

      【解决方案2】:

      我认为您不需要任何类型的自定义 Solr 插件。这是因为新文档的分类可以在您的“新闻”的正常索引过程中确定,因此您可以将其作为正常字段添加到每个 Solr 文档中。

      谈到使用 Mahout 进行聚类和分类时,我会说 Mahout in Action 这本书是一个很好的入门资源。

      干杯。

      【讨论】:

      • 是的,我正在读那本书有一段时间了,但仍然需要分享一些经验,以将其计算在内。
      • 但是你应该更具体地问 - 你的数据是什么样的 - 聚类/分类的信息库是什么等等......
      猜你喜欢
      • 2014-10-13
      • 2017-03-05
      • 2013-02-01
      • 2014-01-25
      • 2012-03-01
      • 2015-04-27
      • 2015-01-24
      • 2011-12-24
      • 1970-01-01
      相关资源
      最近更新 更多