【发布时间】:2012-09-05 11:42:15
【问题描述】:
首先我必须提到,我的意思是文档集群是一种数据挖掘技术,而不是工作负载集群或类似的东西。
从一开始我就说我有什么:
- 我总是收到文件。让我们假设这些是新闻(这是相当相似的事情)。
- 每次我得到新一批“新闻”时,我都应该将它们添加到 Solr 索引并获取该文档的集群信息。将此信息存储在数据库中(所以我应该知道每个文档的集群)。
- 我迫不及待地等待集群定义服务/程序不时启动,但它应该即时定义集群。
- 我希望能够仅在一段时间内获取集群(例如,我只想搜索集群以查找一个月前加载的文档)。
- 我每天将有数以万计的新文档和数百万的总基数。
很久以前我一直在使用某个库(不记得它的名称),它接收文档作为输入,并生成集群 ID,如果它认为这是一个新集群,那么它会创建一个,依此类推。但它工作得很慢(我什至不记得它的名字了)。
我找到了一本关于 Mahout 的书,但仍然不知道我应该读什么以及我想要什么。而且,也许,如果不为 Solr 编写自己的插件,使用 Solr/Mahout 是不可能做到这一点的。
我将不胜感激有关如何构建此类系统的任何想法和建议。
谢谢,提前
【问题讨论】:
标签: solr data-mining cluster-analysis mahout