【发布时间】:2014-10-13 11:46:32
【问题描述】:
我正在 Solr 中构建文档索引。 文件不科学。
我的每个文件都有一个类链接,它们可以用于教学。我想在添加时为新文档分配类别。一直添加文档,而不重建所有索引。
文档也可以是同一事物,但来源不同,所以我想进行文档聚类。因此,当添加文档时 - 我可以搜索过去 N 天内是否已经有这样的主题,如果是 - 然后保存集群 ID。
索引大小约为 500k 个文档,并且还在不断增加,因此速度很重要。
所以我想为每个新文档计算:类别 ID(基于预定义文档的训练)、集群 ID(仅匹配 N 天,而不是整个索引)。
用 SOLR 可以做到吗?或者最好制定单独的解决方案(如果是,那是哪一个?)
【问题讨论】:
标签: solr document-classification text-classification