【发布时间】:2012-11-19 17:16:10
【问题描述】:
我有非常大的 solr 索引。我想用更能代表该文档的术语标记所有文档,例如this。这种聚类结果是否也属于文档标记?
哪种方法更好,索引时间文档标记或查询时间文档标记,如胡萝卜2?
【问题讨论】:
标签: solr search-engine data-mining carrot2
我有非常大的 solr 索引。我想用更能代表该文档的术语标记所有文档,例如this。这种聚类结果是否也属于文档标记?
哪种方法更好,索引时间文档标记或查询时间文档标记,如胡萝卜2?
【问题讨论】:
标签: solr search-engine data-mining carrot2
查询时间有一个明显的缺点,那就是这会使查询更加昂贵。
但是,查询时的聚类结果应该更好,因为那时已经看到了更多的信息并且可以合并用户反馈。
请注意,从技术上讲,这可能比聚类分析更频繁模式挖掘。
也许您应该在整个数据集上尝试这种频繁模式挖掘的变体。您甚至可能不需要存储以哪种方式标记的文档 - solr 引擎应该已经优化,以便在需要时再次检索它们。
【讨论】:
我从您的问题中了解到,您想知道如何使用 solr 实现类似于carrot2 faceting 的东西。
IMO,您可以将 多值字段 tag 添加到您的文档(请参阅此 Stack Overflow Question 以获取示例)以及该文档的集群名称,然后构建 facets 使用 Solr wiki here 和 here 中解释的该字段。
【讨论】: