【问题标题】:Document tagging文档标记
【发布时间】:2012-11-19 17:16:10
【问题描述】:

我有非常大的 solr 索引。我想用更能代表该文档的术语标记所有文档,例如this。这种聚类结果是否也属于文档标记?

哪种方法更好,索引时间文档标记或查询时间文档标记,如胡萝卜2?

【问题讨论】:

    标签: solr search-engine data-mining carrot2


    【解决方案1】:

    查询时间有一个明显的缺点,那就是这会使查询更加昂贵。

    但是,查询时的聚类结果应该更好,因为那时已经看到了更多的信息并且可以合并用户反馈。

    请注意,从技术上讲,这可能比聚类分析频繁模式挖掘

    也许您应该在整个数据集上尝试这种频繁模式挖掘的变体。您甚至可能不需要存储以哪种方式标记的文档 - solr 引擎应该已经优化,以便在需要时再次检索它们。

    【讨论】:

    • 谢谢 Anony-Mousse,再澄清一件事。你想说文档标记(无论是索引时间还是查询时间)与文档聚类的目的相同吗?
    • 通常,标记是一种用户生成的多分类(查找folksonomy)。真正的聚类要微妙得多,它有助于发现人类可能错过的结构;但这对用户可能有用也可能没用。
    【解决方案2】:

    我从您的问题中了解到,您想知道如何使用 solr 实现类似于carrot2 faceting 的东西。

    IMO,您可以将 多值字段 tag 添加到您的文档(请参阅此 Stack Overflow Question 以获取示例)以及该文档的集群名称,然后构建 facets 使用 Solr wiki herehere 中解释的该字段。

    【讨论】:

    • 谢谢托尼,一个问题是,这将只检索该字段中的单个顶级术语,还是短语也会出现?
    猜你喜欢
    • 2013-06-10
    • 1970-01-01
    • 1970-01-01
    • 2011-07-03
    • 1970-01-01
    • 1970-01-01
    • 2016-05-07
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多