【问题标题】:solr index multiple urls to the same pagesolr 将多个 url 索引到同一页面
【发布时间】:2014-03-30 17:54:11
【问题描述】:

我正在使用 Apache Nutch 和 Solr 来构建我的搜索引擎。 我在结果中发现有多个 url 指向同一个页面,这些 url 在 solr 中被索引为不同的结果

前:

http://www.adab.com/modules.php?name=Sh3er&doWhat=shqas&qid=83067&r=&rc=13 http://www.adab.com/modules.php?name=Sh3er&doWhat=shqas&qid=83067&r=&rc=15

如何避免在我的搜索引擎中出现这种重复?

【问题讨论】:

  • 真正的问题是什么?多个网址指向同一个页面,有问题吗?
  • 是的,当显示一个搜索词的结果时,会出现多个指向同一页面和相同内容的结果,为了优化我的搜索引擎的结果,我必须避免这种情况

标签: solr search-engine nutch


【解决方案1】:

您可以设置deduplication 以便丢弃重复项。

【讨论】:

    猜你喜欢
    • 2012-03-22
    • 1970-01-01
    • 2023-04-09
    • 1970-01-01
    • 1970-01-01
    • 2021-08-17
    • 2020-11-01
    • 1970-01-01
    • 2023-03-19
    相关资源
    最近更新 更多