【问题标题】:solr search with all documents being retrievedsolr 搜索所有正在检索的文档
【发布时间】:2012-03-26 03:02:08
【问题描述】:

我使用 nutch 1.4 抓取网站,并将数据索引到 solr 3.5。这是成功的。我使用Luke查看了索引数据,发现提取了1678个文档。但是当我在 solr 界面中输入一个查询字符串(只是几个关键词)进行搜索时,1678 个文档都被检索到了。这很奇怪,因为大多数检索到的网页根本不包含这些关键词。

对这个问题有什么想法吗?

谢谢。

雷声

【问题讨论】:

  • 它可以是任何东西。你能补充一些细节吗?例如,您的“schema.xml”和您正在尝试的查询。谢谢
  • 我爬的是一个医学图书馆网站。它主要包含医学术语和术语。例如,我输入了查询字符串“Clinical Allegy & Clinical Immunology”,solr 返回所有 1678 个文档。谢谢!
  • 顺便说一句,我使用了直接从位于 nutch_home/runtime/local/conf 下的 Nutch 1.4 复制的“schema.xml”。谢谢!

标签: solr nutch


【解决方案1】:

嗯,人们在使用 Solr 搜索时通常会遇到“缺少文档”类型的问题。你有相反的问题:)

在您使用 Luke 打开索引后,您应该能够立即看到为什么会发生这种情况。 Nutch 架构的默认搜索字段是内容,因此当您在 Solr 中仅输入搜索词时,该字段将被搜索。使用 Luke 检查其内容。

您当然知道这些宝贵的资源:
http://www.lucidimagination.com/blog/2010/09/10/refresh-using-nutch-with-solr/
http://groups.drupal.org/lucene-nutch-and-solr
http://www.mail-archive.com/nutch-commits@lucene.apache.org/msg02227.html

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2022-12-17
    • 1970-01-01
    • 1970-01-01
    • 2023-03-10
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多