【问题标题】:Nutch 1.6 doesn't search new entries in seed.txtNutch 1.6 不在 seed.txt 中搜索新条目
【发布时间】:2020-05-05 07:34:25
【问题描述】:

我设置了 Solr 7.7.1 和 Nutch 1.6 并运行了测试搜索。为此,我在 seed.txt 中放置了一个 URL,一切正常。在这个测试之后,我删除了 Solr 中的旧核心,创建了一个新核心并将多个 URL 放入 seed.txt,然后再次启动 Nutch 进行新的爬网。但是我在每次尝试中都获得了上一次测试运行的结果。如何删除之前的搜索并启动 Nutch 来抓取我在 seed.txt 中输入的新 URL?

提前感谢您的回答。

【问题讨论】:

    标签: solr nutch


    【解决方案1】:

    您应该删除crawl/ 目录(如果它被命名为 crawl)。此目录包含以前爬取的数据(在发送到 Solr 之前)。运行爬取命令后可能没有新内容,Nutch 正在将已存储的数据发送到 Solr。

    【讨论】:

      猜你喜欢
      • 2014-07-27
      • 1970-01-01
      • 1970-01-01
      • 2011-12-17
      • 1970-01-01
      • 1970-01-01
      • 2012-01-02
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多