【问题标题】:Is it possible to pause and resume crawling using Java crawler crawler4j?是否可以使用 Java crawler crawler4j 暂停和恢复爬行?
【发布时间】:2017-10-16 11:19:33
【问题描述】:

我已经知道您可以将抓取配置为可恢复。

但是是否可以使用可恢复功能来暂停抓取过程,然后以编程方式在以后恢复抓取?例如。我可以优雅地shutdown使用爬虫的shutdown方法进行爬取,并将可恢复参数设置为true,然后重新开始爬取。

它会这样工作吗,因为 resumable 参数的主要目的是处理爬虫的意外崩溃。是否有任何其他或更好的方法可以使用 crawler4j 实现此功能?

【问题讨论】:

    标签: java web-scraping web-crawler crawler4j


    【解决方案1】:

    如果将参数resumable设置为trueFrontierDocIdServer将把他们的队列存储在用户定义的存储文件夹中。

    这适用于崩溃或程序性关闭。在这两种情况下,存储文件夹必须相同。

    另请参阅官方问题跟踪器上的the related issue

    【讨论】:

      猜你喜欢
      • 2019-08-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多