是否可以使用 Java crawler crawler4j 暂停和恢复爬行？答案

【问题标题】：Is it possible to pause and resume crawling using Java crawler crawler4j?是否可以使用 Java crawler crawler4j 暂停和恢复爬行？
【发布时间】：2017-10-16 11:19:33
【问题描述】：

我已经知道您可以将抓取配置为可恢复。

但是是否可以使用可恢复功能来暂停抓取过程，然后以编程方式在以后恢复抓取？例如。我可以优雅地shutdown使用爬虫的shutdown方法进行爬取，并将可恢复参数设置为true，然后重新开始爬取。

它会这样工作吗，因为 resumable 参数的主要目的是处理爬虫的意外崩溃。是否有任何其他或更好的方法可以使用 crawler4j 实现此功能？

【问题讨论】：

标签： java web-scraping web-crawler crawler4j

【解决方案1】：

如果将参数resumable设置为true，Frontier和DocIdServer将把他们的队列存储在用户定义的存储文件夹中。

这适用于崩溃或程序性关闭。在这两种情况下，存储文件夹必须相同。

另请参阅官方问题跟踪器上的the related issue

【讨论】：