Heritrix Crawl 是确定性的吗？

【问题标题】：Is Heritrix Crawl Deterministic?Heritrix Crawl 是确定性的吗？
【发布时间】：2016-05-12 07:15:54
【问题描述】：

假设有一个网站 abc.com，我们抓取 abc.com 的 100 个页面如下。

第 1 天：通过将 maxDocumentsToDownload 指定为 100 在 heritrix 中创建抓取作业第 2 天：在 heritrix 中克隆上述作业并运行。

如果网站在两天内没有变化，我会得到相同的 100 页还是不同的 100 页？

如果需要更多信息，请告诉我

谢谢，哈雷什

【问题讨论】：

【解决方案1】：

在第二天克隆作业后，除非网站（网页）更新，否则它将基本上下载相同的页面集。另一方面，在运行作业时，Heritrix 尽量不要两次抓取同一页面。因为 abc.com 和 abc.com/index 可能指向同一个 webp

【讨论】：