【问题标题】:Is Heritrix Crawl Deterministic?Heritrix Crawl 是确定性的吗?
【发布时间】:2016-05-12 07:15:54
【问题描述】:

假设有一个网站 abc.com,我们抓取 abc.com 的 100 个页面如下。

第 1 天:通过将 maxDocumentsToDownload 指定为 100 在 heritrix 中创建抓取作业 第 2 天:在 heritrix 中克隆上述作业并运行。

如果网站在两天内没有变化,我会得到相同的 100 页还是不同的 100 页?

如果需要更多信息,请告诉我

谢谢, 哈雷什

【问题讨论】:

    标签: web-crawler heritrix


    【解决方案1】:

    在第二天克隆作业后,除非网站(网页)更新,否则它将基本上下载相同的页面集。 另一方面,在运行作业时,Heritrix 尽量不要两次抓取同一页面。因为 abc.com 和 abc.com/index 可能指向同一个 webp

    【讨论】:

    • 您好 Girish,感谢您的回复。这是否记录在 Herittrix 文档的某处,如果网站不更改,抓取的页面集不会有任何差异?
    • 不,只是根据我能够判断的观察结果。
    猜你喜欢
    • 2011-12-31
    • 2012-05-13
    • 2016-10-20
    • 1970-01-01
    • 1970-01-01
    • 2021-05-26
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多