【问题标题】:How to avoid circular bot traps in phpcrawl?如何避免 phpcrawl 中的循环机器人陷阱?
【发布时间】:2015-12-17 04:20:08
【问题描述】:

在使用 PHP-crawl 时如何避免陷入循环链接陷阱?

【问题讨论】:

    标签: php web-crawler


    【解决方案1】:

    如果您将访问过的 url 存储在某种数组中,您可以检查该 url 是否已被访问过,如果是,请不要再次访问它。

    【讨论】:

    • 那么 phpcrawl 中没有内置的功能呢?我假设仅使用数组会很快耗尽内存进行大型爬网,那么也许我应该升级到更重型的软件来进行大规模爬网...
    • RAM 很便宜(一般来说)。话虽如此,php.net/SplFixedArray 可能会有一些用处。 stackoverflow.com/questions/10434913/… 对此也有更多了解。如果您可以接受更长的抓取时间,您甚至可以使用文件系统并将每个域放在一个包含 json 数组的文件中,然后以这种方式加载。它会更慢,但内存占用更少。
    猜你喜欢
    • 2014-06-30
    • 1970-01-01
    • 2010-11-16
    • 1970-01-01
    • 2012-05-10
    • 2017-06-16
    • 2019-07-14
    • 2015-04-08
    • 2020-06-22
    相关资源
    最近更新 更多