【问题标题】:How to avoid circular bot traps in phpcrawl?如何避免 phpcrawl 中的循环机器人陷阱? 【发布时间】:2015-12-17 04:20:08 【问题描述】: 在使用 PHP-crawl 时如何避免陷入循环链接陷阱? 【问题讨论】: 标签: php web-crawler 【解决方案1】: 如果您将访问过的 url 存储在某种数组中,您可以检查该 url 是否已被访问过,如果是,请不要再次访问它。 【讨论】: 那么 phpcrawl 中没有内置的功能呢?我假设仅使用数组会很快耗尽内存进行大型爬网,那么也许我应该升级到更重型的软件来进行大规模爬网... RAM 很便宜(一般来说)。话虽如此,php.net/SplFixedArray 可能会有一些用处。 stackoverflow.com/questions/10434913/… 对此也有更多了解。如果您可以接受更长的抓取时间,您甚至可以使用文件系统并将每个域放在一个包含 json 数组的文件中,然后以这种方式加载。它会更慢,但内存占用更少。