如何避免 phpcrawl 中的循环机器人陷阱？

【问题标题】：How to avoid circular bot traps in phpcrawl?如何避免 phpcrawl 中的循环机器人陷阱？
【发布时间】：2015-12-17 04:20:08
【问题描述】：

在使用 PHP-crawl 时如何避免陷入循环链接陷阱？

【问题讨论】：

标签： php web-crawler

【解决方案1】：

如果您将访问过的 url 存储在某种数组中，您可以检查该 url 是否已被访问过，如果是，请不要再次访问它。

【讨论】：

那么 phpcrawl 中没有内置的功能呢？我假设仅使用数组会很快耗尽内存进行大型爬网，那么也许我应该升级到更重型的软件来进行大规模爬网...
RAM 很便宜（一般来说）。话虽如此，php.net/SplFixedArray 可能会有一些用处。 stackoverflow.com/questions/10434913/… 对此也有更多了解。如果您可以接受更长的抓取时间，您甚至可以使用文件系统并将每个域放在一个包含 json 数组的文件中，然后以这种方式加载。它会更慢，但内存占用更少。

猜你喜欢

2014-06-30
1970-01-01
2010-11-16
1970-01-01
2012-05-10
2017-06-16
2019-07-14
2015-04-08
2020-06-22

相关资源

下载 2021-06-06
下载 2023-02-17
下载 2023-04-01

最近更新更多

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode