【发布时间】:2011-06-07 07:14:47
【问题描述】:
我已经使用 simplehtmldom 为自己编写了一个网络爬虫,并且让爬取过程运行得非常好。它爬取起始页面,将所有链接添加到数据库表中,设置会话指针,然后元刷新页面以进入下一页。一直持续到链接用完
这很好用,但显然大型网站的抓取时间相当乏味。不过,我希望能够加快速度,并可能使其成为一项 cron 工作。
除了将内存限制/执行时间设置得更高之外,还有什么让它尽可能快速和高效的想法吗?
【问题讨论】:
-
在 SO 或 Google 中搜索 php profiler。您可以准确地确定是什么让一切都变慢了。从那里,您可以提出更具体的问题,例如“如何加快
file_get_contents()”。 -
我将在我/我的公司建立的网站上使用它,仅用于检查死链接,并检查所有链接是否有合适的锚点 + 标题,确保所有页面都有标题/h1 标签等跨度>
标签: php regex web-crawler hyperlink