【发布时间】:2016-10-28 23:46:36
【问题描述】:
我已经构建了一个 robots.txt 爬虫,它从机器人中提取网址,然后在页面完成后加载页面并进行一些后期处理。这一切都发生得很快,我每秒可以从 5 页中提取信息。
如果网站没有 robots.txt,我会改用 Abot Web Crawler。问题是 Abot 比直接 robots.txt 爬虫慢得多。似乎当 Abot 访问包含大量链接的页面时,它会非常缓慢地安排每个链接。如上所述,有些页面需要 20 多秒才能将所有页面全部排队并运行后期处理。
我使用配置为不抓取外部页面的 PoliteWebCrawler。我应该一次抓取多个网站,还是有另一种更快的 Abot 解决方案?
谢谢!
【问题讨论】:
标签: c# .net web-crawler screen-scraping