Abot 网络爬虫性能答案

【问题标题】：Abot Web Crawler PerformanceAbot 网络爬虫性能
【发布时间】：2016-10-28 23:46:36
【问题描述】：

我已经构建了一个 robots.txt 爬虫，它从机器人中提取网址，然后在页面完成后加载页面并进行一些后期处理。这一切都发生得很快，我每秒可以从 5 页中提取信息。

如果网站没有 robots.txt，我会改用 Abot Web Crawler。问题是 Abot 比直接 robots.txt 爬虫慢得多。似乎当 Abot 访问包含大量链接的页面时，它会非常缓慢地安排每个链接。如上所述，有些页面需要 20 多秒才能将所有页面全部排队并运行后期处理。

我使用配置为不抓取外部页面的 PoliteWebCrawler。我应该一次抓取多个网站，还是有另一种更快的 Abot 解决方案？

谢谢！

【问题讨论】：

【解决方案1】：

为 Abot 添加了一个补丁来修复此类问题。应该在 nuget 版本 1.5.1.42 中可用。有关详细信息，请参阅issue #134。你能确认这解决了你的问题吗？

【讨论】：

【解决方案2】：

您正在抓取的网站是否可能无法处理大量并发请求？一个快速的测试是打开浏览器并在 Abot 抓取站点时开始在站点周围单击。如果浏览器明显变慢，则服务器显示负载迹象。

如果这是问题所在，您需要通过配置设置减慢爬取速度。

如果没有，您能否提供一个正在缓慢抓取的网站或页面的网址？ Abot 的完整配置也会有所帮助。

【讨论】：

您好，感谢您的帮助。抓取配置非常简单：this.crawlConfig.CrawlTimeoutSeconds = 0; this.crawlConfig.IsExternalPageCrawlingEnabled = false; 该站点是 domain.com.au，我不会说该站点很慢。我编写的站点地图爬虫与 Abot 是分开的，而且速度非常快，每秒扫描大约 5 页（最少）。 Abot 只在这样的页面上很慢：domain.com.au/real-estate/buy/nsw 需要 20 多秒才能进行扫描。