【问题标题】:Abot Web Crawler PerformanceAbot 网络爬虫性能
【发布时间】:2016-10-28 23:46:36
【问题描述】:

我已经构建了一个 robots.txt 爬虫,它从机器人中提取网址,然后在页面完成后加载页面并进行一些后期处理。这一切都发生得很快,我每秒可以从 5 页中提取信息。

如果网站没有 robots.txt,我会改用 Abot Web Crawler。问题是 Abot 比直接 robots.txt 爬虫慢得多。似乎当 Abot 访问包含大量链接的页面时,它会非常缓慢地安排每个链接。如上所述,有些页面需要 20 多秒才能将所有页面全部排队并运行后期处理。

我使用配置为不抓取外部页面的 PoliteWebCrawler。我应该一次抓取多个网站,还是有另一种更快的 Abot 解决方案?

谢谢!

【问题讨论】:

    标签: c# .net web-crawler screen-scraping


    【解决方案1】:

    为 Abot 添加了一个补丁来修复此类问题。应该在 nuget 版本 1.5.1.42 中可用。有关详细信息,请参阅issue #134。你能确认这解决了你的问题吗?

    【讨论】:

      【解决方案2】:

      您正在抓取的网站是否可能无法处理大量并发请求?一个快速的测试是打开浏览器并在 Abot 抓取站点时开始在站点周围单击。如果浏览器明显变慢,则服务器显示负载迹象。

      如果这是问题所在,您需要通过配置设置减慢爬取速度。

      如果没有,您能否提供一个正在缓慢抓取的网站或页面的网址? Abot 的完整配置也会有所帮助。

      【讨论】:

      • 您好,感谢您的帮助。抓取配置非常简单:this.crawlConfig.CrawlTimeoutSeconds = 0; this.crawlConfig.IsExternalPageCrawlingEnabled = false; 该站点是 domain.com.au,我不会说该站点很慢。我编写的站点地图爬虫与 Abot 是分开的,而且速度非常快,每秒扫描大约 5 页(最少)。 Abot 只在这样的页面上很慢:domain.com.au/real-estate/buy/nsw 需要 20 多秒才能进行扫描。
      猜你喜欢
      • 1970-01-01
      • 2015-06-19
      • 2011-12-11
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2018-08-12
      • 2012-08-01
      • 2015-05-12
      相关资源
      最近更新 更多