【问题标题】:What's the max # of concurrent connections / HTTP requests per sec I should make to a given domain?我应该对给定域进行的最大并发连接数/每秒 HTTP 请求数是多少?
【发布时间】:2013-01-22 09:43:01
【问题描述】:

我正在从各种网络服务器下载一个完整的目录,其中包含 静态图片内容(超过百万张图片,全部合法)。

我想有效地下载图像,但我正在考虑每个域的什么限制,我应该将并发连接数连接之间的时间放在一起尝试避免被 DOS 工具和其他限制器列入黑名单。

【问题讨论】:

  • 请问提供内容的人?这是确定的唯一方法。
  • 可能有 1000 台网络服务器,这不切实际,就像谷歌打电话给我并询问我的网络服务器相同的问题一样不切实际。但是检查 robots.txt 是您的评论产生的合理想法。
  • 啊,对我来说“各种”!=“1000”:)。然后,如果您有许多服务器,则可能要走的路是“循环” - 从一台服务器下载 N 个图像,然后移动到下一个服务器,在所有服务器之间循环加载。
  • 是的,我在那里含糊其辞。 :) 我们有大量的计算/网络容量,我们希望同时运行 1000 个连接以快速完成(我们在 AWS 上的 Hadoop 集群中运行),但我不想抨击单个网络服务器和被 DOS 攻击列入黑名单。我需要限制每个域。我正在尝试确定我们的节流参数。

标签: http web connection web-crawler httprequest


【解决方案1】:

我需要寻找的关键字是“webcrawler politness”,它弹出了一些有用的文章,很好地回答了这个问题:

Typical politeness factor for a web crawler?

http://blog.mischel.com/2011/12/20/writing-a-web-crawler-politeness/

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2016-07-19
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多