【问题标题】:Control Facebook Crawling Delay against Many Crawling Requests针对许多抓取请求控制 Facebook 抓取延迟
【发布时间】:2014-05-05 18:33:07
【问题描述】:

Facebook 使用该范围的 IP 地址抓取我的服务器 - 这导致我的服务器多次停机

31.13.97.117
31.13.97.116
31.13.97.113
31.13.97.115
31.13.97.112
31.13.97.118
31.13.97.114
31.13.97.119

首先:它不考虑任何 Robots.txt 规则......所以不能使用 Crawler-Delay。 第二:使用iptables(linux防火墙)停止爬取过程会导致Facebook社交插件的OpenGraph读取、点赞、分享和cmets出现问题。

请问如何阻止这种爬行或通过保持社交插件正常工作来控制它们..?

我看到了这个解决方案:excessive traffic from facebookexternalhit bot

但是 解决方案可以是 Apache Webserver 还是服务器端?

感谢和问候

【问题讨论】:

    标签: mysql facebook apache web-crawler


    【解决方案1】:

    我决定作为快速解决方案使用 IPtables(防火墙)对这个范围的 IPS 进行速率或连接限制所以避免任何编程节流方式。

    现在每 60 秒只能进行 10 次连接,这仍在测试中。

    我的 IPtables 规则完全正确:

    iptables -I INPUT -p tcp --dport 80 -i eth0 -m iprange --src-range 31.13.64.1-31.13.127.255 -m state --state NEW -m recent --set
    
    iptables -I INPUT -p tcp --dport 80 -i eth0 -m iprange --src-range 31.13.64.1-31.13.127.255 -m state --state NEW -m recent --update --seconds 60 --hitcount 2 -j DROP
    

    请注意;它必须根据您的情况进行调整,并根据您的评分...

    因为它们会影响分享、点赞、评论等大多数 Facebook 插件。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2016-01-20
      • 2011-04-28
      • 1970-01-01
      • 1970-01-01
      • 2011-08-03
      • 2018-03-16
      • 1970-01-01
      相关资源
      最近更新 更多