针对许多抓取请求控制 Facebook 抓取延迟答案

【问题标题】：Control Facebook Crawling Delay against Many Crawling Requests针对许多抓取请求控制 Facebook 抓取延迟
【发布时间】：2014-05-05 18:33:07
【问题描述】：

Facebook 使用该范围的 IP 地址抓取我的服务器 - 这导致我的服务器多次停机

31.13.97.117
31.13.97.116
31.13.97.113
31.13.97.115
31.13.97.112
31.13.97.118
31.13.97.114
31.13.97.119

首先：它不考虑任何 Robots.txt 规则......所以不能使用 Crawler-Delay。第二：使用iptables（linux防火墙）停止爬取过程会导致Facebook社交插件的OpenGraph读取、点赞、分享和cmets出现问题。

请问如何阻止这种爬行或通过保持社交插件正常工作来控制它们..？

我看到了这个解决方案：excessive traffic from facebookexternalhit bot

但是解决方案可以是 Apache Webserver 还是服务器端？

感谢和问候

【问题讨论】：

标签： mysql facebook apache web-crawler

【解决方案1】：

我决定作为快速解决方案使用 IPtables（防火墙）对这个范围的 IPS 进行速率或连接限制所以避免任何编程节流方式。

现在每 60 秒只能进行 10 次连接，这仍在测试中。

我的 IPtables 规则完全正确：

iptables -I INPUT -p tcp --dport 80 -i eth0 -m iprange --src-range 31.13.64.1-31.13.127.255 -m state --state NEW -m recent --set

iptables -I INPUT -p tcp --dport 80 -i eth0 -m iprange --src-range 31.13.64.1-31.13.127.255 -m state --state NEW -m recent --update --seconds 60 --hitcount 2 -j DROP

请注意；它必须根据您的情况进行调整，并根据您的评分...

因为它们会影响分享、点赞、评论等大多数 Facebook 插件。

【讨论】：