【发布时间】:2012-03-19 16:27:59
【问题描述】:
每隔一个半小时我就会收到来自http://www.facebook.com/externalhit_uatext.php 的大量请求。
我知道这些请求应该是什么意思,但这种行为很奇怪。
定期(大约每 1.5 小时),我每分钟收到十几个这样的请求到我网站的非常旧的帖子 - 这让我很头疼,因为它们没有被缓存......
有谁知道这可能是什么? facebook 在什么情况下会这样做?
狮子座,
日志样本:
66.220.158.251, 200.147.35.64 (5715) - - [19/Mar/2012:09:44:40 -0300] "GET /2009/10/catraca-ensina-como-fazer-um-bom-negocio-no-sebo/ HTTP/1.0" 200 23538 "-" "facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)"
69.171.229.251, 200.147.96.73 (590684) - - [19/Mar/2012:09:45:08 -0300] "GET /2012/02/ganhador-da-promocao-comece-2012-discotecando/ HTTP/1.0" 200 22716 "-" "facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)"
69.171.242.248, 200.147.35.65 (661588) - - [19/Mar/2012:09:45:28 -0300] "GET /2012/01/elza-soares-e-trio-no-palco-do-auditorio-ibirapuera/ HTTP/1.0" 200 24699 "-" "facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)"
66.220.149.248, 200.147.35.65 (5367) - - [19/Mar/2012:09:45:43 -0300] "GET /2011/03/projeto-coisa-fina-leva-musica-instrumental-ao-ccsp/ HTTP/1.0" 200 22555 "-" "facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)"
【问题讨论】:
-
如果您按照您提供的 URL,他们说这与用户发布您的文章的链接和 Facebook 出去获取有关它们的信息有关。如果我必须打赌,我会说有人发布了指向您内容的链接,而 Facebook 正在定期检查以确保信息仍然存在。
-
我显然关注了链接,正如我所说,我知道这是关于什么的。我的问题是为什么 facebook 会定期同时做几十个请求。 - 你的猜测是有效的。但我还不相信
-
扩展之前的评论,如果多个人发布链接,Facebook 可能缺乏统一的链接管理器来协调这些调用,因此他们会为每个发布的链接发送一个。
-
1 年后:我们有一个大型网站受到这些攻击,并且(看起来)它们都在一次洪水中涌入——我们收到了数以千计的请求秒 - 没有节流或任何东西。 Facebook,你为什么是?
-
我也有这个问题,对于不再活动的页面,我的服务器返回错误 404。但即使在 404 错误之后,facebook 仍然试图逐秒获取,几十个相同网址!
标签: facebook web-crawler