【问题标题】:why facebook is flooding my site?为什么脸书充斥着我的网站?
【发布时间】:2012-03-19 16:27:59
【问题描述】:

每隔一个半小时我就会收到来自http://www.facebook.com/externalhit_uatext.php 的大量请求。

我知道这些请求应该是什么意思,但这种行为很奇怪。

定期(大约每 1.5 小时),我每分钟收到十几个这样的请求到我网站的非常旧的帖子 - 这让我很头疼,因为它们没有被缓存......

有谁知道这可能是什么? facebook 在什么情况下会这样做?

狮子座,

日志样本:

66.220.158.251, 200.147.35.64 (5715) - - [19/Mar/2012:09:44:40 -0300] "GET /2009/10/catraca-ensina-como-fazer-um-bom-negocio-no-sebo/ HTTP/1.0" 200 23538 "-" "facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)"
69.171.229.251, 200.147.96.73 (590684) - - [19/Mar/2012:09:45:08 -0300] "GET /2012/02/ganhador-da-promocao-comece-2012-discotecando/ HTTP/1.0" 200 22716 "-" "facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)"
69.171.242.248, 200.147.35.65 (661588) - - [19/Mar/2012:09:45:28 -0300] "GET /2012/01/elza-soares-e-trio-no-palco-do-auditorio-ibirapuera/ HTTP/1.0" 200 24699 "-" "facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)"
66.220.149.248, 200.147.35.65 (5367) - - [19/Mar/2012:09:45:43 -0300] "GET /2011/03/projeto-coisa-fina-leva-musica-instrumental-ao-ccsp/ HTTP/1.0" 200 22555 "-" "facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)"

【问题讨论】:

  • 如果您按照您提供的 URL,他们说这与用户发布您的文章的链接和 Facebook 出去获取有关它们的信息有关。如果我必须打赌,我会说有人发布了指向您内容的链接,而 Facebook 正在定期检查以确保信息仍然存在。
  • 我显然关注了链接,正如我所说,我知道这是关于什么的。我的问题是为什么 facebook 会定期同时做几十个请求。 - 你的猜测是有效的。但我还不相信
  • 扩展之前的评论,如果多个人发布链接,Facebook 可能缺乏统一的链接管理器来协调这些调用,因此他们会为每个发布的链接发送一个。
  • 1 年后:我们有一个大型网站受到这些攻击,并且(看起来)它们都在一次洪水中涌入——我们收到了数以千计的请求秒 - 没有节流或任何东西。 Facebook,你为什么是?
  • 我也有这个问题,对于不再活动的页面,我的服务器返回错误 404。但即使在 404 错误之后,facebook 仍然试图逐秒获取,几十个相同网址!

标签: facebook web-crawler


【解决方案1】:

Facebook Linter 将定期访问您的页面以更新 OpenGraph 数据,这不是您可以控制的,但您应该考虑以下几点:

  • 为您的页面设置正确和适当的缓存/ETag。
  • 缓存数据(至少对于匿名用户,Facebook bot 应该是这种情况)。

【讨论】:

  • 我也遇到了同样的问题,现在我的网站上没有开放图形功能。但它更早存在。我们已经删除了开放图的所有实例。共享功能是否也会导致这些错误日志????
  • @RanbirSingh,当然。如果不访问和检查,根本不可能知道您的页面没有 Open Graph 元数据,一旦 URL 被共享 linter 访问它以进行报废,即使您没有 Open Graph 标签,也可能会使用您的一些数据共享帖子中的页面
猜你喜欢
  • 1970-01-01
  • 2015-11-23
  • 1970-01-01
  • 1970-01-01
  • 2014-09-06
  • 2016-10-30
  • 2011-01-08
  • 1970-01-01
  • 2015-10-23
相关资源
最近更新 更多