【问题标题】:Facebook isn't crawling my site [closed]Facebook没有抓取我的网站[关闭]
【发布时间】:2012-01-31 02:05:59
【问题描述】:

当我将我的网站链接发布到 facebook 时,它现在显示缩略图并显示我的旧网站的标题。我刚刚向我的网站添加了 opengraph 代码,但这无济于事。当我在 facebook 调试中检查我的网站时,它显示响应代码:403。我想这意味着我的网站正在阻止 facebook 机器人,但我不明白这怎么可能。从最近开始一切正常。如果是这种情况,你能告诉我如何解锁它...

http://developers.facebook.com/tools/debug/og/object?q=http%3A%2F%2Fracunovodstvo.com.ba

【问题讨论】:

  • 联系您的托管服务提供商
  • 我已经联系了他们,他们说服务器上一切正常:S
  • 当您使用开放图形调试器时,您是否在 Facebook 的日志中看到任何请求已完成?
  • 是的,我可以在用户代理日志中看到,facebook 代理 facebookexternalhit/1.1 处于活动状态...
  • 来自日志,66.220.147.246 - - [31/​​Dec/2011:15:23:58 +0100] "GET / HTTP/1.1" 403 4244 "-" "facebookexternalhit/1.1 (+ facebook.com/externalhit_uatext.php)"

标签: facebook user-agent bots web-crawler


【解决方案1】:

我做了一些挖掘,发现 Facebook 实际上得到了 403 响应。这是我所做的:

$ nc -l -p 8000 > fbbot-request
listening on [any] 8000 ...

http://mydebughost:8000 上运行调试器,我得到:

connect to [78.108.54.9] from out-fc245.tfbnw.net [66.220.153.245] 48731
$ cat fbbot-request 
GET / HTTP/1.1
User-Agent: facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)
Host: mydebughost:8000
Accept: */*
Accept-Encoding: deflate, gzip
Range: bytes=0-40960
Connection: close

现在将 Host 标头更改为 racunovodstvo.com.ba 并执行请求:

$ cat fbbot-request | nc racunovodstvo.com.ba 80 | head
HTTP/1.1 403 Forbidden
Date: Sat, 31 Dec 2011 14:29:48 GMT
Server: Apache
Last-Modified: Mon, 02 May 2011 07:52:14 GMT
ETag: "444007-1094-4dbe62ae"
Accept-Ranges: bytes
Content-Length: 4244
Connection: close
Content-Type: text/html

在网络服务器被Range: bytes=0-40960 标头弄糊涂时,经过更多的挖掘后,它接缝了。

【讨论】:

  • 非常感谢您的回复。你知道我能做些什么来解决这个问题。这困扰了我两天,仍然没有..
  • 接缝很奇怪,如果这是 Apache 的问题,我猜是 php 等出了问题。
  • 网站在 wordpress 中,我停用了所有插件,因为我读到这可能是个问题,但没有 )=
  • 即使对于像图像这样的静态文件也会发生接缝,也许您的托管公司中的一些人已经将 Apache 配置得有点紧?不久前有一个Apache security problem involving the range header
  • 我又给他们打了电话,他们说一切正常。我也认为这是apache的事情。所以我将不得不改变主机。可以看到其他任何东西来解决这个问题。感谢队友的努力
猜你喜欢
  • 2017-02-13
  • 2015-12-12
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2013-09-16
  • 2014-06-03
相关资源
最近更新 更多