【问题标题】:Facebook's Open Graph scraper slow to fetch og:image?Facebook 的 Open Graph 抓取器获取 og:image 的速度很慢?
【发布时间】:2015-04-19 19:11:19
【问题描述】:

上下文

我正在通过 https 运行一个站点,用户可以在其中创建和共享新内容(每个条目都有自己的页面)。

每个页面都有一张图片,并且此图片网址出现在页面顶部的og:image 元标记中。

问题

Facebook 似乎对og:image 反应迟缓。当第一次创建页面并且用户尝试共享 URL 时,在前 ~1-3 次尝试中,og:image 不会被 Facebook 抓取/呈现(标题和描述是)。之后,图像在共享对话框中清晰可见。

在使用 Facebook 的 OG URL 调试工具时也会出现类似的问题。我第一次弹出 URL 时,它没有显示任何图像。如果我选择再次从源中获取页面,它会显示图像。

附加说明

起初,我认为可能是网站代码最初没有显示图像,但我发送了一个 curl 请求并欺骗了 Facebook 的用户代理字符串之一(这对于访问页面很重要),生成的 HTML 包含 @带有正确图像 URL 的 987654324@ 标记。我也知道这与访问页面无关,否则不会显示 og:titleog:description 数据(但确实如此)。

我唯一的线索是它可能是 SSL 或 HTTPS 问题。我最近设置了 SSL 证书,但我不确定为什么这会导致延迟,因为它根本无法工作。

为清楚起见,该网站在标准 LAMP 堆栈之上的 WordPress 上运行。

【问题讨论】:

  • Facebook 有自己的缓存/抓取页面规则。 AFIK 这些规则是不公开的。我知道使用调试器访问对象会强制刷新 FB 缓存。不确定是否可以在创建对象时在后端实现某些东西以强制刷新而不会违反 FB TOS。

标签: php wordpress ssl facebook-opengraph


【解决方案1】:

在我的情况下,我有一个没有安装 SSL 证书的 HTTPS 设置的天蓝色 WebApp。由于它处于生产阶段,我通过恢复到 HTTP 进行了测试。检测到所有“og”标签。 因此,如果您的 SSL 配置不正确和/或 Facebook 给出 CURL SSL 错误,那么查看 SSL 可能会有所帮助。

【讨论】:

    【解决方案2】:

    一年前我一直在分析这个问题。我有同样的问题。 og:image 元标记仅在几次重新抓取尝试后才更新。 在这个页面https://developers.facebook.com/tools/debug/可以很容易地触发这个重新刮

    根据我以前的分析,这个行为的根本原因是FB爬虫似乎有一个非常非常短的超时。如果内容页面没有很快回复爬虫请求,FB 不会考虑这个回复。即使内容页面提供正确的元数据和有效的 HTTP/200 回复,FB 也会忽略它,因为“为时已晚”。

    除了 Sean 已经描述的“prescraping”之外,我没有找到任何解决方案。

    【讨论】:

      【解决方案3】:

      是的,我也注意到了这一点。 Facebook 缓存 og:image 需要很长时间。 Tumblr 会自动执行此操作。除了糟糕的编程之外,我能想象 Facebook 为什么会这样做的唯一原因是,也许他们有一个审查团队滚动浏览缩略图以阻止裸露和其他粗略图像。如上所述,在创建时手动单击 facebook 共享 url 会提示他们将其缓存,希望在其他人也单击之前。

      【讨论】:

        【解决方案4】:

        这个问题显然是一个相当普遍的问题。解决方案是,在创建内容时,使用内容的 URL 向 facebook 的抓取工具发送请求。刮板将拾取并处理图像,允许第一个共享已经拥有 Facebook 缓存的图像。

        【讨论】:

        • 你能举个例子,把图片请求到 facebook 刮板工具吗?
        • 抱歉@valentin,这是几年前的事了,我不再使用 Facebook(因此无法访问 URL)。 AFAIK 这曾经是一项公共服务,因此您无需任何身份验证即可执行此操作。本质上,您将输入一个 URL,该工具将收集并显示 OG 元数据,将预览图像缓存为副产品。我不再确定这是一种受支持的方法来执行此操作。
        猜你喜欢
        • 1970-01-01
        • 1970-01-01
        • 2015-08-29
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2013-06-22
        相关资源
        最近更新 更多