【问题标题】:How does Stack overflow make their questions visible to search engines堆栈溢出如何使他们的问题对搜索引擎可见
【发布时间】:2014-03-10 19:17:46
【问题描述】:

搜索引擎如何抓取在 stackoverflow 或 quora 或任何其他论坛中发布的问题,并将其显示在 search 结果中。希望链接有效

这可能类似于 Facebook 在搜索引擎中的 user profile visibility

这些网站是否会定期更新其站点地图?

用例:尝试建立一个本地事件收集网站。用户动态发布的事件应该对搜索引擎可见,以便抓取并出现在搜索结果中。

一些好的和有效的参考来理解这种用例的站点地图的概念会很有帮助。

【问题讨论】:

  • 问答开放给搜索引擎抓取。无需站点地图。
  • @Oded 对搜索引擎开放意味着什么?如果我访问 stackoverflow.com,我将能够看到该站点的主页。爬虫如何知道 ex 问题的 url。我现在问的问题存在吗?
  • 它会抓取所有链接。 “问题”选项卡是一个链接。爬虫紧随其后,然后是“最新”标签(也是一个链接)等...较大的引擎具有启发式方法,可以告诉他们哪些页面最常更改,因此需要更频繁地进行爬网。
  • @Oded 我可以理解您的观点,但是在主页中没有指向问题的链接的情况下,它如何工作?他们只是因为外部链接吗?
  • 我不知道法定人数。但他们可能有一些隐藏链接,或指向带有问题链接的页面的站点地图。

标签: search-engine web-crawler


【解决方案1】:

基本搜索引擎优化,

漂亮的网址 (/questions/32728/slug)、格式良好的 HTML 以及易于解析的标题和规范信息的组合允许谷歌和其他搜索引擎通过以下链接抓取尽可能多的网站角落.

Google 本身不会实时执行任何操作,任何搜索引擎也不会。谷歌定期发送他们的抓取机器人来收集有关网站的新信息或更新信息,如果网站所有者连接网站管理员工具(在这种情况下来自谷歌),这也是让您的网站连接到谷歌网站管理员工具的地方也有助于提高可见性和可用性对于他们的网站,他们不仅打开了报告功能的闸门,而且还为 googlebot 提供了更高的抓取优先级。网站管理员工具内部是选项和设置,可帮助 googlebot 了解在哪里可以找到内容以及如何在结果中显示列表,以及如何解析这些列表中的链接。

定期,我的意思是几天,一周,有时甚至一个月。如果你现在发布一个问题,它不会轻易出现在谷歌上大约一周。 google 还根据查询本身的内容与页面内容提高了显示的链接的优先级(标题和正文内容一起有意义对 google 来说是最重要的,元键和描述现在是第三和较低的优先级。例如,你不能有标题写着“如何制作美食”并包含有关 PHP 配置的内容)。此外,如果您已登录,Google 将根据您的搜索历史记录优先结果,如果您未登录,也会根据该 IP 地址的搜索历史记录优先结果

站点地图对于难以从首页抓取的网站也很有帮助。请注意 Facebook 如何要求您先登录。 Googlebot 没有帐户,也没有填写任何内容以到达任何地方。站点地图允许 googlebot 找出在网站上的哪个位置开始抓取。否则 facebook 将只有 1 个可见结果。

要查看网站在可搜索页面方面的表现如何,请将“site:”放在 google 的网址前面,您将看到 google 提供的关于该网站的所有可用结果(它会提供估计的如果结果很多,则结果的数量)

网站:www.google.com 和 网站:google.com

www 的可见性和/或要求。也是一个重要的区别。

【讨论】:

  • 实际上,我记得 Jeff Atwood 的一篇博文说他们的站点地图列出了每个问题的 URL……不确定这是否仍然正确。
  • 我非常肯定站点地图存在读取限制。它非常庞大,对于 80% 的网站来说已经绰绰有余了哈哈 这就是说,我注意到我的一个问题在我发布它几秒钟后立即出现在谷歌上。显然,这里的原因是 StackExchange 是谷歌幸运选择的网站之一,谷歌在其中 ping 某种实时 RSS 提要,允许实时结果。这是一个非常漂亮但很像“网站链接”的功能,谷歌必须自己手动选择你
猜你喜欢
  • 1970-01-01
  • 2010-10-15
  • 2011-01-10
  • 2010-11-15
  • 1970-01-01
  • 2020-06-19
  • 2017-05-02
  • 1970-01-01
  • 2010-12-17
相关资源
最近更新 更多