【发布时间】:2014-03-10 19:17:46
【问题描述】:
搜索引擎如何抓取在 stackoverflow 或 quora 或任何其他论坛中发布的问题,并将其显示在 search 结果中。希望链接有效
这可能类似于 Facebook 在搜索引擎中的 user profile visibility。
这些网站是否会定期更新其站点地图?
用例:尝试建立一个本地事件收集网站。用户动态发布的事件应该对搜索引擎可见,以便抓取并出现在搜索结果中。
一些好的和有效的参考来理解这种用例的站点地图的概念会很有帮助。
【问题讨论】:
-
问答开放给搜索引擎抓取。无需站点地图。
-
@Oded 对搜索引擎开放意味着什么?如果我访问 stackoverflow.com,我将能够看到该站点的主页。爬虫如何知道 ex 问题的 url。我现在问的问题存在吗?
-
它会抓取所有链接。 “问题”选项卡是一个链接。爬虫紧随其后,然后是“最新”标签(也是一个链接)等...较大的引擎具有启发式方法,可以告诉他们哪些页面最常更改,因此需要更频繁地进行爬网。
-
@Oded 我可以理解您的观点,但是在主页中没有指向问题的链接的情况下,它如何工作?他们只是因为外部链接吗?
-
我不知道法定人数。但他们可能有一些隐藏链接,或指向带有问题链接的页面的站点地图。