【问题标题】:What are the benefits of having an updated sitemap.xml?更新 sitemap.xml 有什么好处?
【发布时间】:2009-08-28 17:22:43
【问题描述】:
以下文字来自 sitemaps.org。与爬虫完成工作相比,这样做有什么好处?
站点地图是一种简单的方法
网站管理员通知搜索引擎
关于他们网站上的页面
可用于爬行。在其
最简单的形式,站点地图是 XML
列出站点 URL 的文件
带有关于每个的附加元数据
URL(上次更新时,如何
通常它通常会改变,以及如何
重要的是,相对于其他
网站中的 URL),以便搜索
引擎可以更智能地爬行
网站。
编辑 1:我希望获得足够的好处,以便我可以证明该功能的开发是合理的。目前我们的系统并没有动态提供站点地图,所以我们必须使用爬虫创建一个,这不是一个很好的过程。
【问题讨论】:
标签:
web
sitemap
web-crawler
【解决方案1】:
爬虫也很“懒惰”,所以如果你给他们一个包含你所有网站 URL 的站点地图,他们更有可能索引你网站上的更多页面。
它们还使您能够确定页面的优先级,以便抓取工具了解它们的更改频率、哪些更重要以保持更新等,这样他们就不会浪费时间抓取未更改或丢失的页面那些做的,或者索引你不太关心的页面(和你做的丢失的页面)。
还有很多在线automatedtools,您可以使用它们来抓取整个站点并生成站点地图。如果您的网站不是太大(少于几千个网址),它们会很好用。
【解决方案2】:
好吧,就像那段说的那样,站点地图还提供有关给定网址的元数据,爬虫可能无法纯粹通过爬取来推断。站点地图充当爬虫的目录,以便它可以优先考虑内容并索引重要的内容。
【解决方案3】:
站点地图有助于告诉抓取工具哪些页面更重要,以及它们的更新频率。这是仅通过扫描页面本身无法找到的信息。
抓取工具对您网站扫描的页面数量以及它们跟踪链接的深度有限制。如果您有很多相关性较低的页面,同一页面有很多不同的 URL,或者需要许多步骤才能到达的页面,则爬虫将在到达最有趣的页面之前停止。站点地图提供了一种替代方法,可以轻松找到最有趣的页面,而无需点击链接并整理出重复页面。