这都会对您的 SEO 产生影响。如果您没有明确允许 robots.txt 文件中的子页面,您将拥有一个根本不被搜索引擎抓取的站点(至少服从 robots.txt 的站点)。
在robots.txt 要从搜索引擎获取任何流量,您需要将代码设置为:
User-agent: *
allow: /Parent 1/Child A
allow: /Parent 2/Child A
allow: /Parent 3/Child A
allow: /Parent 1/Child B
allow: /Parent 2/Child B
allow: /Parent 3/Child B
allow: /Parent 1/Child C
allow: /Parent 2/Child C
allow: /Parent 3/Child C
User-agent: *
Disallow: /Parent 1
Disallow: /Parent 2
Disallow: /Parent 3
网站仍会抓取页面并使用它们对页面进行排名,但它们不会对在搜索结果中设置为非索引的页面进行排名。他们将对从这些页面接收链接的任何页面进行排名。
基本上,搜索引擎必须查看每一页,以确保您不是spamdexing 或做任何违反其服务条款的事情。
您必须小心这些设置,因为根据 Google 的说法:
要在您的网站上prevent all robots from indexing a page,将以下元标记放入您页面的<head> 部分:
<meta name="robots" content="noindex">
当我们在页面上看到 noindex 元标记时,即使其他页面链接到该页面,Google 也会将该页面从我们的搜索结果中完全删除。但是,其他搜索引擎可能会以不同方式解释此指令。因此,该页面的链接仍然可以出现在他们的搜索结果中。
其他说明
基本上,搜索引擎希望向最终用户提供他们正在搜索的链接。他们通过浏览器、cookies、分析软件和其他各种东西(如插件、链接、推荐和页面中的链接)来检查用户内容的相关性。通过在他们的索引中放置一个页面,其中包含内容中的关键字,这些关键字不会将人们带到他们正在寻找的页面,如果该页面与他们的搜索不相关,您将面临访问者“反弹”的风险。如果他们反弹,那么搜索引擎(主要是谷歌)将不会认为该页面是相关的,并将降低该页面(以及随后的网站)的排名。