【发布时间】:2016-10-02 22:10:06
【问题描述】:
我在网站上有一个页面,但无法访问我的页面以外的任何内容。该网站用于销售各种小产品。 在与他们一起工作了一年多之后,在使用 google adwords 来帮助宣传自己之后,我注意到该产品的所有页面都没有在 google 上被编入索引。当我注意到该网站的 robots.txt 内容不多时,我想知道这是否与它有关。
产品网址遵循以下格式:
www.example.com/myshopname/[product ID]?q=I[product ID]
robots.txt 很简单:
Disallow: /*_escaped_fragment_
没有用户代理。我想知道这是否会对 Google 抓取我的页面产生任何影响,或者它是否会简单地忽略 robots.txt,因为没有指定用户代理。
【问题讨论】:
-
在此处获取更多详细信息:moz.com/learn/seo/robotstxt
-
@Franco 我阅读了有关机器人的文档,没有关于不完整的 robots.txt 文件。据我所知,您必须先输入用户代理,然后再输入禁止规则。我不确定如果没有给出用户代理会发生什么......机器人是否像用户代理是*一样行事,还是会因为没有给出用户代理而简单地忽略不允许规则。如果它作为用户代理是*,那么该规则将如何应用?既然 AJAX 抓取现在已被弃用,它会忽略该规则吗?
标签: web-crawler robots.txt google-crawlers