【发布时间】:2018-07-09 10:02:37
【问题描述】:
似乎有些机器人没有遵循我的 robots.txt 文件,包括来自 majestic.com 的 MJ12bot,应该遵循说明。
文件如下所示:
User-agent: google
User-agent: googlebot
Disallow: /results/
Crawl-Delay: 30
User-agent: *
Disallow: /results/
Disallow: /travel/
Disallow: /viajar/
Disallow: /reisen/
Crawl-Delay: 30
我想告诉机器人的是:
- 只有 google 可以抓取任何包含
/travel/、/viajar/或/reisen/的网址。 - 他们都不应该访问任何包含
/results/的网址。 - 2 次查询之间的时间跨度应至少为 30 秒。
但是,无论如何,MJ12bot 正在抓取包含/travel/、/viajar/ 或/reisen/ 的网址,此外,它不会在两次查询之间等待 30 秒。
mydomain.com/robots.txt 正在按预期显示文件。
文件有什么问题吗?
【问题讨论】:
标签: bots robots.txt