【发布时间】:2014-02-09 21:06:18
【问题描述】:
我想排除我的用户文件夹被搜索蜘蛛抓取。
结构如下。用户帐户在
www.mydomain.com/username
问题是我不能在 robots.txt 的不允许部分中排除“/”,因为还有其他文件夹,例如
www.mydomain.com/legal
www.mydomain.com/privacy
还有一些用户可以生成的项目应该是可抓取的。他们在
www.mydomain.com/username/items/itemId
我必须如何为该场景设置我的 robots txt?
【问题讨论】:
标签: html web-crawler backend robots.txt google-search