【发布时间】:2023-03-31 15:11:02
【问题描述】:
有人可以告诉我如何编写 robots.txt 文件。我需要禁止目录的所有页面,但我需要允许访问所有相关子目录。 你一定知道我不知道页面和子目录的名字……它们是自动创建的。
例如:
禁止:/dir1/dir2/all-pages.html
允许:/dir1/dir2/all-subdirectories/
(对不起我的英语)
【问题讨论】:
有人可以告诉我如何编写 robots.txt 文件。我需要禁止目录的所有页面,但我需要允许访问所有相关子目录。 你一定知道我不知道页面和子目录的名字……它们是自动创建的。
例如:
禁止:/dir1/dir2/all-pages.html
允许:/dir1/dir2/all-subdirectories/
(对不起我的英语)
【问题讨论】:
应该这样做:
Allow: /dir1/dir2/*/
Disallow: /dir1/dir2/
这应该适用于 Google 和 Bing。它是否适用于其他爬虫是一个悬而未决的问题,因为 Allow 和 Disallow 如何协同工作没有通用标准。但是将Allow 放在首位会给你它工作的最佳机会,因为许多爬虫使用“第一个匹配规则”。所以他们会看到Allow 并继续。
【讨论】: