【问题标题】:using wget or curl to test website's .htaccess + robots.txt使用 wget 或 curl 测试网站的 .htaccess + robots.txt
【发布时间】:2017-08-27 23:55:26
【问题描述】:

我正在尝试调试我网站的 .htaccess + robots.txt,我想使用 cURL 或 wget 尝试访问我使用 robots.txt 阻止的文件或应通过 .htaccess 重定向到另一个位置的页面

我的 robots.txt 中有以下内容

User-agent: *
Disallow: /wp/wp-admin/

但是,我仍然可以抓取它

wget

$ wget http://xxxx.com/wp/wp-admin/
SYSTEM_WGETRC = c:/progra~1/wget/etc/wgetrc
syswgetrc = C:\Program Files (x86)\GnuWin32/etc/wgetrc
--2017-08-28 07:37:05--  http://xxxx.com/wp/wp-admin/
Resolving xxxx.com... 118.127.47.249
Connecting to xxxx.com|118.127.47.249|:80... connected.
HTTP request sent, awaiting response... 302 Found
Location: http://xxxx.com/wp/wp-login.php?redirect_to=http%3A%2F%2Fxxxx.com%2Fwp%2Fwp-
admin%2F&reauth=1 [following]
--2017-08-28 07:37:12--  http://xxxx.com/wp/wp-login.php?redirect_to=http%3A%2F%2Fxxxx.com%2Fwp%2Fwp-admin%2F&reauth=1
Connecting to xxxx.com|118.127.47.249|:80... connected.
HTTP request sent, awaiting response... 200 OK
Length: 2891 (2.8K) [text/html]
Saving to: `wp-login.php@redirect_to=http%3A%2F%2Fxxxx.com%2Fwp%2Fwp-admin%2F&reauth=1'

100%[==============================================================================>] 2,891       --.-K/s   in 0.1s

2017-08-28 07:37:17 (22.2 KB/s) - `wp-login.php@redirect_to=http%3A%2F%2Fxxxx.com%2Fwp%2Fwp-admin%2F&re
auth=1' saved [2891/2891]

卷曲

$ curl -L xxx.com/wp/wp-admin -o wp-admin.html
% Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                Dload  Upload   Total   Spent    Left  Speed
100  1147  100  1147    0     0    107      0  0:00:10  0:00:10 --:--:--   280
0     0    0     0    0     0      0      0 --:--:--  0:01:37 --:--:--     0
100  2891  100  2891    0     0     17      0  0:02:50  0:02:42  0:00:08   234

wget 和 curl 都不尊重 robots.txt 有没有办法检查我的 .htaccess+robots.txt 如何?谢谢!

【问题讨论】:

    标签: .htaccess curl wget robots.txt


    【解决方案1】:

    robots.txt 纯粹用于搜索引擎机器人,它被大多数用户浏览器忽略[包括 wget 和 curl],如果你想检查你的 robots.txt 是否可解析,你可以使用谷歌的网站管理员控制台中的检查器,显示您的 robots.txt 文件可能存在的任何错误和问题。

    使用 .htaccess 的重定向应该适用于任何浏览器,并且 wget 应该显示这些重定向。

    【讨论】:

    • 除了谷歌控制台还有其他工具吗,我正在尝试在我的网站中模拟一个特定的 .txt 文件,看看它们是否可以被谷歌随便抓取?
    • en.ryte.com/free-tools/robots-txt 可能会有所帮助,但您不能使用 robots.txt 隐藏您想要保密的内容,因为如果有人在寻找,那么机器人是他们首先会寻找的地方之一你试图隐藏。
    • 其实我不是想隐藏,我其实是故意想知道我网站中的.txt文件是否可以被机器人访问/爬取
    • 这取决于您要检查哪些机器人,我提供的链接适用于一些表现良好的机器人,但对于其他机器人,您需要检查 A)机器人尊重 robots.txt,和 B)什么用户代理是,如果你想阻止其他机器人
    • bzzt - Wget 将测试 robots.txt 排除。 .wgetrc 提供了大量 wget 选项,但通常不在命令行上。要打开或关闭相关选项,请使用 -e 标志,例如wget -e robots=on ...它一定不能因为其他原因而工作。首先要检查的是 wget 发送的 UserAgent 字符串,因为默认值很可能被 robots.txt 错误分类。也许您想修改 wget 使用的 UserAgent 字符串以明确包含 Googlebot/1.0。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2019-11-17
    • 2020-11-15
    • 2012-12-10
    • 2011-05-04
    • 2022-01-18
    • 1970-01-01
    • 2017-07-08
    相关资源
    最近更新 更多