【问题标题】:How to keep HTTrack Crawlers away from my website through robots.txt?如何通过 robots.txt 让 HTTrack Crawlers 远离我的网站?
【发布时间】:2012-11-08 07:37:37
【问题描述】:

我正在维护网站 http://www.totalworkflow.co.uk,但不确定 HTTrack 是否遵循 robots.txt 文件中的说明。如果有任何答案可以让我们让 HTTrack 远离网站,请建议我使用它来实现,或者只告诉机器人名称,这样我就可以阻止这些垃圾爬取我的网站。如果 robots.txt 无法做到这一点,请推荐是否有其他方法可以让该机器人远离网站?


您说得对,垃圾邮件抓取工具没有必要遵循 robots.txt 文件中给出的指南。我知道 robots.txt 仅适用于正版搜索引擎。但是,如果开发人员对该应用程序进行硬编码以不跳过 robots.txt 指南(如果提供),则应用程序 HTTrack 可能看起来是真实的。如果提供了此选项,那么该应用程序对于预期目的将非常有用。好的,让我们来看看我的问题,实际上我想找到的解决方案是让 HTTrack 爬虫远离 Web 服务器上的任何硬编码。我尝试首先在网站管理员级别解决这个问题。但是,您的想法非常适合将来考虑。谢谢

【问题讨论】:

    标签: robots.txt web-crawler


    【解决方案1】:

    它应该遵守 robots.txt,但 robots.txt 是您不必遵守的东西(实际上,找到您不希望其他人看到的垃圾邮件机器人是一件非常好的事情)所以什么是保证(即使它现在服从机器人)在未来某个时候不会有忽略所有 robots.txt 和元标记的选项?我认为更好的方法是配置您的服务器端应用程序以检测和阻止用户代理。用户代理字符串有可能在爬虫的源代码中某处被硬编码,用户将无法更改它以阻止您阻止该爬虫。您所要做的就是编写一个服务器脚本来吐出用户代理信息(或检查服务器日志),然后根据这些信息创建阻止规则。或者,您可以只搜索已知“不良代理”的列表。要在支持 HTACCESS 的服务器上阻止用户代理,请查看此线程以了解一种方法:

    Block by useragent or empty referer

    【讨论】:

    • 在 HTTrack 中,用户代理可以手动选择或手动修改,在选项下,您可以选择忽略 robots.txt。底线是,就像你说的那样,你不能阻止爬虫爬取你的网站,除非你想禁止 IP 范围或使用其他方法主动拒绝连接(robots.txt 是自愿的)。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2017-10-07
    • 2015-09-16
    • 1970-01-01
    • 1970-01-01
    • 2012-05-14
    • 1970-01-01
    相关资源
    最近更新 更多