【问题标题】:Is it possible to detect crawler besides user agent?除了用户代理之外,是否可以检测爬虫?
【发布时间】:2014-05-02 00:45:40
【问题描述】:

以下场景:

某种爬虫声称他使用 Firefox,例如

Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:25.0) Gecko/20100101 Firefox/29.0

我是否能够检测到此用户使用浏览器?

我为什么要这样做

我在我的 apache 日志中发现了一个行为奇怪的用户,但我不想禁止他,除非我知道这是一个爬虫

【问题讨论】:

  • 一些爬虫为搜索引擎提供信息。搜索引擎带来访问者。
  • @Paul 我不认为 serchengine 爬虫声称是 firefox
  • Possible duplicate,或至少相关

标签: apache web-crawler


【解决方案1】:

一些爬虫旨在模仿基于 UI 的普通用户代理,因此没有真正好的方法来规避这种情况。您可以实施各种黑客攻击来规避爬虫。通常是基于 javascript 的东西。

正如相关链接所示,隐身爬虫会尝试隐身并伪装成真实的用户界面。因此,即使你使用了 Javascript hack,一个好的爬虫也可以嵌入一些 Javascript 引擎来正确解析链接。这是一场持续不断的猫捉老鼠游戏。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2014-09-14
    • 2016-01-08
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多