【问题标题】:How do web crawlers affect site statistics?网络爬虫如何影响网站统计?
【发布时间】:2010-04-12 18:18:57
【问题描述】:

网络爬虫(来自搜索引擎和非搜索引擎)会通过哪些方式影响网站统计信息(例如,在对不同页面变体进行 AB 测试时)?有什么方法可以解决这些问题?

例如:

  1. 是否有很多编写网络爬虫的人经常删除他们的 cookie 并掩盖他们的 IP,这样网络爬虫在每次爬取网站时经常显示为不同的用户?

  2. 使用什么启发式方法来识别某物是机器人? (我猜任何足够复杂的机器人都无法与真实用户区分开来,如果它愿意的话——这是正确的吗?)

根据以下评论澄清一下:我也对我的网站被专门针对(可能是非法爬虫)的情况感兴趣。

【问题讨论】:

  • 除非您是特定目标,否则大容量网络爬虫不会试图隐藏自己的身份。他们几乎都是像搜索引擎一样的白帽爬虫。因此,通常只需要查看用户代理即可。

标签: web-crawler


【解决方案1】:

检测机器人的几种简单方法:

  1. 点击/robots.txt - 只有机器人(以及极客,可能几乎是机器人)才会看到这个。
  2. 用户代理 - 负责任的机器人通常在其 UA 字符串中包含一个 URL(例如,msnbot/2.0b (+http://search.msn.com/msnbot.htmMozilla/5.0 (X11; U; Linux i686; en-US; rv:1.2.1; aggregator:Spinn3r (Spinn3r 3.1); http://spinn3r.com/robot) Gecko/20021130),因此看到这是一个相当强烈的机器人指示。
  3. JavaScript - 机器人不会执行它,因此如果您使用 JavaScript 设置 cookie,当您在服务器上看到该 cookie 时,您可以确定它是由“真正的”浏览器发送的。
  4. 源 IP - 合法爬虫通常有自己的域,反向 DNS 查找会显示这些域(Google suggests that you identify the Googlebot 就是这样)。

在这些之间,您应该可以毫不费力地确定哪些点击来自机器人,哪些来自真人。

最后,总会有难以察觉的讨厌和/或愚蠢的机器人。但是,至少根据我的经验,野外并没有太多很多。

【讨论】:

  • 程序员有时也会查看 robots.txt。 :)
【解决方案2】:

抓取工具通常按顺序抓取 - 例如,您页面上的第一个链接,然后是第二个链接。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2014-07-31
    • 1970-01-01
    • 1970-01-01
    • 2011-08-15
    • 2019-10-26
    相关资源
    最近更新 更多