网络爬虫如何影响网站统计？答案

【问题标题】：How do web crawlers affect site statistics?网络爬虫如何影响网站统计？
【发布时间】：2010-04-12 18:18:57
【问题描述】：

网络爬虫（来自搜索引擎和非搜索引擎）会通过哪些方式影响网站统计信息（例如，在对不同页面变体进行 AB 测试时）？有什么方法可以解决这些问题？

例如：

根据以下评论澄清一下：我也对我的网站被专门针对（可能是非法爬虫）的情况感兴趣。

【问题讨论】：

【解决方案1】：

检测机器人的几种简单方法：

点击/robots.txt - 只有机器人（以及极客，可能几乎是机器人）才会看到这个。
用户代理 - 负责任的机器人通常在其 UA 字符串中包含一个 URL（例如，msnbot/2.0b (+http://search.msn.com/msnbot.htm 或 Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.2.1; aggregator:Spinn3r (Spinn3r 3.1); http://spinn3r.com/robot) Gecko/20021130），因此看到这是一个相当强烈的机器人指示。
JavaScript - 机器人不会执行它，因此如果您使用 JavaScript 设置 cookie，当您在服务器上看到该 cookie 时，您可以确定它是由“真正的”浏览器发送的。
源 IP - 合法爬虫通常有自己的域，反向 DNS 查找会显示这些域（Google suggests that you identify the Googlebot 就是这样）。

在这些之间，您应该可以毫不费力地确定哪些点击来自机器人，哪些来自真人。

最后，总会有难以察觉的讨厌和/或愚蠢的机器人。但是，至少根据我的经验，野外并没有太多很多。

【讨论】：

【解决方案2】：

抓取工具通常按顺序抓取 - 例如，您页面上的第一个链接，然后是第二个链接。

【讨论】：