【发布时间】:2010-04-12 18:18:57
【问题描述】:
网络爬虫(来自搜索引擎和非搜索引擎)会通过哪些方式影响网站统计信息(例如,在对不同页面变体进行 AB 测试时)?有什么方法可以解决这些问题?
例如:
是否有很多编写网络爬虫的人经常删除他们的 cookie 并掩盖他们的 IP,这样网络爬虫在每次爬取网站时经常显示为不同的用户?
使用什么启发式方法来识别某物是机器人? (我猜任何足够复杂的机器人都无法与真实用户区分开来,如果它愿意的话——这是正确的吗?)
根据以下评论澄清一下:我也对我的网站被专门针对(可能是非法爬虫)的情况感兴趣。
【问题讨论】:
-
除非您是特定目标,否则大容量网络爬虫不会试图隐藏自己的身份。他们几乎都是像搜索引擎一样的白帽爬虫。因此,通常只需要查看用户代理即可。
标签: web-crawler