【发布时间】:2010-08-20 19:41:34
【问题描述】:
许多蜘蛛/爬虫访问我们的新闻网站。我们依靠 GeoIP 服务来识别访问者的物理位置并为他们提供相关内容。所以我们开发了一个带有module_init()功能的模块,它可以向MaxMind发送IP并设置带有位置信息的cookies。为了避免每次页面浏览都发送请求,我们首先检查是否设置了cookie,如果没有,我们发送信息并设置cookie。这适用于普通客户,但当蜘蛛爬过网站时效果不佳。每个页面浏览都会提示对 MaxMind 的查询,并且此活动变得有些昂贵。我们正在寻找一种解决方案来识别爬虫,或者如果更简单的话,是启用 cookie 的合法浏览器,并仅在有用时查询 MaxMind。
【问题讨论】:
标签: php drupal cookies web-crawler