【发布时间】:2011-12-19 22:09:40
【问题描述】:
我已经构建了一个网络爬虫,它应该每晚抓取我的客户网站。我不希望我的请求出现在他们的 Google 分析中,那么如何自动确保这一点?
据我所知,我通过用户代理表明请求来自爬虫。那么我应该使用哪个用户代理字符串来让分析默认过滤掉我的请求(这样客户就不需要从他们的报告中过滤掉请求)
【问题讨论】:
标签: java search-engine web-crawler
我已经构建了一个网络爬虫,它应该每晚抓取我的客户网站。我不希望我的请求出现在他们的 Google 分析中,那么如何自动确保这一点?
据我所知,我通过用户代理表明请求来自爬虫。那么我应该使用哪个用户代理字符串来让分析默认过滤掉我的请求(这样客户就不需要从他们的报告中过滤掉请求)
【问题讨论】:
标签: java search-engine web-crawler
Google Analytics 是一种客户端工具。因此,如果您的抓取操作是服务器端的常见操作,那么无论您为用户代理设置什么,它都无法报告您的请求。
【讨论】: