在不增加页面浏览量的情况下爬网答案

【问题标题】：Crawling the web without increasing page views在不增加页面浏览量的情况下爬网
【发布时间】：2011-07-21 08:26:38
【问题描述】：

我正在开发一个类似搜索引擎的工具，该工具将在网站中爬行、收集数据、对其编制索引并使其可用于在我的应用程序中进行搜索。
我将使用Net::HTTP 或Hpricot 来抓取网站。
我正在爬取的网站是论坛，它为每个线程保留视图和回复计数。每当我浏览视图计数都会增加。

有什么办法可以避免这种情况吗？搜索引擎如何在不增加查看次数的情况下进行抓取？

【问题讨论】：

【解决方案1】：

这取决于远程站点如何增加其计数器。如果他们考虑到 User-Agent 标头，您可以利用它。如果他们的计数器通过 javascript（如 Google Analytics）递增，那么Net::HTTP 不应触发更改。

【讨论】：