【发布时间】:2011-07-21 08:26:38
【问题描述】:
我正在开发一个类似搜索引擎的工具,该工具将在网站中爬行、收集数据、对其编制索引并使其可用于在我的应用程序中进行搜索。
我将使用Net::HTTP 或Hpricot 来抓取网站。
我正在爬取的网站是论坛,它为每个线程保留视图和回复计数。每当我浏览视图计数都会增加。
有什么办法可以避免这种情况吗?搜索引擎如何在不增加查看次数的情况下进行抓取?
【问题讨论】:
我正在开发一个类似搜索引擎的工具,该工具将在网站中爬行、收集数据、对其编制索引并使其可用于在我的应用程序中进行搜索。
我将使用Net::HTTP 或Hpricot 来抓取网站。
我正在爬取的网站是论坛,它为每个线程保留视图和回复计数。每当我浏览视图计数都会增加。
有什么办法可以避免这种情况吗?搜索引擎如何在不增加查看次数的情况下进行抓取?
【问题讨论】:
这取决于远程站点如何增加其计数器。如果他们考虑到 User-Agent 标头,您可以利用它。如果他们的计数器通过 javascript(如 Google Analytics)递增,那么Net::HTTP 不应触发更改。
【讨论】: