【问题标题】:Crawling the web without increasing page views在不增加页面浏览量的情况下爬网
【发布时间】:2011-07-21 08:26:38
【问题描述】:

我正在开发一个类似搜索引擎的工具,该工具将在网站中爬行、收集数据、对其编制索引并使其可用于在我的应用程序中进行搜索。
我将使用Net::HTTPHpricot 来抓取网站。
我正在爬取的网站是论坛,它为每个线程保留视图和回复计数。每当我浏览视图计数都会增加。

有什么办法可以避免这种情况吗?搜索引擎如何在不增加查看次数的情况下进行抓取?

【问题讨论】:

    标签: ruby-on-rails web-crawler


    【解决方案1】:

    这取决于远程站点如何增加其计数器。如果他们考虑到 User-Agent 标头,您可以利用它。如果他们的计数器通过 javascript(如 Google Analytics)递增,那么Net::HTTP 不应触发更改。

    【讨论】:

      猜你喜欢
      • 2021-01-13
      • 2017-02-21
      • 2017-10-13
      • 1970-01-01
      • 2011-10-27
      • 2014-01-15
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多