【问题标题】:How to change configuration of apache nutch when it is crawling抓取时如何更改apache nutch的配置
【发布时间】:2015-01-24 09:13:16
【问题描述】:

我的爬虫(apache nutch2.2.1)处于爬取状态。我必须在 nutch-site.xml 中更改爬虫的一些配置。我了解到,爬虫在运行状态下,避免改变配置。

我的问题是。

  1. 我们可以在运行状态下更改爬虫的配置吗?
  2. 如果是,那么在对爬虫进行一些更改时是否有任何阳离子?
  3. 或者如果我们不能改变爬虫的配置,那么如果改变配置,它的缺点是什么?

【问题讨论】:

    标签: apache configuration web-crawler nutch


    【解决方案1】:

    Nutch 2.2.1 的爬取是一个循环的 Hadoop 作业,我们可以在运行时更改 Nutch 爬虫的配置,但是更改只会在下一个 Hadoop 作业中激活。例如,如果您在生成作业期间更改配置,则更改会在获取作业时激活。

    希望这会有所帮助,

    乐国岛

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2012-08-04
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多