【问题标题】:How to skip Apache nutch from one step to next如何从一步跳过 Apache nutch
【发布时间】:2015-02-02 07:18:24
【问题描述】:

我正在使用 apache Nutch 2.3。我想将 apache nutch 的 fetch 步骤跳过到正在解析的下一步,即假设我的爬行处于 fetching 状态,我想去 parse 步骤以便它尽早完成。

如何从一步跳过 apache nutch?

【问题讨论】:

    标签: apache web-crawler nutch


    【解决方案1】:

    由于 Apache Nutch 是基于 Hadoop 的,不同的任务已经逐步应用。这意味着 Generate 在完成 Inject 之后。 Fetch 出现在 Generate 等之后。但是对于 Parsing 步骤,为了更改默认的 nutch 行为,有一个可用的配置。

    <property>
        <name>fetcher.parse</name>
        <value>true</value>
        <description>For merge parse and fetch set it true</description>
    </property>
    

    fetcher.parse 的默认值为 false。您必须将其更改为 true 并将其放入 nutch-site.xml 中。此参数更改了同时进行解析和获取的默认解析机制。 nutch的其他任务恐怕得自己开发了。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2023-04-10
      • 2016-08-18
      • 2015-11-07
      • 1970-01-01
      相关资源
      最近更新 更多