【问题标题】:Is there a way to run NUTCH with different configuration files?有没有办法用不同的配置文件运行 NUTCH?
【发布时间】:2012-03-29 05:18:34
【问题描述】:

我想知道是否可以使用不同的配置文件集运行相同的 NUTCH 实例?我在参数列表中看不到任何允许此类事情的选项。

我只想在一台计算机上运行 NUTCH,我不想复制 nutch 实例。

有没有人知道这样做的简单方法,或者我需要自己修改 bin/nutch 脚本来完成它。

谢谢。

【问题讨论】:

    标签: solr lucene nutch


    【解决方案1】:

    This nutch FAQ 应该很有用。答案描述了如何创建自定义 conf 目录并通过$NUTCH_CONF_DIR 环境变量让 nutch 指向它。

    【讨论】:

    • 我以前读过,我相信它只是为了使用子目录。我正在寻找一种方法来指定当我调用 bin/nutch 时要使用哪些配置。除非我错过了什么。
    • @breakdown1986 我刚试过。它不只是用于子文件夹,您可以将 conf 目录放在任何您想要的位置,并使用 NUTCH_CONF_DIR 让 nutch 知道它的位置。我想这就是你要找的东西,如果你需要帮助,请告诉我!
    • 您好 javanna,我正在尝试使用相同的 nutch 实例以两种不同的设置进行爬网。例如,我需要爬取两个不同的站点,并使用 solr 分别对它们进行索引。我正在尝试编写一个 shell 脚本来自动执行此操作。因此我需要 2 组配置文件,所以在我的 shell 脚本中我可以告诉 nutch 使用这 2 组不同的设置。这有意义吗??
    • 是的,这就是我从你的问题中了解到的。您可以有两个具有不同名称的 conf 目录,并使用 NUTCH_CONF_DIR 让 nutch 可执行文件知道要使用哪一个。我错过了什么?
    • 是的,它奏效了。我需要不同的配置文件的唯一原因是为不同的任务使用单独的 regex-urlfilter.txt。通过这种方式,我正在复制一些我不需要的文件。你能推荐一个更好的方法吗?
    【解决方案2】:

    您可以使用 Unix 符号链接并在脚本中更改此链接。比如,如果你有 regex-urlfilter-conf_A.txt 和 regex-urlfilter-conf_B.txt。在您的脚本中,在开始 nutch 之前:

    对于会议 A:

    ln -sf $NUTCH_FOLDER/conf/regex-urlfilter-conf_A.txt $NUTCH_FOLDER/conf/regex-urlfilter.txt
    

    对于会议 B:

    ln -sf $NUTCH_FOLDER/conf/regex-urlfilter-conf_B.txt $NUTCH_FOLDER/conf/regex-urlfilter.txt
    

    【讨论】:

      猜你喜欢
      • 2019-05-04
      • 2019-01-31
      • 2010-11-29
      • 2023-04-04
      • 2018-02-07
      • 2019-07-08
      • 1970-01-01
      • 2021-11-06
      • 2021-11-30
      相关资源
      最近更新 更多