【问题标题】:Nutch 2.1 urls injection takes foreverNutch 2.1 urls 注入需要永远
【发布时间】:2014-04-14 00:07:00
【问题描述】:

我正在尝试按照tutorial 在 Ubuntu 12.04 上部署 nutch 2.1。一切顺利 直到我尝试将 url 注入数据库。当我输入 ($bin/nutch injection urls) 并按下 输入我得到

    InjectorJob: starting
    InjectorJob: urlDir: urls

并一直呆在那里(几个小时),直到我决定取消执行。 urls 是一个目录 包含带有 url 的文件。我按照here 的建议在 nutch-site.xml 中添加了代理和端口详细信息,但它没有解决。我尝试了 apache nutch 2.2.1,但问题仍然存在。

如果你知道如何解决这个问题,请帮助我!

提前致谢。

【问题讨论】:

    标签: apache nutch


    【解决方案1】:

    Ubuntu 将主机中的环回 IP 地址默认为 127.0.1.1。 HBase(根据this page)要求您的环回 IP 地址为 127.0.0.1。

    Ubuntu /etc/hosts 文件默认包含(myComputerName 是您的计算机名称):

    127.0.0.1   localhost
    127.0.1.1   myComputerName
    

    使用sudo gedit /etc/hosts 更新您的主机文件如下:

    127.0.0.1   localhost
    127.0.0.1   myComputerName
    

    重启 Ubuntu。 Nutch 应该不再有将 url 注入 HBase 的问题。

    【讨论】:

      猜你喜欢
      • 2023-03-05
      • 2013-12-08
      • 1970-01-01
      • 2021-03-17
      • 2014-02-24
      • 2014-07-08
      • 2013-02-17
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多