【问题标题】:Apache Nutch error: Injector: java.io.IOException: (null) entry in command string: null chmod 0644Apache Nutch 错误:Injector: java.io.IOException: (null) entry in command string: null chmod 0644
【发布时间】:2018-01-20 03:52:47
【问题描述】:

我在具有 java 1.8 的 Windows 10 上使用 Apache Nutch 1.14。我已按照https://wiki.apache.org/nutch/NutchTutorial 中提到的相同步骤进行操作。

当我尝试使用 cygwin 上的命令在 crawldb 中注入 URL 时:bin/nutch injection crawl/crawldb urls

我收到以下错误: 注入器:java.io.IOException:命令字符串中的(null)条目:null chmod 0644 E:\apache-nutch-1.4\runtime\local\crawl\crawldb.locked 在 org.apache.hadoop.util.Shell$ShellCommandExecutor.execute(Shell.java:773)

我检查了日志,发现:

2018-01-18 10:55:26,785 错误 util.Shell - 无法在 hadoop 二进制路径中找到 winutils 二进制文件 java.io.IOException: 无法在 Hadoop 二进制文件中找到可执行的 null\bin\winutils.exe。

我在几页上搜索过这个错误,但没有任何帮助。

【问题讨论】:

标签: apache hadoop cygwin nutch


【解决方案1】:
  1. 在 Windows 中创建新目录,例如 c:\winutil.
  2. 在winutil中创建bin目录
  3. 打开https://minhaskamal.github.io/DownGit/#/home
  4. https://github.com/steveloughran/winutils/tree/master/hadoop-2.8.1粘贴到以上网址,下载winutil-hadoop2.8.1
  5. 解压c:\winutil\bin中的zip内容
  6. 将 HADOOP_HOME 变量添加到您的系统变量并使其引用 c:\winutil
  7. 在 cygin 中重新运行爬取命令

【讨论】:

  • 我遵循相同的步骤但面临相同的问题?在 Windows 10 中通过 nutch 抓取数据的任何解决方案或教程?
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2014-08-29
  • 1970-01-01
  • 2020-06-22
  • 2021-11-03
  • 2019-06-24
  • 2020-01-31
相关资源
最近更新 更多