【问题标题】:hadoop, python, subprocess failed with code 127hadoop,python,子进程失败,代码为 127
【发布时间】:2017-03-27 14:06:34
【问题描述】:

我正在尝试使用 mapreduce 运行非常简单的任务。

mapper.py:

#!/usr/bin/env python
import sys
for line in sys.stdin:
    print line

我的 txt 文件:

qwerty
asdfgh
zxc

运行作业的命令行:

hadoop jar /usr/lib/hadoop-0.20-mapreduce/contrib/streaming/hadoop-streaming-2.6.0-mr1-cdh5.8.0.jar \
-input /user/cloudera/In/test.txt \
-output /user/cloudera/test \
-mapper /home/cloudera/Documents/map.py \
-file /home/cloudera/Documents/map.py

错误:

INFO mapreduce.Job: Task Id : attempt_1490617885665_0008_m_000001_0, Status : FAILED
Error: java.lang.RuntimeException: PipeMapRed.waitOutputThreads(): subprocess failed with code 127
    at org.apache.hadoop.streaming.PipeMapRed.waitOutputThreads(PipeMapRed.java:325)
    at org.apache.hadoop.streaming.PipeMapRed.mapRedFinished(PipeMapRed.java:538)
    at org.apache.hadoop.streaming.PipeMapper.close(PipeMapper.java:130)
    at org.apache.hadoop.mapred.MapRunner.run(MapRunner.java:61)
    at org.apache.hadoop.streaming.PipeMapRunner.run(PipeMapRunner.java:34)
    at org.apache.hadoop.mapred.MapTask.runOldMapper(MapTask.java:453)
    at org.apache.hadoop.mapred.MapTask.run(MapTask.java:343)
    at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:164)
    at java.security.AccessController.doPrivileged(Native Method)
    at javax.security.auth.Subject.doAs(Subject.java:415)
    at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1693)
    at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:158)

如何解决这个问题并运行代码? 当我使用cat /home/cloudera/Documents/test.txt | python /home/cloudera/Documents/map.py 时,它工作正常

!!!!!更新

我的 *.py 文件有问题。我从 github 'tom white hadoop book' 复制了文件,一切正常。

但我不明白是什么原因。这不是权限和字符集(如果我没记错的话)。还能是什么?

【问题讨论】:

    标签: python hadoop mapreduce cloudera hadoop-streaming


    【解决方案1】:

    我遇到了同样的问题。

    问题: 在 Windows 环境中创建 python 文件时,换行符为 CRLF。 我的 hadoop 在 Linux 上运行,它将换行符理解为 LF

    解决方案:CRLF 更改为 LF 后,该步骤运行成功。

    【讨论】:

      【解决方案2】:

      -mapper 参数中,您应该设置命令,以便在集群节点上运行。所以那里没有 /home/cloudera/Documents/map.py 文件。 您使用-files 选项传递的文件被放置在工作目录中,因此您可以通过这种方式简单地使用它:./map.py

      我不记得给这个文件设置了什么权限,所以如果没有执行权限就用python map.py

      所以完整的命令是

      hadoop jar /usr/lib/hadoop-0.20-mapreduce/contrib/streaming/hadoop-streaming-2.6.0-mr1-cdh5.8.0.jar \
      -input /user/cloudera/In/test.txt \
      -output /user/cloudera/test \
      -mapper "python map.py" \
      -file /home/cloudera/Documents/map.py
      

      【讨论】:

        【解决方案3】:

        您的 mapper.py 或 reducer.py. 中有错误,例如:

        1. 不在文件顶部使用#!/usr/bin/env python
        2. python 代码中有语法或逻辑错误。 (例如 print 在 python2 和 python3 中有不同的语法。)

        【讨论】:

          【解决方案4】:

          首先检查python --version。如果python --version 的输出是

          Command 'python' not found, but can be installed with:
          
          sudo apt install python3       
          sudo apt install python        
          sudo apt install python-minimal
          
          You also have python3 installed, you can run 'python3' instead.
          

          使用 sudo apt install python 安装 python 并运行你的 hadoop 作业

          在我的电脑上它工作了,终于它工作了

          【讨论】:

          • 在 WLS 上我还需要先安装 python 才能使其正常运行。
          【解决方案5】:

          在 macOS 上的本地 HADOOP 3.2.1 上,我已经解决了我的问题 java.lang.RuntimeException: PipeMapRed.waitOutputThreads(): subprocess failed with code 127 这里:https://stackoverflow.com/a/61624913/4201275

          【讨论】:

            【解决方案6】:

            让我们假设这是您在 Windows 中的流式传输作业。 .py 文件的换行符是 CRLF. 因此您需要手动将 CRLF 清理为 LF 或使用此 SED 命令并你应该很好。

            !sed -i -e 's/\r$//' WordCount/reducer.py 
            !sed -i -e 's/\r$//' WordCount/mapper.py
            

            我在这里使用! 告诉 Python 笔记本我正在 Windows 上的 VM 机器中执行

            !hadoop jar {JAR_FILE} \
              -files WordCount/reducer.py,WordCount/mapper.py \
              -mapper mapper.py \
              -reducer reducer.py \
              -input {HDFS_DIR}/alice.txt \
              -output {HDFS_DIR}/wordcount-output \
              -cmdenv PATH={PATH}
            

            【讨论】:

              猜你喜欢
              • 2019-03-25
              • 1970-01-01
              • 2014-06-30
              • 2016-01-28
              • 1970-01-01
              • 2021-09-08
              • 2021-06-04
              • 1970-01-01
              • 2019-05-02
              相关资源
              最近更新 更多