【发布时间】:2013-06-10 07:17:05
【问题描述】:
是否可以从任一方式创建和运行新的 Hadoop 流式处理作业
- 当前正在执行的常规 Hadoop Java 作业,或
- 作为 Hadoop 流作业的一部分执行的 Hadoop 映射器(Python 中)。
以及如何?
【问题讨论】:
标签: hadoop mapreduce hadoop-streaming
是否可以从任一方式创建和运行新的 Hadoop 流式处理作业
以及如何?
【问题讨论】:
标签: hadoop mapreduce hadoop-streaming
对于大多数 Java 作业,在 Java 程序中运行 .jar 很简单。与 Python 流式作业相同。
$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-streaming.jar \ -输入我的输入目录\ -输出我的输出目录\ -mapper org.apache.hadoop.mapred.lib.IdentityMapper \ -reducer /bin/wc
【讨论】: