从当前正在运行的 Job 运行新的 Hadoop 流式作业

【问题标题】：Run a new Hadoop streaming job from current running Job从当前正在运行的 Job 运行新的 Hadoop 流式作业
【发布时间】：2013-06-10 07:17:05
【问题描述】：

是否可以从任一方式创建和运行新的 Hadoop 流式处理作业

当前正在执行的常规 Hadoop Java 作业，或
作为 Hadoop 流作业的一部分执行的 Hadoop 映射器（Python 中）。

以及如何？

【问题讨论】：

标签： hadoop mapreduce hadoop-streaming

【解决方案1】：

对于大多数 Java 作业，在 Java 程序中运行 .jar 很简单。与 Python 流式作业相同。

$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-streaming.jar \ -输入我的输入目录\ -输出我的输出目录\ -mapper org.apache.hadoop.mapred.lib.IdentityMapper \ -reducer /bin/wc

【讨论】：