Pig local vs mapreduce 模型性能对比答案

【问题标题】：Pig local vs mapreduce mode performance comparisionPig local vs mapreduce 模型性能对比
【发布时间】：2014-05-12 20:48:49
【问题描述】：

我已经使用 Cloudera 管理器 CDH4 设置了一个 3 节点 Hadoop 集群。当在 mapreduce 模式下运行 Pig 作业时，对于相同的数据集，它所花费的时间是本地模式的两倍。这是预期的行为吗？还有任何可用于 mapreduce 作业的性能调整选项的文档吗？

非常感谢您的帮助！

【问题讨论】：

【解决方案1】：

这可能是因为你使用的是玩具数据集，mapreduce 的开销大于并行化的好处

【讨论】：

【解决方案2】：

性能调优的良好开端是“Programming Pig”一书中的"Making Pig Fly" 章节。

【讨论】：

【解决方案3】：

另一个原因是当您在 -x 本地模式下运行时，Pig 不会像在 map reduce 模式下那样执行相同的 jar 编译。使用小数据集和复杂的 pig 脚本，实际的 jar 编译时间会变得很明显。

【讨论】：