【发布时间】:2023-03-16 22:14:01
【问题描述】:
我对运行 pig 脚本/map-reduce 作业有几个问题。
我知道 pig 在真正开始执行 map/reduce 作业之前会创建逻辑、物理然后执行计划;我可以使用命令 explain
查看逻辑/物理计划;但是我如何查看执行计划(我想列出计划的不同 map/reduce 任务)?在 pig 执行过程中,我看到创建了许多作业(map/reduce 对)。想了解这些工作分别解决了什么问题。 是否有任何明确的指南可以用来理解制定的计划,因为什么是争吵很难理解。
我可以通过更改输入文件块的数量来更改映射作业的数量。我是否也可以控制减少作业的数量?如何设置reducer的数量?
mapper/reducer 节点的默认堆内存大小是多少?哪些工作参数反映了这些?我可以通过 -Xmx 1024m 选项更改堆内存吗?当我以这种方式设置堆内存时,我的作业过去常常失败 - 可能对可以提供哪些值有一些限制?
非常感谢!
【问题讨论】:
标签: memory mapreduce apache-pig