【问题标题】:Apache PIG questionsApache PIG 问题
【发布时间】:2023-03-16 22:14:01
【问题描述】:

我对运行 pig 脚本/map-reduce 作业有几个问题。

  1. 我知道 pig 在真正开始执行 map/reduce 作业之前会创建逻辑、物理然后执行计划;我可以使用命令 explain 查看逻辑/物理计划;但是我如何查看执行计划(我想列出计划的不同 map/reduce 任务)?在 pig 执行过程中,我看到创建了许多作业(map/reduce 对)。想了解这些工作分别解决了什么问题。

  2. 是否有任何明确的指南可以用来理解制定的计划,因为什么是争吵很难理解。

  3. 我可以通过更改输入文件块的数量来更改映射作业的数量。我是否也可以控制减少作业的数量?如何设置reducer的数量?

  4. mapper/reducer 节点的默认堆内存大小是多少?哪些工作参数反映了这些?我可以通过 -Xmx 1024m 选项更改堆内存吗?当我以这种方式设置堆内存时,我的作业过去常常失败 - 可能对可以提供哪些值有一些限制?

非常感谢!

【问题讨论】:

    标签: memory mapreduce apache-pig


    【解决方案1】:
    1. explain 生成了不同种类的计划。给出一个目录路径而不是一个文件以从“解释”中获取所有 3 个计划。

    2. 不知道。

    3. set default_parallel 10 将减少作业的数量设置为 10。

    4. 它必须在您的 hadoop 设置中。

    【讨论】:

    • 另外值得注意的是,您可以在语句本身中为特定运算符设置减速器的数量。例如。 B = GROUP A BY t PARALLEL 18;
    【解决方案2】:
    1. "Explain(pig command)" ALIAS-NAME 解释物理计划(就 Map reduce 作业而言)

    2. 别名将在 MR 作业中组合在一起。在计划阶段本身可以看到,所有别名都被分组到一个给定的 MR

    3. 要控制reducer 的数量,可以在编写joins、groupby 时使用“USING PARALLEL desired_no”或在pig 脚本开始时使用“set default_parallel desired_no”。

    4. 这取决于一头奔跑的猪在哪里。 如果它的 MRv1 :设置 mapred.java.opts -Xmx 在 mrv2 中:设置 mapred.map.size ,设置 mapred.map.java.opts -Xmx

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2016-12-31
      • 1970-01-01
      • 2016-12-04
      • 1970-01-01
      • 1970-01-01
      • 2013-05-31
      • 1970-01-01
      相关资源
      最近更新 更多