【问题标题】:Yarn container size and Tez container management纱线容器尺寸和 Tez 容器管理
【发布时间】:2018-04-17 21:03:41
【问题描述】:

我有一个集群,其纱线资源约为 15 TB。我正在尝试通过 Hive 提交查询。我在 yarn 上的默认容器大小为 4GB。为该查询分配的映射器数量约为 1000。我的纱线队列中总共分配了 10% 的资源。因此,在单个时间点只会分配 430 个容器。每个映射器总共分配了 1 个容器。 HDFS 上的块大小为 128 MB。如何优化查询。

【问题讨论】:

    标签: hadoop hive containers hadoop-yarn tez


    【解决方案1】:

    您提到了内存设置,这听起来不错,因此您优化查询的下一步(因为您没有提供)是

    • Additionally tune the Tez containers
    • 使您的 HDFS 输入文件大约为 HDFS 块的大小。
    • 如果您的队列已满,请使用其他队列。 (SET tez.queue.name)
    • 根据WHERE 子句将 Hive 表分区到最有意义的列上。
    • 确保数据存储为带 ZLib 压缩的 ORC。
    • 尽可能使用 LLAP

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2018-04-28
      • 2016-08-21
      • 2012-09-02
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2016-04-29
      相关资源
      最近更新 更多