【问题标题】:I have a question about the DataFusion Data Pipeline我对 DataFusion 数据管道有疑问
【发布时间】:2020-10-28 04:40:37
【问题描述】:

我有一个关于 DataFusion 数据管道的问题。

我使用的是 DataFusion 企业版。

我在DataFusion的Studio中创建数据管道时,可以直接在config中设置exit和driver的CPU和内存值。

到目前为止,我知道如果我创建一个数据管道,我将为每个数据管道创建一个 VM 实例。

但是,我刚刚看到创建的虚拟机数量与 Worker 节点、Master 节点一样多。

那么,在创建data-pipeline的时候,exit和driver的CPU和memory是什么意思呢?

【问题讨论】:

    标签: google-cloud-platform google-cloud-data-fusion


    【解决方案1】:

    对于 Spark 管道运行,Data Fusion 将启动一个具有多个执行器的驱动程序,通常对应于工作节点的数量(尽管并非总是如此)。通常,每个工作节点执行一个执行程序。因此,驱动程序和执行程序的 CPU 和内存设置为每个执行程序和驱动程序的运行设置了 CPU 数量和内存量的上限。

    实际上,如果您将执行程序的内存或 CPU 设置为高于工作节点中可用的内存或 CPU,则可能无法达到此上限。

    【讨论】:

    • 执行器CPU、内存是否需要与工作节点的CPU、内存匹配?然后呢?
    • executor的CPU和内存应该大于worker节点的总CPU和内存吗? (如果有两个worker节点,两个CPU,内存总和)另外,驱动程序的CPU和内存是否应该大于Executor的CPU和内存?你说Driver有多个Executor,能否解释一下如何设置这两者之间的CPU和内存组合?
    • CPU 应该设置在或低于 worker 的 CPU。内存应该设置在worker的内存之下,因为一些系统服务需要内存才能运行。但是,这些设置通常取决于您尝试运行的数据管道类型。使用聚合器和连接器处理大量数据的管道可能应该具有更高的 CPU 和内存计数以实现最佳性能。由于许多这些抽象与现有的 YARN 抽象 1:1 映射,因此在线查找 MapReduce 或 Spark 资源调整指南可能会有所帮助。
    猜你喜欢
    • 1970-01-01
    • 2020-12-30
    • 2017-02-22
    • 2019-05-06
    • 1970-01-01
    • 2016-11-11
    • 2020-10-17
    • 2021-05-23
    • 1970-01-01
    相关资源
    最近更新 更多