我对 DataFusion 数据管道有疑问答案

【问题标题】：I have a question about the DataFusion Data Pipeline我对 DataFusion 数据管道有疑问
【发布时间】：2020-10-28 04:40:37
【问题描述】：

我有一个关于 DataFusion 数据管道的问题。

我使用的是 DataFusion 企业版。

我在DataFusion的Studio中创建数据管道时，可以直接在config中设置exit和driver的CPU和内存值。

到目前为止，我知道如果我创建一个数据管道，我将为每个数据管道创建一个 VM 实例。

但是，我刚刚看到创建的虚拟机数量与 Worker 节点、Master 节点一样多。

那么，在创建data-pipeline的时候，exit和driver的CPU和memory是什么意思呢？

【问题讨论】：

【解决方案1】：

对于 Spark 管道运行，Data Fusion 将启动一个具有多个执行器的驱动程序，通常对应于工作节点的数量（尽管并非总是如此）。通常，每个工作节点执行一个执行程序。因此，驱动程序和执行程序的 CPU 和内存设置为每个执行程序和驱动程序的运行设置了 CPU 数量和内存量的上限。

实际上，如果您将执行程序的内存或 CPU 设置为高于工作节点中可用的内存或 CPU，则可能无法达到此上限。

【讨论】：

执行器CPU、内存是否需要与工作节点的CPU、内存匹配？然后呢？
executor的CPU和内存应该大于worker节点的总CPU和内存吗？（如果有两个worker节点，两个CPU，内存总和）另外，驱动程序的CPU和内存是否应该大于Executor的CPU和内存？你说Driver有多个Executor，能否解释一下如何设置这两者之间的CPU和内存组合？
CPU 应该设置在或低于 worker 的 CPU。内存应该设置在worker的内存之下，因为一些系统服务需要内存才能运行。但是，这些设置通常取决于您尝试运行的数据管道类型。使用聚合器和连接器处理大量数据的管道可能应该具有更高的 CPU 和内存计数以实现最佳性能。由于许多这些抽象与现有的 YARN 抽象 1:1 映射，因此在线查找 MapReduce 或 Spark 资源调整指南可能会有所帮助。