【问题标题】:Machine type for google cloud dataflow jobs谷歌云数据流作业的机器类型
【发布时间】:2015-01-07 12:47:22
【问题描述】:

我注意到有一个选项允许指定机器类型。 我应该使用什么标准来决定是否覆盖默认机器类型?

在一些实验中,我发现使用较小的实例时吞吐量会更好,但另一方面,当使用许多小型实例而不是使用较少数量的默认实例时,作业往往会遇到更多的“系统”故障。

谢谢, G

【问题讨论】:

    标签: google-cloud-dataflow


    【解决方案1】:

    Dataflow 最终会为您优化机器类型。同时,这里有一些我能想到的场景,您可能希望更改机器类型。

    • 如果您的 ParDO 操作需要大量内存,您可能需要将机器类型更改为 Google Compute Engine 提供的高内存机器之一。

    • 针对成本和速度进行优化。如果您的 CPU 利用率低于 100%,您可以通过选择 CPU 更少的机器来降低工作成本。或者,如果您增加机器数量并减少每台机器的 CPU 数量(因此总 CPU 大致保持不变),您可以使您的作业运行得更快,但成本大致相同。

    您能否详细说明您所看到的系统故障类型?一大类故障(例如 VM 中断)是概率性的,因此随着机器数量的增加,您会期望看到更大的故障绝对数量。但是,像 VM 中断这样的故障应该是相当少见的,所以如果您注意到增加了,我会感到惊讶,除非您使用更多数量级的 VM。

    另一方面,由于使用更多机器的并行性增加,资源争用可能会导致更多失败。如果是这种情况,我们真的很想知道这是否是我们可以解决的问题。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2016-01-11
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2019-03-14
      相关资源
      最近更新 更多