用于基于吞吐量的自动缩放的 Beam Runner 挂钩答案

【问题标题】：Beam Runner hooks for Throughput-based autoscaling用于基于吞吐量的自动缩放的 Beam Runner 挂钩
【发布时间】：2017-11-21 16:01:24
【问题描述】：

我很好奇是否有人可以让我更深入地了解各种 Beam Runners 如何管理自动缩放。我们似乎在“加速”和“减速”阶段都遇到了问题，我们不知道该怎么办。以下是我们特定流程的背景：

1- 二进制文件到达 gs://，并且对象通知会及时通知 PubSub 主题。 2- 每个文件需要在标准 VM 上进行大约 1 分钟的解析，以将大约 30K 记录发送到 Beam DAG 的下游区域。 3-“下游”组件包括向 BigQuery 的插入、GS: 中的存储以及各种其他任务。 4- 步骤 1 中的文件间歇性地到达，通常每小时 200-300 个批次，这使我们认为这是自动缩放的理想用例。

然而，我们所看到的让我们有些困惑：

1- 看起来当 'workers=1' 时，Beam 咬得比它可以咀嚼的多一点，最终导致一些内存不足错误，大概是因为第一个工作人员试图处理一些 PubSub 消息同样，这需要大约 60 秒/消息才能完成，因为在这种情况下，“消息”是二进制文件需要在 gs 中反序列化。 2- 在某些时候，跑步者（在本例中为 jobId 2017-11-12_20_59_12-8830128066306583836 的数据流）收到消息，需要额外的工作人员，现在可以完成实际工作。在此阶段，错误减少，吞吐量增加。不仅step1有更多的反序列化器，step3/下游任务也均匀分布。 3-唉，当 Dataflow 感觉到（我猜）足够多的 PubSub 消息“在飞行中”开始冷却一点时，上一步被缩短了。这似乎来得太快了，工作人员在自己咀嚼 PubSub 消息时就被拉扯了——甚至在消息被“确认”之前。

我们仍然对 Beam 感到非常兴奋，但我猜测不是最佳的启动/停止阶段会导致虚拟机使用量比所需的多 50%。跑者除了 PubSub 消费外，还寻找什么？他们看 RAM/CPU/等吗？？？除了 ACK PubSub 消息以向跑步者提供需要更多/更少资源的反馈之外，开发人员还能做些什么？

顺便说一句，如果有人怀疑 Google 对开源的承诺，我昨天与那里的一位员工谈到了这个话题，她表示有兴趣了解我的用例，特别是如果它在非 Dataflow 运行器上运行！我们还没有在 Spark（或其他地方）上尝试过我们的 Beam 工作，但显然有兴趣了解一位跑步者是否具有更好的能力来接受工人对 THROUGHP_BASED 工作的反馈。

提前致谢，彼得

首席技术官， ATS, Inc.

【问题讨论】：

请参阅下面的答案，了解通常如何计算自动缩放大小。我看了你的工作。正如您所提到的，这是一种非典型情况，您的字节和记录量非常少，并且每条记录都需要大量处理。当容量较低时，由于吞吐量极小，积压秒数计算（积压/吞吐量）可能会有很大变化。也就是说，当有负载时，你的工作通常看起来可以升级到 3 名工人，之后有降级。我不认为它降级太早。您能否指出您预计会出现意外缩减的具体时间？

标签： google-cloud-dataflow apache-beam

【解决方案1】：

Dataflow 中的流式自动缩放通常是这样工作的：

Upscale：如果基于当前吞吐量，管道的积压超过几秒钟，则管道被升级。这里的 CPU 利用率并不直接影响 upsize 的数量。使用 CPU（假设它是 90%）无助于回答“需要多少工人”的问题。 CPU 确实会间接影响，因为当它们没有足够的 CPU 时管道会落后，从而增加积压。
Downcale：当 backlog 很低（即

我希望以上基本描述有所帮助。

由于启动新 GCE 虚拟机的固有延迟，管道在调整大小事件期间会暂停一两分钟。预计在不久的将来会有所改善。

我会就你在描述中提到的工作提出具体问题。

【讨论】：

Raghu，感谢您深入了解 Dataflow 的工作原理。我们可能有一个极端情况，但我们的问题显然与 RAM 相关（尽管自从我发布问题以来，GC 内存不足错误的数量有所下降——可能是巧合。）如果 Beam/Dataflow 就好了可以解释（很少）需要更多 RAM 来执行任务的 PubSub 事件，因为否则“升级/降级”的发生速度不够快。我们将继续让 jobId 继续运行，并不时报告。再次感谢。