同时运行约 10 个批处理作业时，Flink 纱线会话模式变得不稳定答案

【问题标题】：Flink yarn-session mode is becoming unstable when running ~10 batch jobs at same time同时运行约 10 个批处理作业时，Flink 纱线会话模式变得不稳定
【发布时间】：2020-08-16 04:03:15
【问题描述】：

我正在尝试设置一个 flink-yarn 会话来运行约 100 多个批处理作业。在连接到大约 40 个任务管理器和大约 10 个正在运行的作业（每个任务管理器有 2 个插槽和 1GB 内存）之后，会话看起来变得不稳定。有足够的可用资源。 flink UI 突然变得不可用了，我猜作业经理可能已经死了。最终，yarn 应用程序也被杀死了。

作业管理器在 4 核 16GB 节点上运行 12 GB 可用

是否有任何指南可以计算作业管理器资源与它可以处理的任务管理器的数量？

【问题讨论】：

建议你在 flink 用户邮件列表中询问这个问题。这是一个更好地利用社区实践经验的论坛。
你运行的是哪个 Flink 版本？你能和我们分享一下集群日志吗？

标签： apache-flink amazon-emr flink-batch

【解决方案1】：

我解决了这个问题。 flink-session 中断的原因是集群中工作机器的低带宽。运行任务管理器容器的工作机器至少应具有 750Mbps 或更高的速度。每个任务管理器都有 2 个插槽和 1GB 内存，中等带宽 ~ 450Mbps 不会削减它。如果作业是 IO 密集型的，参与者（作业经理和工人或工人到工人）之间的通信可能会超时（默认询问超时为 100 毫秒）。

我决定不增加询问超时，这样作业就不会因为这个瓶颈而花费很长时间。

【讨论】：