【发布时间】:2016-02-08 22:52:09
【问题描述】:
我正在使用 Flink 进行一些概念验证工作,并且已经到了想要在 4 节点集群上尝试各种工作(拓扑?)的地步。
机器:
- 32核
- 96g 千兆内存
拓扑结构从 3 到 6 个“任务”不等(工人?螺栓模拟?)。我希望这里有人可以提供一些建议的设置。具体来说:
- taskmanager.numberOfTaskSlots:将此设置为核心数?
- taskmanager.heap.mb:“这个值应该尽可能大。” 96Gb?真的吗?
- parallelism.default:尝试将其设置为 30。收到此错误1。
- parallelization.degree.default:我尝试提高此值,但似乎没有任何效果。任务始终显示“1”表示并行度。
- 人们发现任何其他有用/有趣的设置?
特别是一项任务:从 Kafka 读取相关主题有 6 个分区。我想从这些分区中的每一个中读取、聚合和写入 Cassandra。当我在 Storm 中实现这项工作时,它需要 6 个螺栓来读取数据,而要写入的螺栓数量是其数倍。 (IE 6 读,18 写)
如果 Flink 被我的公司采用,每台机器都会同时运行大量的作业。在这种情况下,配置参数将如何变化?
FWIW:集群是 v1.0-SNAPSHOT。
编辑:This 似乎很有用。
1 "网络缓冲区数量不足:需要 30 个,但只有 8 个可用。网络缓冲区的总数当前设置为 2048。"这是否意味着在没有发生任何事情的情况下使用了 2000 个缓冲区?
【问题讨论】:
-
关于网络缓冲区的数量:这些是在提交流式数据流程序执行时保留的。它们是成功执行程序所需的最低要求,因此这基本上是程序开始时的安全检查。
标签: java cassandra apache-kafka apache-flink