在 Storm 中配置并行性答案

【问题标题】：Configuring parallelism in Storm在 Storm 中配置并行性
【发布时间】：2015-01-06 00:57:40
【问题描述】：

我是 Apache Storm 的新手，我正在尝试自己了解如何配置 Storm 并行性。所以有一篇很棒的文章“Understanding the Parallelism of a Storm Topology”，但它只会引起问题。

当你有一个多节点风暴集群时，每个拓扑根据TOPOLOGY_WORKERS 配置参数作为一个整体分布。因此，如果您有 5 个工人，那么您有 5 个 spout 副本（每个工人 1 个），螺栓也是如此。

在storm集群内部如何处理这种情况（最好不创建外部服务）：

【问题讨论】：

不，你错了，实例（任务）的数量是针对集群的。不是每个工人。
5 个工人并不意味着 5 个 Spout 副本。如果要制作 5 个 Spout 副本，则必须为该 spout 制作 5 个执行者。每个工作进程运行拓扑的某些部分。如果您有 5 个工作线程，则意味着 5 个工作线程可用于运行 N 个 Bolts 执行器 + N 个 Spouts 执行器。

【解决方案1】：

首先，基础知识：

第二，更正...拥有 5 个工人并不意味着您将自动拥有 5 个喷口副本。拥有 5 个工作人员意味着您有 5 个独立的 JVM，storm 可以在其中分配执行程序来运行（将其视为 5 个存储桶）。

在您首次创建和提交拓扑时配置您的 spout 实例数：

TopologyBuilder builder = new TopologyBuilder();
builder.setSpout("0-spout", new MySpout(), spoutParallelism).setNumTasks(spoutTasks);

由于您希望整个集群只有一个 spout，因此您将 spoutParallelism 和 spoutTasks 都设置为 1。

【讨论】：