【发布时间】:2018-08-17 23:14:38
【问题描述】:
希望这是正确的提问地点!
我正在尝试使用 spark、cassandra 和另外一个外部工具建立一个集群。因此,外部工具在 spark(pipe 命令)的帮助下在集群中并行执行,并且该工具能够通过简单的 sql Insert 命令直接存储到 cassandra 数据库(见下图)。这意味着在每个节点中,结果都从节点的外部工具直接发送到节点的 cassandra。
我的疯狂猜测/怀疑/问题是这些节点中的每一个都将充当协调节点,并同时负责根据主/分区键将数据分发/发送到其他节点。那正确吗?如果不是……会发生什么?
【问题讨论】:
标签: apache-spark cassandra parallel-processing nodes distributed