使用 cassandra 进行火花的正确设置是什么答案

【问题标题】：What is the proper setup for spark with cassandra使用 cassandra 进行火花的正确设置是什么
【发布时间】：2018-07-15 21:55:54
【问题描述】：

在使用和使用 spark 连接器之后，我想以最有效的方式将它用于我们的批处理。

在 Cassandra 节点所在的同一主机上设置 spark worker 的正确方法是什么？火花连接器是否确保数据局部性？

我有点担心内存密集型 spark worker 会导致整个机器停止，然后我会丢失一个 Cassandra 节点，所以我有点困惑是否应该将 worker 放在 Cassandra 节点上，还是分开（这意味着没有数据局部性）。什么是常见的方式，为什么？

【问题讨论】：

【解决方案1】：

这取决于您的特定用例。需要注意的一些事项

1) CPU 共享，而内存不会在 Spark 和 Cassandra 之间共享（堆将是分开的）。没有什么能阻止 spark 执行器在 C* cpu 内核上窃取时间。如果 spark 进程占用大量 CPU 资源，这可能会导致 C* 中的负载和减速。如果不是，那么这不是什么大问题。

2) 您的网络速度，如果您的网络非常快，那么与较慢的网络相比，本地化的价值要小得多。

所以你必须问自己，你想要一个更简单的设置（所有东西都在一个地方），还是你想要一个复杂但更孤立的设置。

例如，DataStax（我工作的公司）默认将 Spark 与 Cassandra 放在一起运行，但我们也提供单独运行的选项。我们的大多数用户可能是因为这种默认设置，而那些通常不这样做的用户是因为更容易扩展。

【讨论】：