【问题标题】:What is the proper setup for spark with cassandra使用 cassandra 进行火花的正确设置是什么
【发布时间】:2018-07-15 21:55:54
【问题描述】:

在使用和使用 spark 连接器之后,我想以最有效的方式将它用于我们的批处理。

在 Cassandra 节点所在的同一主机上设置 spark worker 的正确方法是什么?火花连接器是否确保数据局部性?

我有点担心内存密集型 spark worker 会导致整个机器停止,然后我会丢失一个 Cassandra 节点,所以我有点困惑是否应该将 worker 放在 Cassandra 节点上,还是分开(这意味着没有数据局部性)。什么是常见的方式,为什么?

【问题讨论】:

    标签: apache-spark cassandra spark-cassandra-connector


    【解决方案1】:

    这取决于您的特定用例。需要注意的一些事项

    1) CPU 共享,而内存不会在 Spark 和 Cassandra 之间共享(堆将是分开的)。没有什么能阻止 spark 执行器在 C* cpu 内核上窃取时间。如果 spark 进程占用大量 CPU 资源,这可能会导致 C* 中的负载和减速。如果不是,那么这不是什么大问题。

    2) 您的网络速度,如果您的网络非常快,那么与较慢的网络相比,本地化的价值要小得多。

    所以你必须问自己,你想要一个更简单的设置(所有东西都在一个地方),还是你想要一个复杂但更孤立的设置。

    例如,DataStax(我工作的公司)默认将 Spark 与 Cassandra 放在一起运行,但我们也提供单独运行的选项。我们的大多数用户可能是因为这种默认设置,而那些通常不这样做的用户是因为更容易扩展。

    【讨论】:

      猜你喜欢
      • 2017-11-05
      • 2016-02-07
      • 1970-01-01
      • 2016-03-03
      • 2019-07-30
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2016-12-09
      相关资源
      最近更新 更多