【发布时间】:2015-04-03 09:18:48
【问题描述】:
我正在使用 三节点 Cassandra 集群和 六个 Spark Worker,每个都有 1 个核心 和 2GB RAM . 使用 Spark 应用程序,我正在尝试从具有超过 300k 行的 Cassandra 表中获取全部数据并尝试进行一些聚合。
但是从 Cassandra 获取数据需要花费大量时间。我还浏览了 Spark UI,我看到 Spark 阶段有 3 个分区,其中两个执行得非常快(几秒钟内),但第三个执行时间很长(7 分钟)。
我还尝试重新分区 CassandraRDD 以增加任务数量并将任务分配给所有六个工人,但没有找到任何解决方案。
【问题讨论】:
标签: java cassandra apache-spark datastax-java-driver rdd