【发布时间】:2015-09-22 22:08:14
【问题描述】:
我在 cassandra 集群中有很多数据,有 2 台节点机器和 1 台种子机器。我有一个 spark 主节点和 3 个从节点。每台机器都是 8 GB 机器双核。因此,如果我的数据约为 2,00,000 ,并且当我对数据框执行 rdd.count 时,会花费大量时间,有时甚至会超时。
val tabledf = _sqlContext
.read
.format("org.apache.spark.sql.cassandra")
.options(Map( "table" -> "events", "keyspace" -> "sams"))
.load
tabledf.registerTempTable("tempdf");
val rdd = _sqlContext.sql("select * from tempdf");
val count = rdd.count.toInt
我怎样才能最小化这个计数时间? 我已经准备好添加更多的工作机器,但它会有什么不同吗?
【问题讨论】:
标签: scala cassandra apache-spark