【发布时间】:2018-02-16 08:30:33
【问题描述】:
我正在尝试使用 spark + spark-cassandra-connector 将一个表复制到另一个表,这需要很长时间(~ 17 小时)。即使是简单地计算所有行(~ 20 亿),我也花了大约 1 个小时。 我怎样才能加快这个过程? Cassandra 版本:3.1
object Init {
def main(args: Array[String]): Unit = {
val sparkConf = new SparkConf(true)
.set("spark.cassandra.connection.host", "host")
// .set("spark.cassandra.input.split.size_in_mb", "16")
// .set("spark.executor.memory", "4g")
.setAppName("spark2Cassandra")
.setMaster("local[*]")
val sparkContext = new SparkContext(sparkConf)
val table = sparkContext.cassandraTable("testkeyspace", "test_5")
table.saveToCassandra("testkeyspace", "test_4")
}
}
【问题讨论】:
标签: apache-spark cassandra spark-cassandra-connector