【发布时间】:2015-04-09 16:00:18
【问题描述】:
i 在 aws 云中使用 datastax dse 启动集群 spark cassandra。所以我的数据集存储在 S3 中。但我不知道如何将数据从 S3 传输到我的集群 cassandra。请帮帮我
【问题讨论】:
标签: python cassandra datastax-enterprise
i 在 aws 云中使用 datastax dse 启动集群 spark cassandra。所以我的数据集存储在 S3 中。但我不知道如何将数据从 S3 传输到我的集群 cassandra。请帮帮我
【问题讨论】:
标签: python cassandra datastax-enterprise
详细信息取决于您的文件格式和 C* 数据模型,但可能如下所示:
将文件从 s3 读入 RDD
val rdd = sc.textFile("s3n://mybucket/path/filename.txt.gz")
操作rdd
将 rdd 写入 cassandra 表:
rdd.saveToCassandra("test", "kv", SomeColumns("key", "value"))
【讨论】: