【问题标题】:How import dataset from S3 to cassandra?如何将数据集从 S3 导入 cassandra?
【发布时间】:2015-04-09 16:00:18
【问题描述】:

i 在 aws 云中使用 datastax dse 启动集群 spark cassandra。所以我的数据集存储在 S3 中。但我不知道如何将数据从 S3 传输到我的集群 cassandra。请帮帮我

【问题讨论】:

    标签: python cassandra datastax-enterprise


    【解决方案1】:

    详细信息取决于您的文件格式和 C* 数据模型,但可能如下所示:

    • 将文件从 s3 读入 RDD

      val rdd = sc.textFile("s3n://mybucket/path/filename.txt.gz")

    • 操作rdd

    • 将 rdd 写入 cassandra 表:

      rdd.saveToCassandra("test", "kv", SomeColumns("key", "value"))

    【讨论】:

      【解决方案2】:

      @phact 描述的是通过使用 DataStax Enterprise 附带的 Spark API,如果需要在加载的同时完成 ETL 工作,这可能非常有用。 仅用于加载,您可以使用sstableloader 批量加载功能。这是一个tutorial,可以帮助您入门。

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 2011-11-30
        • 2016-07-27
        • 2017-12-20
        • 2014-01-03
        • 1970-01-01
        • 2019-10-15
        • 1970-01-01
        • 2021-11-05
        相关资源
        最近更新 更多