【问题标题】:Cassandra source statement vs copyCassandra源语句与副本
【发布时间】:2015-01-22 06:45:44
【问题描述】:

我们需要将几 GB 的 csv 文件加载到 cassandra 中。我们尝试使用 source 命令提取数据,以从包含插入语句的文本文件中提取数据,其中包含 csv 文件的数据值。

使用这种方法,数据无法正确上传 - 第一行的数据在所有后续行中重复。 (我检查了插入命令,它们似乎包含正确的值)。

可能是什么问题?我是否看到行是重复的,因为 Cassandra 需要时间将数据刷新到磁盘? (nodetool 显示没有挂起的刷新。)

创建 CSV 文件并使用复制语句提取数据是否更有效?请。建议。

【问题讨论】:

    标签: csv cassandra copy cqlsh


    【解决方案1】:

    复制通常用于少量数据。推荐的方法是使用 SSTable Loader 并从您的数据创建 SSTable 文件。这是一个多一点的工作,但应该会导致更快的摄取。您也可以尝试使用 Spark 并通过 Spark 摄取到 Cassandra。

    至于不一致,Cassandra 会根据主键进行更新插入。如果多行匹配相同的主键,则最后一次写入获胜。如果您需要保留所有行,可能会在主键中添加时间戳或 timeuuid 列以使记录唯一。

    【讨论】:

      猜你喜欢
      • 2019-04-01
      • 2014-09-27
      • 2016-10-14
      • 2013-08-21
      • 1970-01-01
      • 1970-01-01
      • 2018-08-27
      • 2015-08-22
      • 2015-11-23
      相关资源
      最近更新 更多