【发布时间】:2014-08-23 02:58:23
【问题描述】:
我有一个包含大约 30 列和 100 万行(小于 1GB)的 csv 文件。
我在本地主机上使用单个机器/节点,我的密钥空间有:
WITH REPLICATION = {'class' : 'SimpleStrategy', 'replication_factor' : 1};
这些列大多是双精度的,有一些字符串。
我尝试了两种方法来使用默认的 cassandra.yaml 将其加载到 cassandra:
1) 直接从 CQL 使用 COPY 函数
2) 使用围绕 CQL 的 cqlengine python 驱动程序,在一组破碎的 csv 文件上使用多个脚本和批量插入
在 linux/windows 上使用默认的 cassandra 设置,这两种方法似乎都需要一个多小时。这真的是我应该期待的速度吗?我期待的是几分钟的事情。
如果不是,我应该关注哪些关键选项,或者如何快速诊断出瓶颈是什么?这似乎是一个微不足道的用例(诚然不是 Cassandra 的重点),所以我无法理解为什么它应该如此具有挑战性。
我尝试禁用提交日志并更改其他选项。我正在尝试了解这种性能下降的来源。
【问题讨论】: