【问题标题】:cql poor write perfromance and write timeouts with default configurationcql写性能差,默认配置写超时
【发布时间】:2014-08-23 02:58:23
【问题描述】:

我有一个包含大约 30 列和 100 万行(小于 1GB)的 csv 文件。

我在本地主机上使用单个机器/节点,我的密钥空间有:

WITH REPLICATION = {'class' : 'SimpleStrategy', 'replication_factor' : 1};

这些列大多是双精度的,有一些字符串。

我尝试了两种方法来使用默认的 cassandra.yaml 将其加载到 cassandra:

1) 直接从 CQL 使用 COPY 函数

2) 使用围绕 CQL 的 cqlengine python 驱动程序,在一组破碎的 csv 文件上使用多个脚本和批量插入

在 linux/windows 上使用默认的 cassandra 设置,这两种方法似乎都需要一个多小时。这真的是我应该期待的速度吗?我期待的是几分钟的事情。

如果不是,我应该关注哪些关键选项,或者如何快速诊断出瓶颈是什么?这似乎是一个微不足道的用例(诚然不是 Cassandra 的重点),所以我无法理解为什么它应该如此具有挑战性。

我尝试禁用提交日志并更改其他选项。我正在尝试了解这种性能下降的来源。

【问题讨论】:

    标签: cassandra cql


    【解决方案1】:

    您可能会发现http://datastax.github.io/python-driver/performance.html 很有用。将 COPY FROM 从同步执行切换到回调链让我们的性能提高了 10 倍

    【讨论】:

    • 哇,进步很大!
    • 我现在就试试这个,这看起来是我所希望的。
    猜你喜欢
    • 2023-03-24
    • 2018-01-08
    • 2011-02-04
    • 2013-12-07
    • 1970-01-01
    • 2016-11-04
    • 1970-01-01
    • 1970-01-01
    • 2017-07-29
    相关资源
    最近更新 更多