【发布时间】:2014-02-17 10:18:11
【问题描述】:
我们有这个典型的场景:
包含少于 10 个简单列的 1 个列族。
当我们收到来自客户端的请求时,我们需要在数据库中写入该列族的 10 000 000 条记录,并且我们正在分批写入它们(一批 1000 条)。这通常会持续 5-10 分钟,具体取决于集群中的节点数量和复制因子。
在接下来的几个小时内开始写入后,我们将收到大量更新(每条记录更新 2 次)。
所以我们在一天的某个时间段(一小时)内有很多写入/更新,之后就很少了。
问题是:采取哪些步骤来提高写入/更新性能。我注意到例如 memtable_flush_queue_size 和类似的配置字段,但我没有足够的 cassandra 经验来确切地知道该怎么做。
任何建议都有帮助,
伊万
【问题讨论】:
-
你为什么又担心写性能?如果到“大量更新”时,您已经完成了原始输入的编写,这无关紧要。