【发布时间】:2013-05-16 02:49:41
【问题描述】:
我正在使用 DataStax 网站上提供的批量加载示例生成 Cassandra SSTable。 http://www.datastax.com/dev/blog/bulk-loading
我的问题是 SSTable 文件理想地消耗了多少磁盘空间?就我而言,我的数据 CSV 文件为 40 GB,SStables 为这个特定文件消耗的总磁盘空间约为 250GB。创建这些表时我缺少什么吗?是否有任何可用于生成 sstables 的压缩选项?
我使用 sstableloader 加载 sstables 的第二步工作正常,数据可用于在 CQL 中查询。
另外,我想知道除了我上面提到的bulkload方法之外,是否还有其他技术可以将大数据导入cassandra。
【问题讨论】: