【发布时间】:2013-07-31 18:04:14
【问题描述】:
我有一个宽行列族,我试图针对它运行 map reduce 作业。 CF 是按时间排序的事件集合,其中列名本质上是时间戳。我需要针对 CF 中的特定日期范围运行 MR 作业。
当我在widerow 属性设置为false 的情况下运行作业时,预期的列切片将传递到映射器类。但是当我将widerow设置为true时,会处理整个列族,忽略切片谓词。
问题是我必须使用 Widerow 支持,因为切片中的列数可能会变得非常大,如果一次性加载会消耗所有内存。
我找到了概述问题的 JIRA 任务,但它已被关闭为“无法重现” - https://issues.apache.org/jira/browse/CASSANDRA-4871?page=com.atlassian.jira.plugin.system.issuetabpanels:comment-tabpanel
我正在运行 cassandra 1.2.6 并在我的 jar 中使用 cassandra-thrift 1.2.4 和 hadoop-core 1.1.2。 CF 是使用 CQL3 创建的。
值得注意的是,无论我是使用 SliceRange 还是使用 setColumn_names() 指定列,都会发生这种情况 - 它仍然会处理所有列。
任何帮助将不胜感激。
【问题讨论】:
标签: hadoop mapreduce cassandra thrift