【发布时间】:2012-06-11 17:58:23
【问题描述】:
在我们的 HBase 表中,每一行都有一个名为 crawl identifier 的列。使用 MapReduce 作业,我们只想随时处理给定爬网中的行。为了更有效地运行作业,我们为扫描对象提供了一个过滤器,(我们希望)将删除除具有给定爬网标识符的行之外的所有行。但是,我们很快发现我们的作业处理的行数不正确。
我编写了一个测试映射器来简单地计算具有正确爬网标识符的行数,没有任何过滤器。它遍历表中的所有行并计算正确的预期行数(~15000)。当我们做同样的工作,为扫描对象添加一个过滤器时,计数下降到约 3000。在这两个工作期间或之间没有对表本身进行任何操作。
由于添加扫描过滤器导致可见行发生如此巨大的变化,我们预计我们只是错误地构建了过滤器。
我们的 MapReduce 作业具有单个映射器:
public static class RowCountMapper extends TableMapper<ImmutableBytesWritable, Put>{
public String crawlIdentifier;
// counters
private static enum CountRows {
ROWS_WITH_MATCHED_CRAWL_IDENTIFIER
}
@Override
public void setup(Context context){
Configuration configuration=context.getConfiguration();
crawlIdentifier=configuration.get(ConfigPropertyLib.CRAWL_IDENTIFIER_PROPERTY);
}
@Override
public void map(ImmutableBytesWritable legacykey, Result row, Context context){
String rowIdentifier=HBaseSchema.getValueFromRow(row, HBaseSchema.CRAWL_IDENTIFIER_COLUMN);
if (StringUtils.equals(crawlIdentifier, rowIdentifier)){
context.getCounter(CountRows.ROWS_WITH_MATCHED_CRAWL_IDENTIFIER).increment(1l);
}
}
}
过滤器设置如下:
String crawlIdentifier=configuration.get(ConfigPropertyLib.CRAWL_IDENTIFIER_PROPERTY);
if (StringUtils.isBlank(crawlIdentifier)){
throw new IllegalArgumentException("Crawl Identifier not set.");
}
// build an HBase scanner
Scan scan=new Scan();
SingleColumnValueFilter filter=new SingleColumnValueFilter(HBaseSchema.CRAWL_IDENTIFIER_COLUMN.getFamily(),
HBaseSchema.CRAWL_IDENTIFIER_COLUMN.getQualifier(),
CompareOp.EQUAL,
Bytes.toBytes(crawlIdentifier));
filter.setFilterIfMissing(true);
scan.setFilter(filter);
是我们使用了错误的过滤器,还是我们配置错误?
编辑:我们正在考虑按照https://issues.apache.org/jira/browse/HBASE-2198 手动添加所有列族,但我很确定扫描默认包含所有族。
【问题讨论】:
-
您能否也显示您手动进行过滤的原始映射器?
-
是同一个映射器;唯一的区别是我没有为扫描对象分配过滤器(在第二个代码块中)。当然,您所说的手动过滤只是 map() 方法中的 if() 块。
-
@whiterook6 - 你解决过这个问题吗?谢谢
-
对不起,我不知道。这差不多是两年前的事了。我不记得了。