【发布时间】:2013-12-16 20:44:54
【问题描述】:
问题
我有一些工作只需要遍历 HBase 表中的每条记录并执行一些任务。例如,为导出提取字段或根据一些新的业务规则更新字段。
推理
MapReduce 在这里似乎有点矫枉过正。没有什么可以真正映射,也没有“减少”。地图始终只是键+记录。 shuffle 和 sort 肯定没有用,因为它们的键在 HBase 中保证是唯一的。
出于性能原因,这仍应分发。我想我正在寻找一个很好的老式表格扫描,它恰好是分发的。
问题
存在哪些选项可以利用集群但避免完整 MapReduce 作业的不必要步骤?
【问题讨论】: