【发布时间】:2010-07-19 10:11:51
【问题描述】:
在 Hadoop 中,您可以使用辅助排序机制在将值发送到 reducer 之前对其进行排序。
在 Hadoop 中完成此操作的方式是将要排序的值添加到键中,然后使用一些自定义组和键比较方法挂钩到排序系统中。
因此,您需要有一个键,该键基本上由真正的键和要排序的值组成。为了使其执行得足够快,我需要一种创建组合键的方法,该组合键也很容易分解为组和键比较方法所需的单独部分。
最聪明的方法是这样做。是否有一个“开箱即用”的 Hadoop 类可以帮助我,还是我必须为每个 map-reduce 步骤创建一个单独的键类?
如果键实际上是由多个部分组成的组合(由于分区程序也需要单独),我该怎么做?
你们有什么推荐的?
附:我想添加标签“二级排序”,但我还没有足够的代表这样做。
【问题讨论】:
-
你去(我添加了标签):-)
-
感谢您添加标签 :)
-
没完全明白你的问题,你介意添加一个简短的例子吗?
标签: java sorting hadoop mapreduce