【发布时间】:2017-08-24 20:01:11
【问题描述】:
我想在 hadoop 多节点集群上实现自适应合并排序,以减少运行时间。但就我所做的研究而言,地图本身会进行排序和分组。我的意思是 map 输出是 reduce 的输入,我们得到的 map 输出是排序的(如果我没记错的话)。那么如何实现自适应归并排序呢?我的意思是有可能吗?
【问题讨论】:
-
您需要使用二次排序在地图输出上添加您的排序逻辑,您可以关注this link
-
谢谢你的回应。我在 java 中编写了一个自适应合并排序。我可以在 hadoop 中运行它吗?实际上我不明白如何将代码 cnvrt 转换为 mapreduce 而 map 进行排序。
-
请在下方回答我的 cmets
标签: sorting hadoop dictionary merge reduce