【发布时间】:2014-10-14 12:48:01
【问题描述】:
使用 hadoop map reduce 打印输入文件的第一行和最后一行的最佳方法是什么?
例如,如果我有一个 10 GB 的文件并且典型的块大小是 128 MB,那么大约 80个映射器将被调用,保持默认配置意味着不正确地操作分割大小
所以现在将调用 80 个映射器,我将如何区分框架如何分配拆分大小意味着开始拆分大小偏移或数字到哪个映射器。
所以我不能盲目地将逻辑放在我的地图函数中,这样它也将应用于其他映射器。
我可以考虑使用一个映射器的一种解决方案,方法是将块大小保持为文件大小,这样我可以将功能放入映射函数中,但这样我将无法使用并行计算。
有什么有效的方法吗?
【问题讨论】:
-
Mapper 将获取键值对,那么您将如何识别哪个是第一个和哪个是最后一个?我认为你看的最好的地方是 inputSplit。