【发布时间】:2015-01-16 14:59:31
【问题描述】:
我是 Amazon EMR 的新手,我正在尝试了解映射之后的排序阶段(减少阶段之前)是如何工作的,以及我是否可以操纵它(通过一些我自己的比较功能来提供它。
如果您知道映射阶段的输出需要是什么样子,那将是最有帮助的。
目前我有一个以这种格式打印出来的简单地图阶段:
"keyA|keyB|valueA1|valueA2"
我的 reducer 函数接收这些行并将它们合并到:
"keyA|keyB|sum_valueA1|sum_valueA2"
问题是在减速器阶段我只能得到完全相同的行。这意味着,键是相同的,也有值。 这是个问题,并且不允许我利用 map-reduce 的全部功能。
我看到他们在字数统计示例中使用了这种格式:
“LongValueSum:key\t1”。
我是否必须使用“LongValueSum”一词,以及将其标识为键而不是按值排序的选项卡? 使用选项卡有点问题,因为“key”可能带有“\t”。
请帮忙。
【问题讨论】:
标签: hadoop mapreduce elastic-map-reduce amazon-emr