【发布时间】:2017-10-25 15:40:56
【问题描述】:
我有以下数据集
s1, s2, count
1, 2, x1
1, 3, x2
1, 4, x3
2, 1, y1
2, 3, y2
2, 4, y3
3, 1, z1
3, 2, z2
我想得到以下输出
s1, s2, count
1, 2, x1-y1
1, 3, x2-z1
1, 4, x3
2, 3, y2-z2
2, 4, y3
这个想法是 s1 是一个比 s2 更受青睐的实体。而且我有这样的元组,使得 s1(比如 = 1)比 s2(比如 = 2)更受青睐 x1 倍,并且 s1(比如 = 2)比 s2(比如 = 1)更受青睐 y1 倍。我需要的是一个 sub O(n^2) 算法来计算 s1 优于 s2 的绝对次数(或其他方式)。 (x1-y1)
问题是有 2.3 亿个这样的元组,我无法使用 O(n^2) 算法来计算它。
一个观察结果是元组在 s1 上排序,因为它们是另一个 MR 输出的结果。
请帮助我找到更好的解决方案。
【问题讨论】:
标签: hadoop mapreduce distributed-computing emr elastic-map-reduce