【发布时间】:2016-05-27 14:55:40
【问题描述】:
我正在 Flink 上进行 MinHash LSH 的分布式实现,作为最后一步,我需要合并一些集群,这些集群被标识为它们之间相似的元素集。
所以我有一个分布式集合作为输入,我需要一种算法来有效地将集合与公共元素合并。给定 Flink 的计算模型,算法可能是迭代的,不一定是 map-reduce 之类的。
这里是一个例子:
来自{{1{1,2}},{2,{2,3}},{3,{4,5},{4{1,27}}}} 的结果应该是{1,2,3,27},{4,5},因为集合#1、#2 和#4 至少有一个共同的元素。
【问题讨论】:
-
所以这是传递的? IE。如果 A 和 B 有一个共同元素,而 B 和 C 有一个不同的共同元素,你想要 A union B union C 在结果中吗?
-
我们表现得好像它是传递的,是的
标签: algorithm scala merge distributed-computing apache-flink