apache spark上的不相交集答案

【问题标题】：Disjoint sets on apache sparkapache spark上的不相交集
【发布时间】：2016-05-18 10:39:53
【问题描述】：

我试图使用 apache spark 查找在大量数据上搜索不相交集（连接组件/联合查找）的算法。问题是数据量。甚至图形顶点的原始表示也不适合单机上的 ram。边缘也不适合 ram。

源数据是hdfs上图边的文本文件：“id1 \t id2”。

id 以字符串值的形式出现，而不是 int。

我发现的幼稚解决方案是：

但这会导致节点之间传输大量数据（洗牌）

有什么建议吗？

【问题讨论】：

【解决方案1】：

如果您正在使用图表，我建议您查看这些库中的任何一个

它们都提供了开箱即用的连通分量算法。

GraphX：

val graph: Graph = ...
val cc = graph.connectedComponents().vertices

GraphFrames：

val graph: GraphFrame = ...
val cc = graph.connectedComponents.run()
cc.select("id", "component").orderBy("component").show()

【讨论】：