【发布时间】:2016-10-14 09:10:27
【问题描述】:
我在 Cassandra 中有 3 个表聚集到几个节点中,每个节点上都有 spark 工作人员。让我们将这些表称为 A、B 和 C。
A 和 B 很大,但它们具有相同的分区键,因此当我将它们连接在一起时可以保持数据局部性。
现在我想加入另一个表 C,它有不同的分区键,但没有其他两个那么大。如果需要,我还准备将表复制到我的所有节点。
我如何将它们连接在一起,以最少的洗牌保持数据局部性?
【问题讨论】:
标签: scala apache-spark cassandra datastax spark-dataframe