【发布时间】:2017-08-10 06:41:17
【问题描述】:
我有一个带有列的 Cassandra 表 XYX( id uuid, 插入时间戳, 标题文本)
其中 id 和 insert 是复合主键。
我正在使用 Dataframe,并在我的 spark shell 中获取 id 和 header 列。 我想根据 id 和 header 列有不同的行。
我看到很多 shuffle 情况并非如此,因为 Spark Cassandra 连接器确保给定 Cassandra 分区的所有行都在同一个 spark 分区中。
获取后我使用 dropDuplicates 来获取不同的记录。
【问题讨论】:
标签: apache-spark spark-cassandra-connector