【发布时间】:2016-11-23 00:30:05
【问题描述】:
我正在使用 groupBy 函数从 spark DataFrame 中删除重复项。对于每个组,我只想占据第一行,这将是最近的一行。
我不想执行max() 聚合,因为我知道结果已经按顺序存储在 Cassandra 中,并且希望避免不必要的计算。请参阅this approach 使用 pandas,这正是我所追求的,除了 Spark。
df = sqlContext.read\
.format("org.apache.spark.sql.cassandra")\
.options(table="table", keyspace="keyspace")\
.load()\
.groupBy("key")\
#what goes here?
【问题讨论】:
标签: apache-spark cassandra pyspark spark-dataframe