【发布时间】:2017-08-31 19:55:27
【问题描述】:
我有一些看起来像这样的数据:
([('01','A','2016-01-01','8701','123','2016-10-23'),('01','A','2016-
01-01','8701','123','2016-11-23'),('01','A','2016-01-01','8701','123','2016-12-23')])
我的目标是在 PySpark 中按 ('01','A','2016-01-01','8701','123') 分组并让它看起来像
[('01','A','2016-01-01''8701','123', ('2016-10-23', '2016-11-23',
'2016-12-23'))]
我尝试使用 groupByKey 但对我不起作用。
谢谢。
【问题讨论】:
标签: apache-spark pyspark rdd