【发布时间】:2019-03-09 14:30:58
【问题描述】:
我有一个数据框,其中包含有关每日销售额和每日点击次数的信息。在我想运行我的分析之前,我想聚合数据。为了让自己更清楚,我将尝试在示例数据框上进行解释
item_id date Price Sale Click Discount_code
2 01.03.2019 10 1 10 NULL
2 01.03.2019 8 1 10 Yes
2 02.03.2019 10 0 4 NULL
2 03.03.2019 10 0 6 NULL
2 04.03.2019 6 0 15 NULL
2 05.03.2019 6 0 14 NULL
2 06.03.2019 5 0 7 NULL
2 07.03.2019 5 1 11 NULL
2 07.03.2019 5 1 11 NULL
2 08.03.2019 5 0 9 NULL
如果给定日期有两次销售,我对该特定日期有两个观察结果。我想通过按 item_id 和价格折叠观察将我的数据框转换为以下数据框:
item_id Price CSale Discount_code Cclicks firstdate lastdate
2 10 1 No 20 01.03.2019 03.03.2019
2 8 1 Yes 10 01.03.2019 01.03.2019
2 6 0 NULL 29 04.03.2019 05.03.2019
2 5 2 NULL 38 06.03.2019 08.03.2019
其中 CSale 对应于给定价格和给定 item_id 的累积销售额,Cclicks 对应于给定价格和给定 item_id 的累积点击次数,firstdate 是给定价格和 lastdate 给定商品可用的第一个日期是以给定价格提供给定商品的最后日期。
【问题讨论】:
标签: pyspark