【发布时间】:2018-01-30 16:26:44
【问题描述】:
我有一个三列的表格:
- 产品名称
- 产品用例/用法
- 用户 ID
我想为每个产品提取所有用例。然后对于这些用例中的每一个,使用该产品的用户百分比。以下是数据示例:
product-name use-case user-ID
A therapy X
B relaxation X
C health Y
A relaxation Z
- 我想按产品名称进行分组。
- 然后,对于每个产品名称,我想按用例进行分组。
- 然后,对于每个用例(与产品名称相关),我想查看用户的百分比(即基于他们的用户 ID)。我想要的结果是说 xx% 的产品 A 的用户正在使用这个产品来放松......
输出应如下所示:
例如,我可以说 50% 的产品 A 用户将其用于治疗,另外 50% 用于放松。
非常感谢。
【问题讨论】:
标签: python join group-by pyspark aggregate