【发布时间】:2021-06-24 06:51:06
【问题描述】:
再一次,在 AWS 上使用 PySpark,不知何故似乎无法正确处理。我的第一个数据帧是先前数据转换的结果,看起来像 DF1:
| id | class |
| 2 | Bob |
| 4 | Darryl |
| 6 | Frank |
我的第二个数据帧,即原始数据,看起来像 DF2:
| id | amount |
| 1 | 5 |
| 5 | 3 |
| 2 | 3 |
| 4 | 3 |
| 3 | 2 |
| 4 | 2 |
| 2 | 5 |
| 4 | 1 |
| 6 | 0 |
我需要对每个类中的值求和。我的结果需要看起来像 DF3:
| 2 | 8 |
| 4 | 5 |
| 6 | 0 |
我的逻辑是删除 DF2 中 DF2.id 与 DF1.id 不匹配的所有行,然后对所有类求和。在 SQL 中,我将加入 DF1 和 DF2,其中 DF1.id 与仅包含 DF1.id 和 DF2.value 的 DF2.id 匹配,然后按 id 和求和值进行 Group By 查询分组。我一直在挣扎,在这一点上几乎准备放弃。请问有什么想法吗?谢谢。
【问题讨论】:
标签: python dataframe apache-spark pyspark apache-spark-sql