【发布时间】:2020-06-03 06:20:13
【问题描述】:
我在 AWS Glue 目录中有一个包含 100 个表的目录,格式为:
user_1
user_2
...
user_100
每个表格都有这种格式:
| id | user_id | date | expense |
|----|---------|----------|---------|
| 1 | 1 | 20200521 | 200 |
| 2 | 2 | 20200601 | 100 |
| 3 | 1 | 20200603 | 90 |
每个表都有相同的架构,其中一列是费用(int 类型)。 每个用户行被随机插入到这 100 个表中。
我想要做的是检查给定用户的每个表的费用列的总和。
与创建 100 个动态帧并加入它们相比,最有效的方法是什么?我想我需要为每个表创建 100 个数据源,但是有没有更简单的方法可以从所有 100 个表中为给定用户选择行并得到总和?
谢谢。
【问题讨论】:
-
从所有这些表中创建一个
view(联合所有 user_1...100)并立即查询。语法-docs.databricks.com/spark/latest/spark-sql/language-manual/… -
谢谢羽衣甘蓝。我将在 Redshift 中创建视图,因为我的数据源在 Redshift 中。
标签: apache-spark pyspark apache-spark-sql aws-glue pyspark-dataframes