【发布时间】:2021-06-23 09:48:07
【问题描述】:
我有一个包含 key1 和 key2 列的主表。
我需要在相同的条件["key1", "key2"] 上将这张表加入许多其他(table_1、table_2、...、table_n)。
我正在尝试这样的事情。
condition = ["key1", "key2"]
df1 = sqlc.sql("SELECT key1, key2 FROM table")
df_1 = sqlc.table("table_1")
df_2 = sqlc.table("table_2")
...
df_n = sqlc.table("table_n")
merged_df = df \
.join(df_1, condition, how="left") \
.join(df_2, condition, how="left") \
...
.join(df_n, condition, how="left") \
有没有更高效、更可靠的实现方式?也许使用cache() 或checkpoint()?
最佳做法是什么?
Pyspark 2.4.0 版
【问题讨论】:
标签: python dataframe apache-spark pyspark apache-spark-sql