【发布时间】:2021-09-07 12:58:02
【问题描述】:
我有两个数据框,其中一个来自 Category 必须过滤的地方,另一个来自它所做的条件过滤。
Dataframe 1:符合条件的
Earning Age House size Family ..10 more columns with no values(empty)
Avg Low Avg <Empty>
使用上面的dataframe_1,我必须从满足dataframe_1 中给出的条件的dataframe_2 中过滤Category
Category Age House size Family Earning .... more columns
01 High Avg Low Low
02 Low Avg Avg Avg
03 Avg Avg High High
这里的输出将是Category:
02
因为它满足dataframe_1中的所有条件
我知道在 pyspark 中使用 filter 进行过滤的过程,但使用像这样的单个数据框:
dataframe_2.select("category").filter(col("Earning") == 'Avg').filter(col("Age") == 'Low').filter(col("House size") == 'Avg').show()
我的问题是如何使用df_1 从df_2 中过滤category,给定df_1 中的任何值都可以具有过滤条件并处理空值。任何线索都会有所帮助
【问题讨论】:
-
您可以收集数据框 1 以获取价值
-
@Vish 你能说明一下你在这里提出的建议吗
标签: apache-spark pyspark apache-spark-sql