【发布时间】:2021-04-04 07:11:01
【问题描述】:
为了更好地解释这个问题,假设零售公司(类似于沃尔玛)有不同的产品类别属于主管
并且只是假设有另一个表格表明上述产品类别的利润率
考虑到它是一个多值列,我如何使用 pyspark 将表 1 与表 2 连接到产品类别中。最初的问题有更多列,但这不是问题,因为唯一的区别是我将选择其他列,但连接将基于多值列。
【问题讨论】:
-
您能否分享您尝试过的代码,这将有助于回答这个问题。您可以将 Product_category 列转换为第一个数据框中的数组并将其分解并与另一个数据框连接
-
检查 find_in_set 并在连接条件中使用它,
F.expr("find_in_set(....)>0")
标签: apache-spark join pyspark apache-spark-sql