【发布时间】:2021-08-09 11:15:53
【问题描述】:
你好 stackoverflow 社区,
我有两个数据框 A 和 B。我想用空格拆分数据框 A 中的 colA 列,并想查看其拆分后的值是否在数据框 B 中的 colB 中并想要加入它们。
我为此编写了以下代码:
A = A.join(B, array_contains(F.split(A.colA, " "), B.colB))
当我在本地运行它时它可以工作,但在 AWS Glue 中我收到一个错误,因为这个 wasnt fixed back then 它应该是完全匹配的,而不仅仅是像 array_contains 这样的子字符串匹配。有人可以告诉我另一种方法吗?谢谢
【问题讨论】:
标签: python join pyspark data-science