【问题标题】:How to check if splitted column values is in another column?如何检查拆分的列值是否在另一列中?
【发布时间】:2021-08-09 11:15:53
【问题描述】:

你好 stackoverflow 社区,

我有两个数据框 A 和 B。我想用空格拆分数据框 A 中的 colA 列,并想查看其拆分后的值是否在数据框 B 中的 colB 中并想要加入它们。

我为此编写了以下代码:

A = A.join(B, array_contains(F.split(A.colA, " "), B.colB))

当我在本地运行它时它可以工作,但在 AWS Glue 中我收到一个错误,因为这个 wasnt fixed back then 它应该是完全匹配的,而不仅仅是像 array_contains 这样的子字符串匹配。有人可以告诉我另一种方法吗?谢谢

【问题讨论】:

    标签: python join pyspark data-science


    【解决方案1】:

    您可以使用expr 函数作为连接条件

    A.alias('A').join(B.alias('B'), F.expr('array_contains(split(A.colA, " "), B.colB)'))
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2022-12-12
      • 2014-01-30
      • 1970-01-01
      • 2019-12-11
      • 1970-01-01
      • 2021-09-19
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多