【发布时间】:2021-03-20 03:37:39
【问题描述】:
***编辑
df_joint = df_raw.join(df_items,on='x',how='left')
标题异常发生在 Apache Spark 2.4.5
df_raw 有 2 列“x”、“y”的数据,而 df_items 是带有其他一些列的架构的空数据框
左连接发生在值为 null 的情况下,这应该从第一个数据帧获取整个数据,并从第二个数据帧获取空列。
当“X”为浮点数时,它完全可以正常工作,但是当我将“X”转换为隐式笛卡尔积的抛出错误时
我在 spark 2.4.5 中收到此错误。
为什么会发生这种情况以及如何在不启用 spark 交叉连接的情况下解决此问题
spark.conf.set("spark.sql.crossJoin.enabled", "true")
【问题讨论】:
-
为什么不使用明确的
df_raw.crossJoin(df_items)? -
@mazaneicha 交叉连接将导致重复列
x -
列可以在加入之前被删除,特别是因为我怀疑它只是为了做左加入。
标签: apache-spark pyspark apache-spark-sql