【发布时间】:2021-04-17 10:43:55
【问题描述】:
我正在尝试像这样加入两个 pyspark 数据帧
joined = df.join(df1,on=["date"],how='left').select([col('df.'+xx) for xx in df.columns] + [col('df1.daily_net_payment_sum'),col('df1.daily_net_payment_avg')])
但结果是
An error was encountered:
"cannot resolve '`df.cust_no`' given input columns:
在我看来,我无法通过它们的数据框/表名称来引用列。使用火花 2.4.7
任何想法表示赞赏
【问题讨论】:
-
你能把这两个 DF 的架构贴出来吗?还是整个堆栈跟踪?或者显示关于两个 DF 的陈述。这个问题说明不了什么
标签: apache-spark pyspark apache-spark-sql