【发布时间】:2018-09-16 01:12:05
【问题描述】:
我想做的是:
使用它们各自的id 列a_id 和b_id 连接两个DataFrames A 和B。我想从A 中选择所有列,从B 中选择两个特定列
我尝试了类似我在下面加上不同引号的内容,但仍然无法正常工作。我觉得在 pyspark 中,应该有一个简单的方法来做到这一点。
A_B = A.join(B, A.id == B.id).select(A.*, B.b1, B.b2)
我知道你会写
A_B = sqlContext.sql("SELECT A.*, B.b1, B.b2 FROM A JOIN B ON A.a_id = B.b_id")
要这样做,但我想更像上面的伪代码。
【问题讨论】:
标签: apache-spark join pyspark spark-dataframe pyspark-sql