【发布时间】:2016-03-06 15:12:09
【问题描述】:
如何指定很多条件
pyspark 当我使用.join()
示例: 带蜂巢:
query= "select a.NUMCNT,b.NUMCNT as RNUMCNT ,a.POLE,b.POLE as RPOLE,a.ACTIVITE,b.ACTIVITE as RACTIVITE FROM rapexp201412 b \
join rapexp201412 a where (a.NUMCNT=b.NUMCNT and a.ACTIVITE = b.ACTIVITE and a.POLE =b.POLE )\
但在 PySpark 中我不知道如何制作它,因为以下原因:
df_rapexp201412.join(df_aeveh,df_rapexp2014.ACTIVITE==df_rapexp2014.ACTIVITE and df_rapexp2014.POLE==df_aeveh.POLE,'inner')
没用!!
【问题讨论】:
-
能否请您粘贴 DataFrame.join 的错误消息?或者尝试在RDD中使用keyBy/join,它非常支持equi-join条件。
-
在两者之间使用 & 并确保将每个条件放在 () 中
标签: apache-spark pyspark apache-spark-sql