【发布时间】:2019-06-21 05:29:09
【问题描述】:
我有一个 pyspark 数据框(df1),它由 10K 行组成,数据框看起来像 -
id mobile_no value
1 1111111111 .43
2 2222222222 .54
3 3333333333 .03
4 4444444444 .22
另一个 pyspark 数据帧 (df2) 包含 100k 条记录,看起来像 -
mobile_no gender
912222222222 M
914444444444 M
919999999999 F
915555555555 M
918888888888 F
我想使用 pyspark 进行内部连接,其中最终数据框看起来像 -
mobile_no value gender
2222222222 .54 M
4444444444 .22 M
df2 中 mobile_no 的长度为 12,但 df1 中为 10。我可以加入它,但它的操作成本很高。 使用 pyspark 有什么帮助吗?
common_cust = spark.sql("SELECT mobile_number, age \
FROM df1 \
WHERE mobile_number IN (SELECT DISTINCT mobile_number FROM df2)")
【问题讨论】:
标签: pyspark pyspark-sql