【发布时间】:2020-02-10 21:02:29
【问题描述】:
我有一个 pysprak 数据框,需要根据以下条件从中提取选定的行 其他 2 个单列数据框。我尝试使用 join 但它太慢了,因为数据很大。 我曾想过在 spark 中使用分区或 lookup(),但我无法实现这些,因为我是 pyspark 的新手。 请建议我如何有效地做到这一点。 以下是示例数据框:
main dataframe:
df1 = DataFrame({'CID': ['A0', 'A1', 'A2', 'A3'],'Name': ['B7', 'B4', 'B0', 'B3'],'Group':[23,34,45,67]})
conditional dataframes:
df2 = DataFrame({'CID': ['A4', 'A3', 'A7', 'A8']})
df3=Dataframe({'Group':[33,42,66,90]})
我尝试加入但效率低。
df1=df1.join(df2,df1.CID==df2.CID)
df1=df1.join(df3,df1.Group==df3.Group)
提前致谢!
【问题讨论】:
标签: python dataframe hadoop join pyspark