【发布时间】:2018-02-28 11:04:49
【问题描述】:
我有一个非常大的 pyspark 数据框和一个较小的 pandas 数据框,如下所示:
df1 = spark.read.csv("/user/me/data1/")
df2 = pd.read_csv("data2.csv")
两个数据框都包含标记为“A”和“B”的列。我想创建另一个 pyspark 数据框,其中只有来自df1 的那些行,其中“A”和“B”列中的条目出现在df2 中具有相同名称的那些列中。即使用df2的“A”和“B”列过滤df1。
通常我认为这是一个连接(使用
merge实现)但是 如何将 pandas 数据框与 pyspark 数据框连接起来?
我无法将 df1 转换为 pandas 数据框。
【问题讨论】:
-
如何将 pandas 数据帧转换为 pyspark 数据帧?
-
@5nv 你怎么能这样做?我认为类型也有问题。 pyspark 在读取 csv 时似乎不会推断类型。
-
由于我们对您的
df1和df2在结构上的相似程度一无所知,因此如果您在回答您的另一个(并且可能相关的)问题时提供反馈,将会非常有用: stackoverflow.com/questions/46283021/…
标签: python pandas apache-spark pyspark