【发布时间】:2021-08-14 00:42:38
【问题描述】:
我有以下 spark 数据框。一个来自文本文件,另一个来自 Databricks 中的 Spark 表:
尽管数据完全相同,但以下代码报告了差异。我希望 df3 为空:
table_df = spark.sql("select * from db.table1")
file_df = spark.read.format("csv").load("my_file.txt", header = False, delimiter = '|')
file_df = file_df.toPandas()
table_df = table_df.toPandas()
df3=table_df.eq(file_df)
print(df3.shape[0])
- 在比较之前我需要订购数据吗? - 如果是这样,我该怎么做?
- 我看不到上面的连接是在哪里完成的。它将如何匹配行? [ID] 和 [Account] 是主键吗?
- 以上方法是比较 2 个数据帧的最佳方法吗?
这是数据 - 其中 [ID] 和 [Account] 是主键
【问题讨论】:
标签: python pandas apache-spark pyspark databricks