【发布时间】:2018-07-18 07:12:48
【问题描述】:
我有一个数据框 (df)。 为了显示我使用的架构:
from pyspark.sql.functions import *
df1.printSchema()
我得到以下结果:
#root
# |-- name: string (nullable = true)
# |-- age: long (nullable = true)
有时架构会改变(列类型或名称):
df2.printSchema()
#root
# |-- name: array (nullable = true)
# |-- gender: integer (nullable = true)
# |-- age: long (nullable = true)
我想比较两种模式(df1 和df2),并只获取类型和列名的差异(有时列可以移动到另一个位置)。
结果应该是这样的表格(或数据框):
column df1 df2 diff
name: string array type
gender: N/A integer new column
(age栏目相同,没有变化。如果栏目遗漏,会有提示'omitted')
如果我每列有很多列,我该如何高效地做到这一点?
【问题讨论】:
-
它缺少您尝试过的解决方案...
标签: python apache-spark pyspark apache-spark-sql