【发布时间】:2020-10-12 12:33:51
【问题描述】:
我在 pyspark 数据帧 df1 中有原始数据(从 csv 文件读取)。当我尝试附加另一个 csv (将在另一个 pyspark 数据帧 df2 中读取)时,在我“联合”两个数据帧之前,是否有一种优雅的方式来检查或验证两者的模式?谢谢。
【问题讨论】:
-
两个数据框具有相同的架构?你已经知道架构了吗?
-
我知道 df1 的架构。在我“联合”两个数据框之前,我想检查 df2 的架构是否与 df1 相同。或者我想说我的 csv csv 标头是不同的(即)df2。基本上我想在合并之前检查 df1 和 df2 的标题名称是否相同。谢谢。
-
只是标题?
assert df1.columns == df2.columns。但是如果你想通过名字联合,你有一个直接的方法:df1.unionByName(df2)。