【发布时间】:2020-08-10 19:26:41
【问题描述】:
df1.show()
+---------+
|Data_Type|
+---------+
| string|
| string|
| int|
+---------+
df2.show()
+---------+
|Data_Type|
+---------+
| string|
| string|
| int|
+---------+
我想将 df1 中的列与 df2["Column_name"] 中的行进行比较(相等性检查)。
我尝试使用连接来比较它们,即通过
df1.join(df2,on="Data_Type",how="left").join(df2,on="Data_Type",how="right")
if(df3.count() == df1.count() == df2.count()):
print(True)
但这不起作用,因为我在“Data_Type”列下有重复的值,并且在加入后我得到了一个叉积类型的输出,如下所示:
+---------+
|Data_Type|
+---------+
| int|
| string|
| string|
| string|
| string|
| string|
| string|
| string|
| string|
+---------+
还有其他方法可以对数据帧进行相等性检查吗?
【问题讨论】: