【发布时间】:2018-04-23 18:06:33
【问题描述】:
我像这样在 pyspark shell 中使用内部连接:
tab_df=ori_df.join(ori_df,ori_df.columns,'inner')
由于我使用同一张表进行内连接,所以应该期望tab_df.count() 应该等于ori_df.count(),但tab_df.count() 给我0!
【问题讨论】:
标签: pyspark pyspark-sql
我像这样在 pyspark shell 中使用内部连接:
tab_df=ori_df.join(ori_df,ori_df.columns,'inner')
由于我使用同一张表进行内连接,所以应该期望tab_df.count() 应该等于ori_df.count(),但tab_df.count() 给我0!
【问题讨论】:
标签: pyspark pyspark-sql
使用这个命令:
tab_df = ori_df.join(ori_df, ['column_name'])
pyspark 默认使用内连接
我尝试在我的计算机上加入两个相同的表,它可以工作
为什么还要加入两个相同的表?
【讨论】:
然后你可以使用pyspark的subtract()方法。 要知道两个数据帧是否相等。
【讨论】: