【问题标题】:confusing inner join in pysparkpyspark中令人困惑的内部连接
【发布时间】:2018-04-23 18:06:33
【问题描述】:

我像这样在 pyspark shell 中使用内部连接:

tab_df=ori_df.join(ori_df,ori_df.columns,'inner')

由于我使用同一张表进行内连接,所以应该期望tab_df.count() 应该等于ori_df.count(),但tab_df.count() 给我0!

【问题讨论】:

    标签: pyspark pyspark-sql


    【解决方案1】:

    使用这个命令:

    tab_df = ori_df.join(ori_df, ['column_name'])
    

    pyspark 默认使用内连接

    我尝试在我的计算机上加入两个相同的表,它可以工作

    为什么还要加入两个相同的表?

    【讨论】:

    • 只需要验证两个表的数据是否相同,谢谢您的回答
    【解决方案2】:

    然后你可以使用pyspark的subtract()方法。 要知道两个数据帧是否相等。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2022-01-21
      • 2022-01-17
      • 2018-02-26
      • 1970-01-01
      • 1970-01-01
      • 2011-04-20
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多