【问题标题】:Pyspark 'PipelinedRDD' object has no attribute 'show'Pyspark 'PipelinedRDD' 对象没有属性 'show'
【发布时间】:2017-04-30 11:58:05
【问题描述】:

我 我想找出 df 中所有不在 df1 中的项目,还有在 df1 但不在 df 中的项目

    df =sc.parallelize([1,2,3,4 ,5 ,6,7,8,9])
    df1=sc.parallelize([4 ,5 ,6,7,8,9,10])
    df2 = df.subtract(df1)
    df2.show()
    df3 = df1.subtract(df)
    df3.show()

只是想检查一下结果,看看我是否很好地理解了这个功能。 但是得到了这个错误 'PipelinedRDD' 对象没有属性 'show' 有什么建议吗?

【问题讨论】:

    标签: attributes pyspark


    【解决方案1】:
    print(df2.take(10))
    

    df.show() 仅适用于 spark DataFrame

    【讨论】:

    • 如何转换成 spark 数据框?
    【解决方案2】:

    使用 createDataFrame 将 rdd 转换为 spark 数据帧

    【讨论】:

      猜你喜欢
      • 2015-12-23
      • 1970-01-01
      • 1970-01-01
      • 2018-03-31
      • 1970-01-01
      • 2021-01-05
      • 2019-05-06
      • 1970-01-01
      相关资源
      最近更新 更多