【问题标题】:How to properly create a new dataframe using PySpark?如何使用 PySpark 正确创建新数据框?
【发布时间】:2019-07-06 18:37:32
【问题描述】:

我正在尝试创建一个数据框,使用PySpark, by:

lr_col = predictions_lr.select('prediction_1')
nb_col = predictions_nb.select('prediction_2')
df = spark.createDataFrame([lr_col, nb_col])

但是,当我运行上面的代码时,我得到了这个错误:

AssertionError:位于 0x00000237C7D2B550 的 dataType py4j.java_gateway.JavaMember 对象应该是类 'pyspark.sql.types.DataType' 的实例

如何将我的数据转换为请求的数据类型?

【问题讨论】:

  • lr_colnb_col 是什么?
  • 单列数据集。
  • 我的意思是,它们是什么类型的对象?
  • 它们是浮动的。
  • 我不是指它们包含的对象类型。 print(type(lr_col)) 带给你什么?

标签: python dataframe pyspark


【解决方案1】:

您为两个 DataFrame 中的每一个中的每个预测添加一个 uid,然后在此 id 上简单地内连接两个 DataFrame。

predictions_lr.join(predictions_nb, 'id')

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2019-11-13
    • 2020-11-07
    • 1970-01-01
    • 2022-01-18
    • 1970-01-01
    • 2021-11-18
    • 2023-01-30
    • 2019-05-11
    相关资源
    最近更新 更多