如何使用 PySpark 正确创建新数据框？答案

【问题标题】：How to properly create a new dataframe using PySpark?如何使用 PySpark 正确创建新数据框？
【发布时间】：2019-07-06 18:37:32
【问题描述】：

我正在尝试创建一个数据框，使用PySpark, by：

lr_col = predictions_lr.select('prediction_1')
nb_col = predictions_nb.select('prediction_2')
df = spark.createDataFrame([lr_col, nb_col])

但是，当我运行上面的代码时，我得到了这个错误：

AssertionError：位于 0x00000237C7D2B550 的 dataType py4j.java_gateway.JavaMember 对象应该是类 'pyspark.sql.types.DataType' 的实例

如何将我的数据转换为请求的数据类型？

【问题讨论】：

【解决方案1】：

您为两个 DataFrame 中的每一个中的每个预测添加一个 uid，然后在此 id 上简单地内连接两个 DataFrame。

predictions_lr.join(predictions_nb, 'id')

【讨论】：