【问题标题】:Converting PySpark dataframe to the training data format required for LinearRegression?将 PySpark 数据帧转换为 LinearRegression 所需的训练数据格式?
【发布时间】:2017-05-03 02:30:13
【问题描述】:

PySpark docs/examples 中用于线性回归的格式为:

print training

DataFrame[标签:双精度,特征:向量]

我当前的 Spark DataFrame 是:

print df

DataFrame[_c0: String, col1: double, col2: double, col3: double, ... colN: double]

如何将我的 DataFrame 与 PySparks 线性回归模块一起使用?

【问题讨论】:

标签: pyspark


【解决方案1】:

虽然 sklearn 等一些 ML 框架使用一列作为目标,多列作为特征,但 Spark ML 需要一个目标列和一个包含向量的特征列。

为了从多个列中获取包含列的单个向量,有一个名为 VectorAssembler 的指定 saprk 函数。

查看文档中的详细信息:http://spark.apache.org/docs/latest/api/python/pyspark.ml.html?highlight=vector#pyspark.ml.feature.VectorAssembler

【讨论】:

    猜你喜欢
    • 2021-07-30
    • 2021-01-01
    • 1970-01-01
    • 1970-01-01
    • 2017-09-18
    • 1970-01-01
    • 2021-11-16
    • 1970-01-01
    相关资源
    最近更新 更多