【发布时间】:2020-01-08 13:57:06
【问题描述】:
我在 SAS 中有运行相当简单的 Proc 回归的现有代码。我需要将其转换为 PySpark。
我希望在 PySpark 中运行线性回归并指定截距应为 0。我的 data_input 上有 2 个输入列(INPUT1 和 INPUT2)和一个输出列(OUTPUT),并且还想应用INPUT1 权重 = 1 - INPUT2 权重的限制。
我的代码目前看起来像这样,但我看不到在哪里可以添加所需的设置:
vectorAssembler=VectorAssembler(inputCols=['INPUT1', 'INPUT2'], outputCol='features')
regression_df=vectorAssembler.transform(data_input)
regression_df=regression_df.select(['features', 'OUTPUT'])
lr=LinearRegression(featuresCol='features', labelCol='OUTPUT')
model=lr.fit(regression_df)
print("Coefficients: " + str(model.coefficients))
print("Intercept: +str(model.intercept))
【问题讨论】:
标签: apache-spark pyspark linear-regression intercept