【发布时间】:2022-06-30 08:25:13
【问题描述】:
目标是在 PySpark 中以可扩展的方式为每个用户执行线性回归。特点:x1 和 x2。输出:y
回归方程(零截距):y = m(x1) + n(x2)
例子:
pdf = pd.DataFrame(
{
"user": [1, 1, 1, 2, 2, 2],
"x1": [1, 2, 3, 1, 2, 3],
"x2": [2, 3, 4, 5, 6, 7],
"y": [2, 4, 6, 3, 6, 9],
}
)
df = sc.createDataFrame(pdf)
df.show()
数据如下:
+----+---+---+---+
|user| x1| x2| y|
+----+---+---+---+
| 1| 1| 2| 2|
| 1| 2| 3| 4|
| 1| 3| 4| 6|
| 2| 1| 5| 3|
| 2| 2| 6| 6|
| 2| 3| 7| 9|
+----+---+---+---+
【问题讨论】:
-
x1 和 x2 在哪里?
-
@Steven 已更新。
标签: machine-learning pyspark linear-regression apache-spark-ml