【发布时间】:2017-11-21 15:18:50
【问题描述】:
我正在使用 Zeppelin 0.7.1 和 spark 2.1.0。
我在数据框“数据集”中有一些数据:
+-------+-------+-------+-------+
| index |var 1 |var 2 |var 3 |
+-------+-------+-------+-------+
| 0 | 0 | 1 | 0 |
+-------+-------+-------+-------+
| 1 | 0 | 1 | 0 |
+-------+-------+-------+-------+
| 2 | 1 | 0 | 1 |
+-------+-------+-------+-------+
为了进行线性回归,我希望将每一列放在一个向量列中:
from pyspark.ml.linalg import Vectors
from pyspark.ml.feature import VectorAssembler
assembler = VectorAssembler(inputCols=['var 1', 'var 2', 'var 3'], outputCol='features')
output = assembler.transform(dataset)
好吧,在 Zeppelin 中运行这个之后,我无法运行其他段落。我必须重新启动我的解释器... 如果有人知道问题可能来自哪里。
谢谢!
【问题讨论】:
标签: pyspark apache-spark-mllib apache-zeppelin