【发布时间】:2017-06-21 19:54:14
【问题描述】:
我正在尝试从数据框创建一个 LabeledPoint 的 RDD,以便稍后将其用于 MlLib。
如果my_target 列是 sparkDF 中的第一列,则下面的代码可以正常工作。但是,如果my_target 列不是第一列,如何修改下面的代码以排除my_target 以创建正确的LabeledPoint?
import pyspark.mllib.classification as clf
labeledData = sparkDF.rdd.map(lambda row: clf.LabeledPoint(row['my_target'],row[1:]))
logRegr = clf.LogisticRegressionWithSGD.train(labeledData)
即row[1:]现在排除了第一列的值;如果我想排除行 N 列中的值,我该怎么做?谢谢!
【问题讨论】:
标签: pyspark spark-dataframe rdd apache-spark-mllib