【发布时间】:2017-09-05 10:40:41
【问题描述】:
所以我从 parquet 文件中加载了一个数据框。此数据框现在包含未指定数量的列。第一列是标签,下面是特征。
我想将数据框中的每一行保存为 LabeledPoint。
目前我在想:
val labeledPoints: RDD[LabeledPoint] =df.map{row => LabeledPoint(row.getInt(0),Vectors.dense(row.getDouble(1),row.getDouble(2)))}
获取列索引很容易,但是在处理大量列时,这将不成立。我希望能够将从索引 1 开始的整行(因为索引 0 是标签)加载到密集向量中。
有什么想法吗?
【问题讨论】:
标签: scala apache-spark apache-spark-mllib