【发布时间】:2016-06-21 00:54:51
【问题描述】:
VectorAssembler 的功能有一些很烦人的地方。 我目前正在将一组列转换为单列 向量,然后使用 StandardScaler 函数应用缩放 到包含的功能。但是,似乎有 SPARK 记忆 原因,决定是否应该使用 DenseVector 或 SparseVector 来表示每一行特征。 但是,当您需要使用 StandardScaler 时,SparseVector(s) 的输入 无效,只允许使用 DenseVectors。有人知道解决办法吗?
编辑: 我决定只使用 UDF 函数,这将 稀疏向量变为稠密向量。有点傻,但很有效。
【问题讨论】:
标签: apache-spark pyspark