【发布时间】:2016-01-21 07:12:19
【问题描述】:
使用 Spark ML 转换器,我到达了 DataFrame,其中每一行如下所示:
Row(object_id, text_features_vector, color_features, type_features)
其中text_features 是术语权重的稀疏向量,color_features 是一个小的 20 元素(one-hot-encoder)密集颜色向量,type_features 也是 one-hot-encoder 密集向量类型。
有什么好的方法(使用 Spark 的工具)将这些特征合并到一个大数组中,以便我测量任意两个对象之间的余弦距离之类的东西?
【问题讨论】:
标签: apache-spark machine-learning apache-spark-sql apache-spark-ml